• <ul id="mayc0"></ul>
    <ul id="mayc0"><center id="mayc0"></center></ul>
    <strike id="mayc0"><input id="mayc0"></input></strike>
    <ul id="mayc0"></ul>
  • 始創于2000年 股票代碼:831685
    咨詢熱線:0371-60135900 注冊有禮 登錄
    • 掛牌上市企業
    • 60秒人工響應
    • 99.99%連通率
    • 7*24h人工
    • 故障100倍補償
    您的位置: 網站首頁 > 幫助中心>文章內容

    數據質量管理:數據中心優化必修課

    發布時間:  2012/8/31 17:20:42

    數據是企業數據中心的重要資產,獲取并維護高質量數據,對高效的IT和業務運營至關重要。面對復雜度不斷增加的業務數據,如何全面保證數據質量?借助完備的Informatica數據質量平臺,無論何時何地,您都可以在整個企業內訪問,甄別、清洗、集成、交付可信的數據,并在第一時間找出并修正藏匿于任意位置、令您的公司動輒花費上百萬的數據質量問題。

    Informatica的數據管理目標

    您心目中企業數據的價值幾何?調查顯示,信息的價值平均為企業價值的37%,可以說,信息已經成為企業最重要的資產之一,越來越多的企業更加重視數據中心的建設。但有許多因素會導致這些“資產”貶值,比如數據的冗余和重復導致信息的不可識別、不可信,信息時效性不強,精確度不夠;結構或非結構數據使整合有困難;管理層面的人員變動引發的影響;數據標準不能統一,相關規范不完善造成對數據理解的不充分等等。

    Informatica既可以在數據架構層面提供信息傳遞、B2B數據交換、企業數據集成等一系列的基礎架構解決方案,同時也可為行業提供數據質量管理、主數據管理和復雜事件處理等方案,來支撐數據中心實現可信、交互、權威的信息資產管理,達成企業的業務目標,這也是信息中心建設的一個重點。


     
    數據質量管理的整體框架

    數據質量管理在數據中心建設中是一個完整的生態鏈。數據質量會受到供應商、生產員工、工藝流程以及內部客戶和外部一些系統的影響,同時,從應用和軟件角度方面講,數據提供者、軟件開發集成、質量管控手段等也都會影響到企業數據質量的整體狀況。

    從數據質量整體框架和方法論上講,首先我們要確定目標,然后要清楚用什么人,通過怎樣的流程,采用什么樣的技術支撐來達成目標,人、流程、技術三方面缺一不可。而設定最終目標前最重要的一件事是要了解現狀,找出企業最關注哪些數據質量,通過記分卡對現有數據進行評估,同時還要進行實時的監控,從流程、時間角度發現數據的變化,了解現狀后確定的目標才是可信、可完成的,而不是天方夜譚式的水中月、霧中花。

    數據質量理論上不是完全可控的,要實現數據質量提升,必須要做到指標的可量化,通過量化指標實現質量可控。從技術層面講,要從以下六個角度去考量數據質量,也稱為數據質量的矩陣,包括:完備性(信息是否填寫全面)、符合性(數據是否按照標準格式進行填寫)、一致性(是指內部沖突,同一系統中兩個字段間相關推導和約束關系)、準確性(包括數據是否真實有效和數據是否及時更新)、唯一性(多條信息是否相同和一致)以及完整性(從約束性和參考性方面考慮,數據相互間的參照關系)。當然,企業是要根據自己的業務需求來確定考量數據質量的指標或體系,并不一定必須局限在這六個方面。

    構建數據質量處理流程

    一個完整的數據質量管理,是人、流程和技術的完美配合,才能達到我們數據質量管理的目標。那數據質量處理的流程是怎樣的呢?對于數據質量的處理,我們把它分成兩大部分,一是面向數據質量的分析過程,二是針對分析結果進行增強的過程。先要識別和量化數據質量,然后定義數據質量和目標,接下來就要交給相關部門設計質量提升的流程,其后就是實現質量提升的流程,把原有低質量數據變成高質量數據,并交付給業務人員使用。同時,在整個環境中,還需要有相關的一些監控和對比來評估是否達成了目標,決定是否需要進行新一輪的數據質量提升。這是一個周而復始、螺旋上升的過程,并不是一蹴而就,一次就可以解決全部問題。

    通過Informatica構建數據質量管理主要分為四大部分。首先是Analyze andPrfiling,通過對現有數據的詳細分析、描繪,來確定怎樣對他進行處理和標準化;第二是Standardise\Cleanse,標準化和清洗更容易讓計算機識別,比如數據可以通過什么樣的格式進行限制和約束,進行怎樣的交驗就可以達到數據標準的要求,那些信息可以通過數據質點或者參考數據進行相關的標準化;第三是Match,標準化后要進行相關的數據匹配,解決數據重復性問題,并保證數據的唯一性;第四是Consolidate,將重復數據進行合并,最后運用到不同的系統當中。需要注意的是,在整個過程中我們都需要進行相關的監控。在我們日常數據中心的建設中,也可以對這幾部分進行相關的延展或者精簡來完善我們數據質量管理的過程。

    這里重點介紹一下Informatica最具特色的模糊匹配技術。在數據匹配關聯中,可以用到不同的匹配關聯技術,比如在實現數據的精確快速匹配時,可以先對數據進行預覽,查看兩個數據的可匹配度是多少,再進行分析來確定這種匹配是否適用于此種數據的匹配過程。如沒有精確匹配來保證匹配率,則可以采用模糊比對的方法,比如下圖中,在人名比對中,可能因為拼音簡、繁體輸入問題造成一個人的數據信息不一致,王門騫的“騫”,一個是簡體,一個是繁體,這兩個字在計算機編碼中并不一致,所以他們的名稱并不相等,這時就要對他的名字進行模糊匹配打分,通過結果來分辯數據的可信度。比如設定0.8以上的數據為可信,那第兩條王門騫就是可信的同一個人,而第二條陳東壁被判定不是同一個人。

    現在,很多企業的數據中心,不僅僅只是一個最單純的面向數據倉庫的數據存儲中心,而是既能支持業務運營,又支持系統分析,還可進行系統間的整合。在數據中心建設中,數據質量需要從數據源端就開始進行治理,治理到業務交互的各個過程。包括PowerCenter、Data Quality、MDM Hub、Informatica 9在內的Informatica的數據質量工具,可以將所有的業務邏輯和規則變成相關的一些服務,由各個業務前端、各個業務處理過程中,對數據服務進行調用,進行相關的數據校驗和數據清洗,這就是Informatica數據質量平臺為企業數據中心建設所提供的支持和幫助。讓我們可信的數據大廈從現在開始構建!


    本文出自:億恩科技【www.vbseamall.com】

    服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區翠竹街1號總部企業基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網安備41019702002023號
      0
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線