“大數據”與“海量數據”的區別 |
發布時間: 2012/8/7 19:46:43 |
中國IDC評述網11月04日報道:很多年前,業界就在討論一個話題:如何應對海量數據?特別是一些需要存儲大量用戶數據的行業,金融、電信、保險等熱門行業。用戶幾乎在一天的每個小時,都有可能產生大量數據,這些行業的存儲設備,必須要將期間產生的數據一絲不茍地記錄下來。隨著數據量的迅速增加,很多行業用戶開始想辦法變“數”為寶,從海量數據中挖掘有價值的信息。
如果僅僅是海量的結構性數據,那么解決的辦法就比較的單一,用戶通過購買更多的存儲設備,提高存儲設備的效率等解決此類問題。然而,當人們發現數據庫中的數據可以分為三種類型:結構性數據、非結構性數據以及半結構性數據等復雜情況時,問題似乎就沒有那么簡單了。
大數據洶涌來襲
當類型復雜的數據洶涌襲來,那么對于用戶IT系統的沖擊又會是另外一種處理方式。很多業內專家和第三方調查機構通過一些市場調查數據發現,大數據時代即將到來。有調查發現,這些復雜數據中有85%的數據屬于廣泛存在于社交網絡、物聯網、電子商務等之中的非結構化數據。這些非結構化數據的產生往往伴隨著社交網絡、移動計算和傳感器等新的渠道和技術的不斷涌現和應用。
如今大數據的概念也存在著很多的炒作和大量的不確定性。為此,編者詳細向一些業內專家詳細了解有關方面的問題,請他們談一談,大數據是什么和不是什么,以及如何應對大數據等問題,將系列文章的形式與網友見面。
有人將多TB數據集也稱作"大數據"。據市場研究公司IDC統計,數據使用預計將增長44倍,全球數據使用量將達到大約35.2ZB(1ZB = 10億TB)。然而,單個數據集的文件尺寸也將增加,導致對更大處理能力的需求以便分析和理解這些數據集。
EMC曾經表示,它的1000多個客戶在其陣列中使用1PB(千兆兆)以上的數據數據,這個數字到2020年將增長到10萬。一些客戶在一兩年內還將開始使用數千倍多的數據,1EB(1艾字節 = 10億GB)或者更多的數據。
對大企業而言,大數據的興起部分是因為計算能力可用更低的成本獲得,且各類系統如今已能夠執行多任務處理。其次,內存的成本也在直線下降,企業可以在內存中處理比以往更多的數據,另外是把計算機聚合成服務器集群越來越簡單。IDC認為,這三大因素的結合便催生了大數據。同時,IDC還表示,某項技術要想成為大數據技術,首先必須是成本可承受的,其次是必須滿足IBM所描述的三個"V"判據中的兩個:多樣性(variety)、體量(volume)和速度(velocity)。
多樣性是指,數據應包含結構化的和非結構化的數據。
體量是指聚合在一起供分析的數據量必須是非常龐大的。
而速度則是指數據處理的速度必須很快。
大數據"并非總是說有數百個TB才算得上。根據實際使用情況,有時候數百個GB的數據也可稱為大數據,這主要要看它的第三個維度,也就是速度或者時間維度。
Garter表示,全球信息量正在以59%以上的年增長率增長,而量是在管理數據、業務方面的顯著挑戰,IT領袖必須側重在信息量、種類和速度上。
量:企業系統內部的數據量的增加是由交易量、其它傳統數據類型和新的數據類型引發的。過多的量是一個存儲的問題,但過多的數據也是一個大量分析的問題。
種類:IT領袖在將大量的交易信息轉化為決策上一直存在困擾 - 現在有更多類型的信息需要分析 - 主要來自社交媒體和移動(情景感知)。種類包括表格數據(數據庫)、分層數據、文件、電子郵件、計量數據、視頻、靜態圖像、音頻、股票行情數據、金融交易和其它更多種類。
速度:這涉及到數據流、結構化記錄的創建,以及訪問和交付的可用性。速度意味著正在被生成的數據有多快和數據必須被多快地處理以滿足需求。
雖然大數據是一個重大問題,Gartner分析師表示,真正的問題是讓大數據更有意義,在大數據里面尋找模式幫助組織機構做出更好的商業決策。 本文出自:億恩科技【www.vbseamall.com】 |