百度陳尚義:百度新存儲系統應對大數據挑戰 |
發布時間: 2012/6/22 10:34:02 |
近日,百度技術委員會理事長陳尚義應邀出席第四屆中國云計算大會“云計算與大數據專題論壇”。同時出席論壇的還有電子學會名譽理事長、原信息產業部部長吳基傳,中國電子學會副理事長劉汝林,北航計算機學院院長呂衛鋒等產業界高端專家、學者。
陳尚義在論壇上作題為“百度大數據挑戰及應對”的主題演講,從百度的數據特點及對存儲系統的要求出發,介紹了百度存儲系統的先進性。 “百度儲存和處理的數據主要包括:網頁和超鏈的數據量、日志、數據倉庫、廣告數據、UGC(用戶創造的數據)” 陳尚義紹了百度的數據特點,并用“海量”和“復雜”來形容百度數據特點。“百度擁有的數據總量上百PB,日處理量達幾十PB,且呈現高速增長的態勢。而且,這些數據的特點是,結構化與非結構化并存,系統數據對數據一致性要求強弱程度不同,用戶對數據的訪問行為存在不確定性,即在毫無征兆的情況下,對某些信息進行突發式訪問等。這些特點使得百度要應對復雜的存儲要求。” 如何應對這樣的挑戰,陳尚義通過解析百度的云儲存架構及優勢,為與會嘉賓解開了疑惑。其中,陳尚義特別指出,百度對存儲系統做了全局優化,包括針對訪問模式的優化、針對硬件特性的優化、依訪問模式定制硬件、提升單機性能、與CDN系統實現更優結合。 “比如,在硬件特性優化方面,百度對單機的硬件(CPU、內存、硬盤、SSD等)進行合理配比,以實現單機資源的充分利用。”陳尚義解釋說,“又如,在與CDN系統實現更優結合方面,百度將最常被訪問的數據自動緩存到距離用戶最近的數據中心。” 在介紹百度儲存優勢時,陳尚義還介紹了李彥宏發明的超鏈分析技術。“這一技術早在1999年就被授予了專利,比Google創始人佩奇申請的Pagerank專利還早,是搜索引擎產業發展的基石。原中國計算機學會理事長、中國工程院院士李國杰先生稱贊‘李彥宏在推動計算技術和產業的發展中做出了可載入史冊的歷史性貢獻’。” 本文出自:億恩科技【www.vbseamall.com】 |