基于英特爾平臺的Hadoop私有云架構 |
發布時間: 2012/7/3 19:27:07 |
中國IDC圈12月13日報道:提到云計算,我們通常能夠與Google、微軟、雅虎這樣的業界大腕相聯系,與中小企業無緣。而實際上,得益于諸如Hadoop這樣的開源軟件,廣大中小企業也可以搭建自己的私有云,并相當程度的滿足自身需求。這篇文章會從實踐出發,談一談企業如何在基于英特爾的開放架構上架設Hadoop私有云系統,以及測試實施的效果到底如何。 目前系統面臨的問題 從過去來看,企業系統當中存在相當數量的應用,各自承載不同類型的大計算量任務,比如分詞、產品分析、新詞發現等等。 而目前的系統由于是基于單機的實現的,盡管單服務器性能也足夠強,但對于多任務的執行,效率實在相當低下,某物流公司僅當月的產品分析一項就花了近300個機時。 如果沿著現在的方式走下去的話,那么開發成本,維護成本,硬件投入,以及跨項目組的溝通協調成本都會持續提升;而硬件使用效率跟開發人員生產率卻會下降。從這點出發,需要構造一個通用的分布式計算框架引擎作為新的基礎計算架構,來滿足任務需求。 系統需求 1、通用性——系統需要實現任務分發,負載平衡,錯誤恢復等分布式計算的基礎工作,一個計算密集型的任務可以通過簡易的封裝,部署在系統執行,在同一時間內,系統可以執行不同類型的任務,由此達到對服務器資源的最有效利用,從這一點上來看,系統需要的是一個開放式的基礎架構。 2、穩定性——系統本身的運行穩定; 3、可擴展性——主要是指Scale Out的能力,需要新的服務器資源可以簡易的集成進集群,投入應用; 4、靈活性,除去通過API或者通過擴展框架來將任務部署在系統中外,也要支持利用Python等腳本語言進行輕量級的開發,來應對一些ad-hoc的任務; 5、支持對大規模數據量的處理,以及對最終結果的集中收集。 英特爾平臺的Hadoop私有云解決方案 從開放行、穩定性和擴展性等多方面角度考慮,基于Intel至強處理器平臺是新的系統架構的選擇,整個系統建立在Intel至強5600架構平臺之上,在開源的分布式計算框架Hadoop上定制開發。Hadoop是一套對Google著名MapReduce模式的實現,用最簡單的話說,MapReduce就是把任務數據拆分成多塊,分別在不同的服務器上進行處理,最后再把中間結果聚合起來,得到最終結果。 從應用加載來看,所有的服務器資源根據應用被劃分,運行穩定可靠,如果中間因為網絡或者小部分服務器本身故障,Hadoop的內部機制可以自動將任務分配到正常機器上運行,以保證所有任務最終的順利完成。 另外,由于所有的計算任務會在單獨的線程中進行,所以可以充分利用至強5600的多線程和超線程技術。此外,配合英特爾QPI總線設計,處理器間的連接帶寬提升至25.6GB/s,CPU與內存的數據帶寬也達到了32GB/s,經在四核的服務器上測試,由于應用本身沒有對多核進行優化,因此在主程序執行時,即便是單機性能也提高了近50%. 總結 基于Hadoop的開放平臺私有云架構的戰略意義 1、大幅減少現有計算密集型任務的時間,大幅提高服務器利用效率; 2、使未來對計算要求更高的業務成為可能,這樣的架構允許任意添加新的X86服務器就能擴充計算資源,而不會增加額外的管理和維護成本。 3. 最后,系統除了支持Java,也支持Python和Bash Shell這樣輕量級的腳本語言,也使得開發人員能夠利用廉價而高性能的計算平臺進行業務創新。 本文出自:億恩科技【www.vbseamall.com】 |