開源大數據技術架設高校連接企業新橋梁

2015年06月26日 15點28分 來源：億恩IDC資訊 有0人參與

云主機服務器租用服務器托管虛擬主機域名注冊網站建設

時下，大數據已經走出互聯網行業，在金融、交通、醫療等眾多傳統行業得到深入應用，然而如果說高校去玩大數據，聽起來似乎還是不那么“靠譜”——首先，高校很難獲得真實生產數據；其次，高校也無法貼近真實的業務。基于以上等眾多原因，高校很難真正地進軍大數據。

時下，大數據已經走出互聯網行業，在金融、交通、醫療等眾多傳統行業得到深入應用，然而如果說高校去玩大數據，聽起來似乎還是不那么“靠譜”——首先，高校很難獲得真實生產數據；其次，高校也無法貼近真實的業務。基于以上等眾多原因，高校很難真正地進軍大數據。然而，在近日的“AMPCamp@China大數據訓練營”，筆者看到了借助Spark這個大數據計算框架，眾多高校已經和企業達成技術層面的合作，似乎也獲得了接觸真實業務的契機。

5月底，在英特爾亞太研發有限公司的大力支持下，由UC Berkeley發起的AMPCamp首次在美國本土之外舉辦，落戶中國，圍繞Spark整個生態圈進行了深度的分享。

眾所周知，Spark發源于UC Berkeley AMPLab，后由Databricks護航，當下已成為大數據領域風頭最勝的開源計算框架。然而，當Michael Franklin在AMPCamp@China上秀出Berkeley當下的數據分析平臺時，筆者仍然被震撼了，如圖所示，整個架構中所有藍色部分都出自AMPLab之手。在這之外，我們同樣可以讀出，UC Berkeley通過開源技術已經深入大數據的實踐中。那么，通過開源大數據技術，其他高校，更關鍵的是國內高校又有什么樣的發展呢？在活動上，筆者訪問了英特爾大數據首席架構師戴金權、南京大學計算機科學與技術系教授、博導黃宜華以及華東師范大學計算機與技術系教授周傲英。

通過戴金權了解到，英特爾大數據研發團隊是個全球性的團隊，遍布中國、美國、印度等多個國家。而值得一提的是，其中80%以上的研發人員在中國。在開源社區方面，Intel投入了大量的精力，覆蓋Spark、Hadoop、Hbase、Hive等眾多項目，就2014年來看，英特爾在開源社區上的貢獻僅次于Cloudera、HortonWorks、雅虎等，總貢獻量排第四位，在不同項目上擁有23位commiter，以及大量的貢獻者。

此外，英特爾從2012年開始就與AMPLab進行緊密合作，在Spark落地上投入了大量精力，貢獻僅次于UC Berkeley和Databricks，在如Tachyon等Spark生態圈組件上也有較強的投入。在高校之外，英特爾與許多互聯網公司達成合作，讓Spark落地具體業務；更與Cloudera等知名大數據公司合作，旨在打造新一代的大數據分析解決方案。圍繞著大數據開源技術，英特爾與開源社區、工業界、學術界擁有著大量合作。

專訪期間，戴金權還分享了幾個大家對Spark比較關注的問題：

MapReduce vs. Spark。Spark可以認為是MapReduce的超集，理論上MapReduce能做的，Spark都可以做到，所以今天越來越多的應用（特別是新的應用），都在從MapReduce的框架向Spark遷移。今天Hadoop MapReduce的最大優勢是在于它的成熟度，經過了工業界長時間、在大規模集群規模和處理規模上的驗證，在穩定性、運維工具等方面有比較好的支持；但是隨著業界對Spark的越來越多的應用，Spark在這方面也在快速改進中。

DataFrame vs. SchemaRDD。DataFrame和SchemaRDD理論上來說并沒有本質的區別，事實上在今天的實現里，SchemaRDD是DataFrame的type alias。DataFrame是從用戶和Data Scientist的角度，提供對用戶更加友好的接口，并為Spark里的其他模塊（如ML和SparkR）提供更自然的API和抽象。DataFrame在Spark 1.3中是屬于實驗性質的，但隨著Spark 1.4的推出，會得到更多的應用（如SparkR的接口就是基于DataFrame的）。

Tungsten。Tungsten的目標是提高Spark在現代硬件平臺上的運行效率，大多數的改進會在今年（Spark 1.4、1.5、1.6）完成；如在Spark 1.4中，已經加入了對DataFrame aggregation操作和對Spark里sort based shuffle的改進。

運維。正像之前說的，Spark在運維工具等方面還有很多工作要做，包括和YARN環境更好的整合等；同時英特爾也在和一些用戶一起嘗試用container（Docker）來構建一些DevOps自動化的框架。

黃宜華表示，PASA實驗室成立于2009年，是全國高校中最早完全從事大數據技術研究的團隊，開展了一系列的技術研究和應用研究工作，有很多國家項目和省部級項目，在業界有廣泛的合作，包括英特爾、谷歌，現在和微軟亞洲研究院、中興通訊、百度、中科院計算所等國內外知名的企業、研究機構都在大數據方面專門進行合作研究。近兩年來，PASA更與UC Berkeley AMP實驗室圍繞Spark展開合作，同時也是Apache Spark和Tachyon的貢獻者。此外，在2011年參與了Intel Hadoop發行版的學術研究合作。

在Spark與Tachyon方面，自2014年，PASA實驗室和UC Berkeley和英特爾三方開展了新的優化和Tachyon系統功能增強的研發。在這兩個方面，實驗室目前大概有近20項性能優化和功能增強的研究成果和程序模塊，補丁已經貢獻到開源的Spark和Tachyon系統里面，在這個里面有一個比較好的成果，實驗室把Tachyon第一次和Spark結合得非常緊密，解決了Spark原來基于Java性能比較低的問題，使得現在Spark的計算性能有了顯著提高，這個一個比較重要的貢獻。

在Tachyon工作的基礎上，南大幫UC Berkeley做了Tachyon Perf——內存文件系統的性能評測工具，現在已經集成到了Tachyon系統里面。在這個工作的基礎上，實驗室進一步做了一個通用的，就是全球第一個通用化的分布式文件系統的評測工具，叫DFS-Perf，可對各種各樣的分布式文件系統，對各種負載進行性能評測的工具。

從周傲英了解到，在2012年，華東師范大學就與SAP合作，從事內存計算相關研發，并成立了云計算和大數據研究中心，旨在促進學科交叉，實現協同創新，也打造了一個平臺，為不同領域的人提供一個交流的平臺。而隨后，華東師范大學一直與AMPLab進行深入的交流。

專訪期間，周傲英表示，推動IT發展的一直都不是IT公司。著眼大數據與云計算，其發展與互聯網公司有著密不可分的關系。而在這發展的過程中，擺脫慣性思維帶來的影響至關重要。短短幾年，許多知名機構就完成了從小型機、企業數據庫、虛擬化到商用硬件+開源技術（或自主研發）的轉變，其中有些東西是大多人想都不敢想的，更是大多機構不愿意去做的。這是一個充滿機遇的時代，但是相關工作者首先要做的就是去想。

在敢想之外，另一個就是應用——發展是創新驅動的，而創新很顯然是追逐機構的需求。縱觀當下，Hadoop、Spark、Docker等熱門技術無一不是在大環境中特定的需求所催生的。最后一點就是推廣，而當下開源這種方式已經被廣泛的證明其有效性，關鍵的是，它能讓更的人和各行各業的人參與進去。

最后，周傲英說道，談大數據領域的技術，其實很多都是發展了多年的老技術，比如Deep Learning，之所以現在大紅大紫，其一大部分原因還是歸結到大數據全景圖中的最上層——業務應用以及變現。因此，系統架構師和數據科學家是這個大數據時代最需要的兩類人，這類人更多的需要計算機的知識，而且這類人更多的是需要數學的知識，但是首先都要理解應用。因此，華東師范大學希望成立這樣一個學院，去理解數據科學與工程這樣的學科，數據工程與工程，我們把它當成一個學科，這個學科到底有什么內涵，需要什么樣的知識體系，這正是華東師范大學正在做的事情。

河南億恩科技股份有限公司(www.vbseamall.com)始創于2000年，專注服務器托管租用，是國家工信部認定的綜合電信服務運營商。億恩為近五十萬的用戶提供服務器托管、服務器租用、機柜租用、云服務器、網站建設、網站托管等網絡基礎服務，另有網總管、名片俠網絡推廣服務，使得客戶不斷的獲得更大的收益。
服務器/云主機 24小時售后服務電話：0371-60135900
虛擬主機/智能建站 24小時售后服務電話：0371-55621053
網絡版權侵權舉報電話：0371-60135995
服務熱線：0371-60135900