• <ul id="mayc0"></ul>
    <ul id="mayc0"><center id="mayc0"></center></ul>
    <strike id="mayc0"><input id="mayc0"></input></strike>
    <ul id="mayc0"></ul>
  • 億恩科技有限公司旗下門戶資訊平臺!
    服務器租用 4元建網站

    開源大數據技術架設高校連接企業新橋梁

    時下,大數據已經走出互聯網行業,在金融、交通、醫療等眾多傳統行業得到深入應用,然而如果說高校去玩大數據,聽起來似乎還是不那么“靠譜”——首先,高校很難獲得真實生產數據;其次,高校也無法貼近真實的業務。基于以上等眾多原因,高校很難真正地進軍大數據。

    時下,大數據已經走出互聯網行業,在金融、交通、醫療等眾多傳統行業得到深入應用,然而如果說高校去玩大數據,聽起來似乎還是不那么“靠譜”——首先,高校很難獲得真實生產數據;其次,高校也無法貼近真實的業務。基于以上等眾多原因,高校很難真正地進軍大數據。然而,在近日的“AMPCamp@China大數據訓練營”,筆者看到了借助Spark這個大數據計算框架,眾多高校已經和企業達成技術層面的合作,似乎也獲得了接觸真實業務的契機。

    5月底,在英特爾亞太研發有限公司的大力支持下,由UC Berkeley發起的AMPCamp首次在美國本土之外舉辦,落戶中國,圍繞Spark整個生態圈進行了深度的分享。

    眾所周知,Spark發源于UC Berkeley AMPLab,后由Databricks護航,當下已成為大數據領域風頭最勝的開源計算框架。然而,當Michael Franklin在AMPCamp@China上秀出Berkeley當下的數據分析平臺時,筆者仍然被震撼了,如圖所示,整個架構中所有藍色部分都出自AMPLab之手。在這之外,我們同樣可以讀出,UC Berkeley通過開源技術已經深入大數據的實踐中。那么,通過開源大數據技術,其他高校,更關鍵的是國內高校又有什么樣的發展呢?在活動上,筆者訪問了英特爾大數據首席架構師戴金權、南京大學計算機科學與技術系教授、博導黃宜華以及華東師范大學計算機與技術系教授周傲英。

    通過戴金權了解到,英特爾大數據研發團隊是個全球性的團隊,遍布中國、美國、印度等多個國家。而值得一提的是,其中80%以上的研發人員在中國。在開源社區方面,Intel投入了大量的精力,覆蓋Spark、Hadoop、Hbase、Hive等眾多項目,就2014年來看,英特爾在開源社區上的貢獻僅次于Cloudera、HortonWorks、雅虎等,總貢獻量排第四位,在不同項目上擁有23位commiter,以及大量的貢獻者。

    此外,英特爾從2012年開始就與AMPLab進行緊密合作,在Spark落地上投入了大量精力,貢獻僅次于UC Berkeley和Databricks,在如Tachyon等Spark生態圈組件上也有較強的投入。在高校之外,英特爾與許多互聯網公司達成合作,讓Spark落地具體業務;更與Cloudera等知名大數據公司合作,旨在打造新一代的大數據分析解決方案。圍繞著大數據開源技術,英特爾與開源社區、工業界、學術界擁有著大量合作。

    專訪期間,戴金權還分享了幾個大家對Spark比較關注的問題:

    MapReduce vs. Spark。Spark可以認為是MapReduce的超集,理論上MapReduce能做的,Spark都可以做到,所以今天越來越多的應用(特別是新的應用),都在從MapReduce的框架向Spark遷移。今天Hadoop MapReduce的最大優勢是在于它的成熟度,經過了工業界長時間、在大規模集群規模和處理規模上的驗證,在穩定性、運維工具等方面有比較好的支持;但是隨著業界對Spark的越來越多的應用,Spark在這方面也在快速改進中。

    DataFrame vs. SchemaRDD。DataFrame和SchemaRDD理論上來說并沒有本質的區別,事實上在今天的實現里,SchemaRDD是DataFrame的type alias。DataFrame是從用戶和Data Scientist的角度,提供對用戶更加友好的接口,并為Spark里的其他模塊(如ML和SparkR)提供更自然的API和抽象。DataFrame在Spark 1.3中是屬于實驗性質的,但隨著Spark 1.4的推出,會得到更多的應用(如SparkR的接口就是基于DataFrame的)。

    Tungsten。Tungsten的目標是提高Spark在現代硬件平臺上的運行效率,大多數的改進會在今年(Spark 1.4、1.5、1.6)完成;如在Spark 1.4中,已經加入了對DataFrame aggregation操作和對Spark里sort based shuffle的改進。

    運維。正像之前說的,Spark在運維工具等方面還有很多工作要做,包括和YARN環境更好的整合等;同時英特爾也在和一些用戶一起嘗試用container(Docker)來構建一些DevOps自動化的框架。

    黃宜華表示,PASA實驗室成立于2009年,是全國高校中最早完全從事大數據技術研究的團隊,開展了一系列的技術研究和應用研究工作,有很多國家項目和省部級項目,在業界有廣泛的合作,包括英特爾、谷歌,現在和微軟亞洲研究院、中興通訊、百度、中科院計算所等國內外知名的企業、研究機構都在大數據方面專門進行合作研究。近兩年來,PASA更與UC Berkeley AMP實驗室圍繞Spark展開合作,同時也是Apache Spark和Tachyon的貢獻者。此外,在2011年參與了Intel Hadoop發行版的學術研究合作。

    在Spark與Tachyon方面,自2014年,PASA實驗室和UC Berkeley和英特爾三方開展了新的優化和Tachyon系統功能增強的研發。在這兩個方面,實驗室目前大概有近20項性能優化和功能增強的研究成果和程序模塊,補丁已經貢獻到開源的Spark和Tachyon系統里面,在這個里面有一個比較好的成果,實驗室把Tachyon第一次和Spark結合得非常緊密,解決了Spark原來基于Java性能比較低的問題,使得現在Spark的計算性能有了顯著提高,這個一個比較重要的貢獻。

    在Tachyon工作的基礎上,南大幫UC Berkeley做了Tachyon Perf——內存文件系統的性能評測工具,現在已經集成到了Tachyon系統里面。在這個工作的基礎上,實驗室進一步做了一個通用的,就是全球第一個通用化的分布式文件系統的評測工具,叫DFS-Perf,可對各種各樣的分布式文件系統,對各種負載進行性能評測的工具。

    從周傲英了解到,在2012年,華東師范大學就與SAP合作,從事內存計算相關研發,并成立了云計算和大數據研究中心,旨在促進學科交叉,實現協同創新,也打造了一個平臺,為不同領域的人提供一個交流的平臺。而隨后,華東師范大學一直與AMPLab進行深入的交流。

    專訪期間,周傲英表示,推動IT發展的一直都不是IT公司。著眼大數據與云計算,其發展與互聯網公司有著密不可分的關系。而在這發展的過程中,擺脫慣性思維帶來的影響至關重要。短短幾年,許多知名機構就完成了從小型機、企業數據庫、虛擬化到商用硬件+開源技術(或自主研發)的轉變,其中有些東西是大多人想都不敢想的,更是大多機構不愿意去做的。這是一個充滿機遇的時代,但是相關工作者首先要做的就是去想。

    在敢想之外,另一個就是應用——發展是創新驅動的,而創新很顯然是追逐機構的需求。縱觀當下,Hadoop、Spark、Docker等熱門技術無一不是在大環境中特定的需求所催生的。最后一點就是推廣,而當下開源這種方式已經被廣泛的證明其有效性,關鍵的是,它能讓更的人和各行各業的人參與進去。

    最后,周傲英說道,談大數據領域的技術,其實很多都是發展了多年的老技術,比如Deep Learning,之所以現在大紅大紫,其一大部分原因還是歸結到大數據全景圖中的最上層——業務應用以及變現。因此,系統架構師和數據科學家是這個大數據時代最需要的兩類人,這類人更多的需要計算機的知識,而且這類人更多的是需要數學的知識,但是首先都要理解應用。因此,華東師范大學希望成立這樣一個學院,去理解數據科學與工程這樣的學科,數據工程與工程,我們把它當成一個學科,這個學科到底有什么內涵,需要什么樣的知識體系,這正是華東師范大學正在做的事情。

    河南億恩科技股份有限公司(www.vbseamall.com)始創于2000年,專注服務器托管租用,是國家工信部認定的綜合電信服務運營商。億恩為近五十萬的用戶提供服務器托管、服務器租用、機柜租用、云服務器、網站建設、網站托管等網絡基礎服務,另有網總管、名片俠網絡推廣服務,使得客戶不斷的獲得更大的收益。
    服務器/云主機 24小時售后服務電話:0371-60135900
    虛擬主機/智能建站 24小時售后服務電話:0371-55621053
    網絡版權侵權舉報電話:0371-60135995
    服務熱線:0371-60135900

    0
    0
    分享到:責任編輯:小巍

    相關推介

    共有:0條評論網友評論:

    驗證碼 看不清換一張 換一張

    親,還沒評論呢!速度搶沙發吧!