您當前位置：首頁 > 互聯網 > 孫元浩：基于Spark引擎的高速內存分析和挖掘工具應用

孫元浩：基于Spark引擎的高速內存分析和挖掘工具應用

來源：程序員人生發布時間：2014-10-12 20:31:35 閱讀次數：3401次

2014年4月19日“中國Spark技術峰會”（Spark Summit China 2014）將在北京召開，國內外Apache Spark社區成員和企業用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網易等公司的Spark貢獻者及一線開發者將分享他們在生產環境中的Spark項目經驗和最佳實踐方案。

在Spark技術峰會召開前夕，記者和本次Spark峰會的演講嘉賓孫元浩做了一次簡單的溝通，他表示將會在4月19日“中國Spark技術峰會”和大家分享如何構建分布式內存列式存儲，以及如何利用PL/SQL和R語言對內存數據進行高速數據統計和挖掘！點擊報名！

孫元浩

2003年加入英特爾，曾是英特爾亞太研發有限公司數據中心軟件部亞太區CTO，負責英特爾Hadoop發行版的研發和產品化工作。 2013年離開英特爾創辦星環科技，推出國內首個基于Spark的大數據平臺產品，在中國成功建立數個Spark成功案例。

以下是記者采訪原文：

-什么原因吸引你鉆研Spark技術？

2012年我們當時仿照Dremel在Hadoop上實現SQL引擎，但是這個項目沒有持續下去。因為我們發現對SQL并行化、容錯性和擴展性支持最好的仍然是M/R引擎，而不是Dremel或者MPP引擎。所以當時開始轉向去研究如何改造或重新實現M/R，這時候開始了解Spark。Spark的架構設計非常優美，RDD和操作原語的抽象，很像早年我們為多核或GPU設計的并行架構，如CUDA。我認為Spark就是我們理想的M/R計算引擎，開始投入全部精力在Spark的開發上。

-對于解決哪些問題Spark獨具優勢？

我們現在把Spark作為M/R執行引擎內嵌在我們的產品中，在兩大類應用實踐中比較成功，一類是通過PL/SQL進行交互式數據統計和分析，結合可視化工具為用戶提供了高速的大數據探索能力。這類應用傳統上使用數據倉庫，但由于Spark提供了更快的性能和大數據處理能力，使得用戶可以快速得到反饋體驗更好。另一類應用是做數據挖掘，因為Spark充分利用內存進行緩存，利用DAG消除不必要的步驟，所以比較合適做迭代式的運算。而有相當一部分機器學習算法是通過多次迭代收斂的算法，所以適合用Spark來實現。我們把一些常用的算法并行化用Spark實現，可以從R語言中方便地調用，降低了用戶進行數據挖掘的學習成本。

-目前企業應用Spark最大的困難是什么？

我認為技術上目前已經不存在大的困難。我們已經在一些用戶的核心業務系統中部署我們自己的Spark版本，而且是7x24小時不間斷運行，穩定性已得到驗證。我們也把Spark成功地應用到數據倉庫中，無需編程幾乎全程可視化。如果說目前面臨的最大困難，主要是在客戶認知上。過去兩年中有很多客戶部署了Hadoop，大家得到的經驗教訓是Hadoop在處理100TB以上的數據是擅長的，但處理小規模的數據比較低效，加上人才缺乏導致的運維困難，使得用戶對Hadoop產生了一些誤解轉而采用混合架構。隨著Spark技術的進步，Hadoop加Spark的組合實際上已經極大地提高了處理效率，已經可以解決大中小各類數據處理問題，但是要扭轉企業用戶的看法，還需要更多的成功案例和技術推廣。

-根據您的了解，目前Spark發展的情況如何？

Spark目前的發展理念是通過一個計算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能于一個項目中，SparkSQL就是一個例子。Spark周邊的一些項目，像TachyonSparkR、BlinkDB等也在快速發展中。Tachyon已經成為RHEL標準yum庫中的缺省組件。國內外的應用開始越來越廣泛，國外一些大型互聯網公司已經部署了Spark。Yahoo是Hadoop的早期主要貢獻者，現在也在多個項目中部署使用Spark。國內我們已經在運營商、電商等傳統行業部署了Spark，預計今年會有更多的成功案例出現。

-請談談你在這次大會上即將分享的話題。

這次大會我會介紹一下Spark的兩種典型的應用，一個是如何充分利用Spark的優勢進行交互式SQL數據分析；另一個應用是如何組合使用R語言和Spark進行分布式的數據挖掘。

-哪些聽眾最應該了解這些話題？

下列聽眾可能對這個話題感興趣：希望對企業擁有的大數據進行分析和挖掘的最終用戶；曾經使用過Hadoop但體驗不佳的用戶或開發人員；數據量在從TB到PB快速增加的用戶或者數據量在10TB以下但想體驗新技術的用戶。

更多精彩盡在2014年4月19日中國Spark技術峰會，3月31日前購票訂票可享受最低票價優惠。馬上報名！

往期采訪內容：

騰訊薛偉：快速模型更新在精準廣告推薦中的應用

皮皮網陳超：易用與性能兼備，Spark蓬勃發展！

淘寶明風：基于Graphx的圖計算實踐分享

Spark獨門秘籍：打造結構一體化、功能多元化的高效數據流水線

網易王健宗：革命Hadoop，Spark帶來百億市場價值！

尹緒森：打開圈子擁抱變化，談Spark玩家的自我修養