2014年4月19日“中國Spark技術峰會”(Spark Summit China 2014)將在北京召開,國內外Apache Spark社區成員和企業用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網易等公司的Spark貢獻者及一線開發者將分享他們在生產環境中的Spark項目經驗和最佳實踐方案。
在Spark技術峰會召開前夕,記者和本次Spark峰會的演講嘉賓孫元浩做了一次簡單的溝通,他表示將會在4月19日“中國Spark技術峰會”和大家分享如何構建分布式內存列式存儲,以及如何利用PL/SQL和R語言對內存數據進行高速數據統計和挖掘!點擊報名!
孫元浩
2003年加入英特爾,曾是英特爾亞太研發有限公司數據中心軟件部亞太區CTO,負責英特爾Hadoop發行版的研發和產品化工作。 2013年離開英特爾創辦星環科技,推出國內首個基于Spark的大數據平臺產品,在中國成功建立數個Spark成功案例。
以下是記者采訪原文:
-什么原因吸引你鉆研Spark技術?
2012年我們當時仿照Dremel在Hadoop上實現SQL引擎,但是這個項目沒有持續下去。因為我們發現對SQL并行化、容錯性和擴展性支持最好的仍然是M/R引擎,而不是Dremel或者MPP引擎。所以當時開始轉向去研究如何改造或重新實現M/R,這時候開始了解Spark。Spark的架構設計非常優美,RDD和操作原語的抽象,很像早年我們為多核或GPU設計的并行架構,如CUDA。我認為Spark就是我們理想的M/R計算引擎,開始投入全部精力在Spark的開發上。
-對于解決哪些問題Spark獨具優勢?
我們現在把Spark作為M/R執行引擎內嵌在我們的產品中,在兩大類應用實踐中比較成功,一類是通過PL/SQL進行交互式數據統計和分析,結合可視化工具為用戶提供了高速的大數據探索能力。這類應用傳統上使用數據倉庫,但由于Spark提供了更快的性能和大數據處理能力,使得用戶可以快速得到反饋體驗更好。另一類應用是做數據挖掘,因為Spark充分利用內存進行緩存,利用DAG消除不必要的步驟,所以比較合適做迭代式的運算。而有相當一部分機器學習算法是通過多次迭代收斂的算法,所以適合用Spark來實現。我們把一些常用的算法并行化用Spark實現,可以從R語言中方便地調用,降低了用戶進行數據挖掘的學習成本。
-目前企業應用Spark最大的困難是什么?
我認為技術上目前已經不存在大的困難。我們已經在一些用戶的核心業務系統中部署我們自己的Spark版本,而且是7x24小時不間斷運行,穩定性已得到驗證。我們也把Spark成功地應用到數據倉庫中,無需編程幾乎全程可視化。如果說目前面臨的最大困難,主要是在客戶認知上。過去兩年中有很多客戶部署了Hadoop,大家得到的經驗教訓是Hadoop在處理100TB以上的數據是擅長的,但處理小規模的數據比較低效,加上人才缺乏導致的運維困難,使得用戶對Hadoop產生了一些誤解轉而采用混合架構。隨著Spark技術的進步,Hadoop加Spark的組合實際上已經極大地提高了處理效率,已經可以解決大中小各類數據處理問題,但是要扭轉企業用戶的看法,還需要更多的成功案例和技術推廣。
-根據您的了解,目前Spark發展的情況如何?
Spark目前的發展理念是通過一個計算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能于一個項目中,SparkSQL就是一個例子。Spark周邊的一些項目,像TachyonSparkR、BlinkDB等也在快速發展中。Tachyon已經成為RHEL標準yum庫中的缺省組件。國內外的應用開始越來越廣泛,國外一些大型互聯網公司已經部署了Spark。Yahoo是Hadoop的早期主要貢獻者,現在也在多個項目中部署使用Spark。國內我們已經在運營商、電商等傳統行業部署了Spark,預計今年會有更多的成功案例出現。
-請談談你在這次大會上即將分享的話題。
這次大會我會介紹一下Spark的兩種典型的應用,一個是如何充分利用Spark的優勢進行交互式SQL數據分析;另一個應用是如何組合使用R語言和Spark進行分布式的數據挖掘。
-哪些聽眾最應該了解這些話題?
下列聽眾可能對這個話題感興趣:希望對企業擁有的大數據進行分析和挖掘的最終用戶;曾經使用過Hadoop但體驗不佳的用戶或開發人員;數據量在從TB到PB快速增加的用戶或者數據量在10TB以下但想體驗新技術的用戶。
更多精彩盡在2014年4月19日中國Spark技術峰會,3月31日前購票訂票可享受最低票價優惠。馬上報名!
往期采訪內容:
騰訊薛偉:快速模型更新在精準廣告推薦中的應用
皮皮網陳超:易用與性能兼備,Spark蓬勃發展!
淘寶明風:基于Graphx的圖計算實踐分享
Spark獨門秘籍:打造結構一體化、功能多元化的高效數據流水線
網易王健宗:革命Hadoop,Spark帶來百億市場價值!
尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養