2014年4月19日“中國Spark技術峰會”(Spark Summit China 2014)將在北京召開,國內外Apache Spark社區成員和企業用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網易等公司的Spark貢獻者及一線開發者將分享他們在生產環境中的Spark項目經驗和最佳實踐方案。
Spark是下一代In Memory MR計算框架,性能上有數量級提升,同時支持Interactive Query、流計算、圖計算等。在Spark技術峰會召開前夕,記者和本次Spark峰會的演講嘉賓陳超做了一次簡單的溝通,他表示將會在4月19日“中國Spark技術峰會”和大家分享Spark的核心原理,并在此基礎上探討幾個Spark性能的優化點!點擊報名!
陳超 @CrazyJVM
就職于皮皮網,擔任數據平臺負責人,負責公司所有數據分析與數據挖掘相關的項目。近年來一直專注于分布式計算與機器學習相關領域。國內較早的Spark研究與使用者,Spark Contributor。目前專注于基于Spark平臺的大數據處理。
以下是記者采訪原文:
什么原因吸引你鉆研Spark技術?
在使用Spark之前一直是使用Hadoop(MapReduce)來做一些機器學習方面的工作,但是深感運行效率低下,并且代碼寫起來也比較冗長。所以當時就想試試看能不能換個方式來做,當我調研到Spark時,我覺得Spark非常適合我的需求,極好的易用性的同時也有著極高的性能。其實還有一點,我本身算是一個Scala愛好者,而Spark是使用Scala寫的,這也算是一個促使我研究與使用Spark的因素吧。
對于解決哪些問題Spark獨具優勢?
就目前來說,Spark在機器學習方面有著無與倫比的優勢,特別適合需要多次迭代計算的算法。當然Spark的容錯和調度也自有其特點和優勢。最后Spark能把批處理和流處理做到一個很好的平衡。
目前企業應用Spark最大的困難是什么?
對于一般規模的企業來講,只要有相應的Spark工程師,部署Spark我想都沒什么大問題。但是對于BAT規模的企業來講,需要考慮的問題就比較多了。
根據您的了解,目前Spark發展的情況如何?
目前Spark社區極其活躍。眾所周知,Spark現在已經成為了Apache的頂級項目,到目前為止已經有159位來自世界各地的Contributor,并且這個數字還在繼續增加中。Spark生態系統正在朝著一個健康的方向發展!
請談談你在這次大會上即將分享的話題。
我這次主要想講一下Spark性能相關的話題,其中也會涉及到Spark的一些原理。講這個話題初衷是我收到好多郵件,描述他們在工作中遇到一些Spark帶來的性能問題。其中一些問題可能解決方法很簡單,但是如果不解決的話卻會對性能造成極大的影響。
哪些聽眾最應該了解這些話題,這個話題可以幫助聽眾解決哪些問題?
想要學習Spark,特別是想在公司部署Spark的朋友們一定會有所收獲。這些話題一來可以幫助他們了解Spark的應用場景,二來可以提醒大家在使用Spark過程中應該注意的一些問題。
更多精彩盡在2014年4月19日中國Spark技術峰會,3月31日前購票訂票可享受最低票價優惠。馬上報名!
往期采訪內容:
淘寶明風:基于Graphx的圖計算實踐分享
Spark獨門秘籍:打造結構一體化、功能多元化的高效數據流水線
網易王健宗:革命Hadoop,Spark帶來百億市場價值!
尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養