2014年4月19日“中國Spark技術峰會”(Spark Summit China 2014)將在北京召開,國內外Apache Spark社區成員和企業用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網易等公司的Spark貢獻者及一線開發者將分享他們在生產環境中的Spark項目經驗和最佳實踐方案。
精準推薦的數據環境是快速變化的,無論是用戶還是被推薦的物品,都在快速地出現、變化、消失。用于推薦的機器學習模型必須夠快地更新才能更好地適應這種快速變化,這一點對于展示廣告來說尤為重要。騰訊廣點通團隊長期從事社交網絡展示廣告的技術研究和應用,從Spark誕生之初就開始關注這項技術和這個開源項目,并在廣點通項目中進行了長期的應用實踐。在Spark技術峰會召開前夕,記者和本次Spark峰會的演講嘉賓薛偉做了一次簡單的溝通,他表示將會在4月19日“中國Spark技術峰會”和大家分享騰訊如何綜合運用包括Spark在內的技術來實現廣告推薦模型的快速更新!點擊報名!
薛偉
騰訊精準推薦中心廣告推薦負責人。2006年在北京航空航天大學取得博士學位, 同年加入IBM中國研究院, 2011年加入騰訊數據平臺部。一直從事云計算、海量數據分析和數據挖掘、精準推薦相關的研發工作。
以下是記者采訪原文:
-什么原因吸引你鉆研Spark技術?
我在Spark第一篇論文出來之后就開始關注這項技術,在Spark-Project還沒有版本編號的時候就開始關注這個開源項目了。當時Spark吸引我的主要有兩點:第一點就是速度,In-Memory的計算可以達到比Hadoop高一個數量級的速度,這一點非常吸引像我們這樣大量使用Hadoop進行數據處理和計算的應用者;第二點就是Spark優雅的編程模型,個人認為這一點傳承自Scala這種面向對象程序設計思想和函數式程序設計思想結合非常好的語言,Spark優雅的編程模型還非常有助于我們移植現有Hadoop上的程序。主要就是基于這兩點理由,我們選擇了Spark作為很重要的一個分布式計算平臺,來支撐我們日常的業務。
-對于解決哪些問題Spark獨具優勢?
從我們的實踐經驗來看,Spark在大/中規模數據迭代和交互式數據處理方面有優勢。之所以不單純的說是大數據,是因為Spark一個重要優勢是In-Memory計算,而現在Memory還是要比磁盤存儲小一些。不過Spark社區很活躍,相關的技術還在不斷地發展當中。Spark的優勢領域應該還會不斷地擴大,我們也在一直保持關注。
-目前企業應用Spark最大的困難是什么?
我想這個問題的答案取決于企業想要拿Spark來干什么。對于我們團隊來說,Spark目前主要是用來做分布式并行計算,特別是機器學習模型的訓練,此外還有一些交互式數據分析方面的應用。這些應用都是作為生產系統的一部分來對外提供服務。個人覺得對于這些應用來說,目前使用Spark最大的困難是QoS。因為Spark速度快,所以我們對它的QoS要求會比對Hadoop的要求更高,我們除了關心運行穩定性、速度和容錯這些指標,我們還會關心延遲之類的指標。在提供交互式分析服務時,這方面要求還會更高一些。隨著集群規模擴大,集群上跑的作業數目增加,特別是當需要和其他分布式計算基礎設施(如Hadoop)分享物理資源的時候,QoS的保障會變得越發困難。據我所知社區在這方面有不少的研究項目,我們這邊也有人在跟進這方面進展并做一些實踐工作。
-根據您的了解,目前Spark發展的情況如何?
我從技術和應用兩個角度談談個人的感覺吧。技術方面,個人感覺Spark這幾年成長很快,自身的成熟化、為支持新型應用而做的技術擴展以及上下游生態系統的建設都有長足進步。在應用方面,我們是比較早就開展應用實踐的,我們看到了實際的好處,相信業內關注Spark并且付諸實踐的同仁也都有相同的感受。近幾年來無論是公司內還是公司外,我都看到越來越多的人在用Spark。總的來說,社區在成長技術在發展,個人覺得Spark發展得挺好,而且有更遠大的發展空間。
-請談談你在這次大會上即將分享的話題。
這次大會我報告的題目是“快速模型更新在精準廣告推薦中的應用”,主要是分享我們在互聯網精準推薦領域運用Spark和其他相關技術的一些經驗和思考。這個分享更多的是關于應用而不是關于技術本身,我會介紹我們的應用場景,為什么需要用到Spark、如何搭配使用上下游的技術來發揮最大的效力,以及最終在生產實踐中取得的效果。
-哪些聽眾最應該了解這些話題,這個話題可以幫助聽眾解決哪些問題?
因為我這個題目是和應用密切相關的,個人覺得那些對Spark技術應用躍躍欲試的聽眾會對我的題目感興趣,同時我也希望對那些已經有Spark應用經驗的聽眾也有參照和借鑒作用。不敢說解決什么實際問題吧,能夠拋磚引玉促進技術交流,繁榮社區就很好了。
更多精彩盡在2014年4月19日中國Spark技術峰會,3月31日前購票訂票可享受最低票價優惠。馬上報名!
往期采訪內容:
皮皮網陳超:易用與性能兼備,Spark蓬勃發展!
淘寶明風:基于Graphx的圖計算實踐分享
Spark獨門秘籍:打造結構一體化、功能多元化的高效數據流水線
網易王健宗:革命Hadoop,Spark帶來百億市場價值!
尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養