多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國(guó)內(nèi)最全I(xiàn)T社區(qū)平臺(tái) 聯(lián)系我們 | 收藏本站
阿里云優(yōu)惠2
您當(dāng)前位置:首頁 > 互聯(lián)網(wǎng) > 尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養(yǎng)

尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養(yǎng)

來源:程序員人生   發(fā)布時(shí)間:2014-09-06 09:40:14 閱讀次數(shù):3252次

2014年4月19日“中國(guó)Spark技術(shù)峰會(huì)”(Spark Summit China 2014)將在北京召開,國(guó)內(nèi)外Apache Spark社區(qū)成員和企業(yè)用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網(wǎng)易等公司的Spark貢獻(xiàn)者及一線開發(fā)者將分享他們?cè)谏a(chǎn)環(huán)境中的Spark項(xiàng)目經(jīng)驗(yàn)和最佳實(shí)踐方案。

在Spark技術(shù)峰會(huì)召開前夕,記者和本次Spark峰會(huì)的演講嘉賓尹緒森做了一次簡(jiǎn)單的溝通,他就Spark技術(shù)優(yōu)勢(shì)、Spark技術(shù)發(fā)展做了簡(jiǎn)要的回答,同時(shí)他表示更多的內(nèi)容將會(huì)在4月19日“中國(guó)Spark技術(shù)峰會(huì)”和大家分享!點(diǎn)擊報(bào)名

尹緒森,Intel工程師   @尹緒森

熟悉并熱愛機(jī)器學(xué)習(xí)相關(guān)內(nèi)容,對(duì)自然語言處理、推薦系統(tǒng)等有所涉獵。目前致力于機(jī)器學(xué)習(xí)算法并行、凸顯優(yōu)化層面的算法優(yōu)化問題,以及大數(shù)據(jù)平臺(tái)性能調(diào)優(yōu)。對(duì)Spark、Mahout、GraphLab等開源項(xiàng)目有所嘗試和理解,并希望從優(yōu)化層向下,系統(tǒng)層向上對(duì)并行算法及平臺(tái)做出貢獻(xiàn)。


以下是記者采訪原文:

- 什么原因吸引你鉆研Spark技術(shù)?

我是典型的“師父領(lǐng)進(jìn)門”。在吳甘沙老師的帶領(lǐng)下,在Intel研究院和一幫摯愛技術(shù)的小伙伴們鉆研到現(xiàn)在。我個(gè)人是比較相信“黑天鵝”的說法的,人生是由一連串的隨機(jī)事件組合起來的,從去年迷茫地進(jìn)入Intel研究院,到接觸Spark以及有機(jī)會(huì)參加這次峰會(huì)都是曾未可知的。如果放在一年前,我怎么都不會(huì)想到有一天自己會(huì)跟Spark有所關(guān)聯(lián)。我的專業(yè)是機(jī)器學(xué)習(xí),從研究生生涯剛開始就立志做一名熱愛數(shù)學(xué)的“機(jī)器學(xué)習(xí)者”,因?yàn)闄C(jī)器學(xué)習(xí)不僅很有趣,而且看起來也高大上。做模型發(fā)paper是我的夙愿。去年到Intel之前一直在猶豫,不清楚一個(gè)夢(mèng)想中的“機(jī)器學(xué)習(xí)者”到Intel能做什么。實(shí)際上,回頭來看能做的實(shí)在太多了,Intel研究院提供了一個(gè)絕對(duì)大的舞臺(tái)。
甘沙老師和小伙伴們都是扎實(shí)的系統(tǒng)專家,一起討論的時(shí)候各種聽不懂,導(dǎo)致我壓力特別大。我想是該改變自己的時(shí)候了,應(yīng)該擁抱變化,而不是把自己陷入到自己的小圈子內(nèi), 這是一種“自掘墳?zāi)埂钡耐娣ākS后玩命的看了各種系統(tǒng)方面的paper,寫Spark程序,讀Spark源碼,看Scala書籍,跟小伙伴們激烈的爭(zhēng)辯和討論,慢慢感到自己對(duì)Spark運(yùn)行模式有了一絲了解。尤其是看過James Iry的Monads are Elephants系列博客之后,感覺愈來愈明晰了。
技術(shù)方面,Spark最吸引我的地方有三處: 一是新,新就意味著還不成熟,存在很多問題,這個(gè)時(shí)候恰是切入的好時(shí)機(jī)。有很多未完成的工作,以及大數(shù)據(jù)棧整體性能進(jìn)行發(fā)掘。實(shí)際上,現(xiàn)階段我主要做的就是如何從Spark大數(shù)據(jù)棧整體來優(yōu)化機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)。這樣既能做機(jī)器學(xué)習(xí),又能玩系統(tǒng),每天都很開心;二是RDD實(shí)現(xiàn)之優(yōu)雅。我更愿意把RDD當(dāng)做一種“分布式+函數(shù)式的編程語言”, 而且我認(rèn)為它會(huì)向這個(gè)方向繼續(xù)前進(jìn), 其實(shí)現(xiàn)策略之精妙, 讓人驚嘆不已;三是Scala, 不論別人怎么看待這種編程語言, 我感覺Scala是我用的最順的一種語言,在很多時(shí)候我都感覺不到“語法”的存在,很順暢的寫出程序,它就是你要的結(jié)果。簡(jiǎn)潔明晰,極富表達(dá)力。最重要的是,正如Martin所期望的,Scala帶給我們的是思維的改變。

- 對(duì)于解決哪些問題Spark獨(dú)具優(yōu)勢(shì)?

RDD的表現(xiàn)力讓Spark成為多面手。這一點(diǎn)上與Scala的表現(xiàn)力讓Spark開發(fā)簡(jiǎn)潔明快是一個(gè)道理,這也就是我為什么更傾向于把RDD看成一種分布式編程語言。 Spark 甫一出道,便以多迭代,內(nèi)存計(jì)算為主打,自然免不了進(jìn)軍機(jī)器學(xué)習(xí)領(lǐng)域。Spark 對(duì)于程序員,尤其是機(jī)器學(xué)習(xí)者來說,簡(jiǎn)直是福音一樣的存在。輕量級(jí)的框架設(shè)計(jì),讓多迭代邏輯不必游離在主線程之外; 簡(jiǎn)潔的job 提交方法讓job 切換時(shí)間大大降低;復(fù)合函數(shù)的思想擺脫了大量使用磁盤緩存中間結(jié)果的桎梏;大量現(xiàn)有,可定制算子的呈現(xiàn)簡(jiǎn)化機(jī)器學(xué)習(xí)算法設(shè)計(jì);甚至BDAS框架兼容并包,一種體系提供所有功能。

- 目前企業(yè)應(yīng)用Spark最大的困難是什么?

熟練使用Scala語言的程序員不多,現(xiàn)狀如此。實(shí)際上, 企業(yè)想招人進(jìn)來直接玩轉(zhuǎn)Spark是不太現(xiàn)實(shí)的,這樣的人目前還比較少,尤其是不熟悉Scala的情況下。雖然存在Java和Python的API,但是Spark老東家重心還是在Scala實(shí)現(xiàn)的核心上,其他兩個(gè)社區(qū)支持可能沒那么及時(shí)。
熟知Spark運(yùn)行時(shí)框架的人不多,很多人的理解存在誤區(qū)。直接導(dǎo)致的一個(gè)嚴(yán)重結(jié)果就是寫出來的程序“不靠譜”,運(yùn)行很慢,或者出現(xiàn)錯(cuò)誤的結(jié)果。在這種情況下,“傲慢與偏見”的心理作用會(huì)讓人產(chǎn)生對(duì)Spark的抵觸,甚至武斷地對(duì)Spark蓋棺定論。這是非常不好的事情。會(huì)上會(huì)講到一點(diǎn)這方面的案例。
比起Mahout這么多年的發(fā)展,MLlib成熟度不夠,不僅在算法數(shù)量上,也在于整體設(shè)計(jì)上。這就導(dǎo)致很多時(shí)候要自己寫很多算法。整體設(shè)計(jì)上有點(diǎn)偏面向?qū)ο蟮娘L(fēng)格,我并不是面向?qū)ο蟮膮拹赫撸菣C(jī)器學(xué)習(xí)算法用函數(shù)式語言寫起來更直觀。

- 根據(jù)您的了解,目前Spark發(fā)展的情況如何?

首先Spark在Apache社區(qū)里的貢獻(xiàn)者數(shù)目是首屈一指的,將來只會(huì)更多。Spark本身已經(jīng)快要到1.0版本了。其流處理以及SQL的使用可能是大家最關(guān)心的,從Spark郵件組里就能看出來。GraphX前段時(shí)間并入了Spark主線,這兩天Catalyst也并入了Spark主線。因此Spark的活躍度絕對(duì)沒有問題。另外,Databricks團(tuán)隊(duì)的開發(fā)者以及社區(qū)的小伙伴們都是非常認(rèn)真嚴(yán)肅的貢獻(xiàn)代碼, 其pull request審查非常嚴(yán)格。
不過相比于其他組件,MLlib發(fā)展相對(duì)較慢。首先MLlib的開發(fā)需要程序員在機(jī)器學(xué)習(xí)和系統(tǒng)兩方面都有很好的知識(shí)背景,不過現(xiàn)在社區(qū)機(jī)器學(xué)習(xí)和系統(tǒng)做的好的人越來越多了。另外Spark RDD對(duì)機(jī)器學(xué)習(xí)算法還是有一定的限制的,想要玩的好還需要下功夫。我同意“專業(yè)的工具會(huì)有更好的效果”的說法,對(duì)于機(jī)器學(xué)習(xí)算法來說,各自有適合自己的并行模式及優(yōu)化算法。但是如果下功夫好好玩的話,Spark MLlib是很給力的。你會(huì)發(fā)現(xiàn),在Spark的框架下實(shí)現(xiàn)高效的機(jī)器學(xué)習(xí)算法是件既有挑戰(zhàn)又很有趣的事情。不論我們未來是否跳出RDD的限制,都能做出很出色的事情來。

- 請(qǐng)談?wù)勀阍谶@次大會(huì)上即將分享的話題。

機(jī)器學(xué)習(xí)方法在這十年中取得了巨大的成就,大有百家爭(zhēng)鳴之勢(shì)。然而,機(jī)器學(xué)習(xí)領(lǐng)域一直受到多種問題的困擾。首先是模型準(zhǔn)確性和計(jì)算有效性的取舍; 其次數(shù)據(jù)可用性也嚴(yán)重制約著機(jī)器學(xué)習(xí)算法的進(jìn)展;最后機(jī)器學(xué)習(xí)的可用性也制約著機(jī)器學(xué)習(xí)的發(fā)展。從性能上來看,機(jī)器學(xué)習(xí)算法的加速方法由四個(gè)境界。總結(jié)起來,分別是scale-up ,scale-out,算法本身打破串行限制,以及較好的編程模型。IBM計(jì)算機(jī)體系結(jié)構(gòu)師阿姆達(dá)爾在1967 年提出阿姆達(dá)爾定律,表明了并行系統(tǒng)存在的性能提升總是受到其中串行性最明顯一環(huán)的控制。這就要求如果一個(gè)系統(tǒng)真正要實(shí)現(xiàn)較好的加速并行,就要在各個(gè)層面上充分進(jìn)行并行化。機(jī)器學(xué)習(xí)算法并行存在著四個(gè)層次的加速可能,因此也有四個(gè)層次的問題需要考慮。
近年來有越來越多的人進(jìn)入“系統(tǒng)與機(jī)器學(xué)習(xí)聯(lián)姻”的領(lǐng)域,這方面的呼聲也越來越高。CMU大學(xué)的Eric Xing老師無疑是個(gè)中旗手,學(xué)術(shù)界與工業(yè)界也有大量的研究人員在這方面取得了不俗的進(jìn)展,據(jù)我所知像計(jì)算所,微軟等都有“大牛”在研究。未來的研究點(diǎn)是機(jī)器學(xué)習(xí)算法指導(dǎo)的大數(shù)據(jù)系統(tǒng)構(gòu)建,或者大數(shù)據(jù)系統(tǒng)支撐的機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)和大數(shù)據(jù)系統(tǒng)并非“非此即彼”的二元選項(xiàng),隨著2014年機(jī)器學(xué)習(xí)盛會(huì)ICML 和系統(tǒng)界一流的workshop APSys 一起在北京召開,以及機(jī)器學(xué)習(xí)從業(yè)者和系統(tǒng)架構(gòu)師不斷的交叉融合可見趨勢(shì)。通過算法指導(dǎo)系統(tǒng)搭建可以獲得動(dòng)態(tài)的系統(tǒng)結(jié)構(gòu),反之會(huì)使得機(jī)器學(xué)習(xí)算法性能更高。

- 哪些聽眾最應(yīng)該了解這個(gè)話題,這個(gè)話題可以幫助聽眾解決哪些問題?

這次分享的話題將會(huì)包含下面幾個(gè)問題,根據(jù)實(shí)際情況會(huì)有所側(cè)重。首先是MLlib介紹,可能有些人還不太清楚,所以稍微提及一下MLlib現(xiàn)有的基本算法,整體模式等。其次是機(jī)器學(xué)習(xí)深入理解。我不會(huì)喋喋不休的向大家灌輸機(jī)器學(xué)習(xí)中常見的一堆堆公式,那會(huì)把大家嚇跑。實(shí)際上我自己有時(shí)候也看不下去。相反,我會(huì)以一種自己的理解去講一講機(jī)器學(xué)習(xí)方面的注意事項(xiàng)、關(guān)鍵點(diǎn)、著重強(qiáng)調(diào)與系統(tǒng)結(jié)合的部分。之后是希望能帶大家熟悉Spark運(yùn)行時(shí)的一些情況。不了解Spark是怎么運(yùn)行的,就永遠(yuǎn)不可能寫出好的Spark程序,就跟優(yōu)秀的程序員都有很深的系統(tǒng)方面,編譯器方面,以及語言方面的知識(shí)一樣,可以說是“Spark玩家的自我修養(yǎng)”,并會(huì)提及一些實(shí)例來做更好的探究。最后我會(huì)說一說Spark機(jī)器學(xué)習(xí)實(shí)戰(zhàn)及調(diào)優(yōu)。時(shí)間有限, 不可能事無巨細(xì)。
這些話題應(yīng)該比較適合那些從事機(jī)器學(xué)習(xí)建模,并有期望轉(zhuǎn)入更加扎實(shí)的系統(tǒng)研究的人,也很有利于系統(tǒng)界的兄弟們多了解一下機(jī)器學(xué)習(xí)的背景知識(shí)。

更多精彩盡在2014年4月19日中國(guó)Spark技術(shù)峰會(huì),3月31日前購票訂票可享受最低票價(jià)優(yōu)惠。馬上報(bào)名

往期采訪內(nèi)容:

Spark獨(dú)門秘籍:打造結(jié)構(gòu)一體化、功能多元化的高效數(shù)據(jù)流水線

網(wǎng)易王健宗:革命Hadoop,Spark帶來百億市場(chǎng)價(jià)值!


以“ 云計(jì)算大數(shù)據(jù) 推動(dòng)智慧中國(guó) ”為主題的 第六屆中國(guó)云計(jì)算大會(huì) 將于5月20-23日在北京國(guó)家會(huì)議中心隆重舉辦。產(chǎn)業(yè)觀察、技術(shù)培訓(xùn)、主題論壇、行業(yè)研討,內(nèi)容豐富,干貨十足。票價(jià)優(yōu)惠,馬上 報(bào)名 ! 
生活不易,碼農(nóng)辛苦
如果您覺得本網(wǎng)站對(duì)您的學(xué)習(xí)有所幫助,可以手機(jī)掃描二維碼進(jìn)行捐贈(zèng)
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關(guān)閉
程序員人生
主站蜘蛛池模板: 九色九色九色在线综合888 | 最近中文字幕无吗高清视频 | 91成人爽a毛片一区二区 | 欧美日韩午夜精品不卡综合 | 丁香综合五月 | 日韩精品1区 | 久久爱伊人 | 香港黄页精品视频在线 | 五月天开心中文字幕 | 欧美日韩亚洲精品一区 | 日韩中文一区 | 欧美超清free videos | 他添的我好湿好爽视频 | 欧美毛片网站 | 欧美日韩久久毛片 | 在线成人免费视频 | free性欧美hd另类 | 亚洲欧洲精品成人久久曰 | 日韩视频在线观看一区二区 | 国产亚洲天堂 | 一本之道无吗一二三区 | 在线亚洲不卡 | 国产成人精品无缓存在线播放 | 国内自拍在线观看 | 亚洲黄色高清视频 | 日韩一区二区三区四区五区 | 日韩一级片在线免费观看 | h视频在线观看视频观看 | 久久九九久精品国产 | 亚洲欧美自拍另类图片色 | 一级空姐毛片 | 日韩欧美精品 | 中文字幕第23页 | 日本视频中文字幕 | 欧美三级视频 | 18jlzz大全| 色吊丝永久在线观看最新 | 最近免费中文字幕mv视频 | 日本免费第一区二区三区 | 性欧美高清videosex | 欧美一级aa免费毛片 |