多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > 互聯網 > 孫元浩:基于Spark引擎的高速內存分析和挖掘工具應用

孫元浩:基于Spark引擎的高速內存分析和挖掘工具應用

來源:程序員人生   發布時間:2014-10-12 20:31:35 閱讀次數:3401次

2014年4月19日“中國Spark技術峰會”(Spark Summit China 2014)將在北京召開,國內外Apache Spark社區成員和企業用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網易等公司的Spark貢獻者及一線開發者將分享他們在生產環境中的Spark項目經驗和最佳實踐方案。 

 

在Spark技術峰會召開前夕,記者和本次Spark峰會的演講嘉賓孫元浩做了一次簡單的溝通,他表示將會在4月19日“中國Spark技術峰會”和大家分享如何構建分布式內存列式存儲,以及如何利用PL/SQL和R語言對內存數據進行高速數據統計和挖掘!點擊報名

孫元浩

2003年加入英特爾,曾是英特爾亞太研發有限公司數據中心軟件部亞太區CTO,負責英特爾Hadoop發行版的研發和產品化工作。 2013年離開英特爾創辦星環科技,推出國內首個基于Spark的大數據平臺產品,在中國成功建立數個Spark成功案例。

以下是記者采訪原文:

-什么原因吸引你鉆研Spark技術?

2012年我們當時仿照Dremel在Hadoop上實現SQL引擎,但是這個項目沒有持續下去。因為我們發現對SQL并行化、容錯性和擴展性支持最好的仍然是M/R引擎,而不是Dremel或者MPP引擎。所以當時開始轉向去研究如何改造或重新實現M/R,這時候開始了解Spark。Spark的架構設計非常優美,RDD和操作原語的抽象,很像早年我們為多核或GPU設計的并行架構,如CUDA。我認為Spark就是我們理想的M/R計算引擎,開始投入全部精力在Spark的開發上。

-對于解決哪些問題Spark獨具優勢?

我們現在把Spark作為M/R執行引擎內嵌在我們的產品中,在兩大類應用實踐中比較成功,一類是通過PL/SQL進行交互式數據統計和分析,結合可視化工具為用戶提供了高速的大數據探索能力。這類應用傳統上使用數據倉庫,但由于Spark提供了更快的性能和大數據處理能力,使得用戶可以快速得到反饋體驗更好。另一類應用是做數據挖掘,因為Spark充分利用內存進行緩存,利用DAG消除不必要的步驟,所以比較合適做迭代式的運算。而有相當一部分機器學習算法是通過多次迭代收斂的算法,所以適合用Spark來實現。我們把一些常用的算法并行化用Spark實現,可以從R語言中方便地調用,降低了用戶進行數據挖掘的學習成本。

-目前企業應用Spark最大的困難是什么?

我認為技術上目前已經不存在大的困難。我們已經在一些用戶的核心業務系統中部署我們自己的Spark版本,而且是7x24小時不間斷運行,穩定性已得到驗證。我們也把Spark成功地應用到數據倉庫中,無需編程幾乎全程可視化。如果說目前面臨的最大困難,主要是在客戶認知上。過去兩年中有很多客戶部署了Hadoop,大家得到的經驗教訓是Hadoop在處理100TB以上的數據是擅長的,但處理小規模的數據比較低效,加上人才缺乏導致的運維困難,使得用戶對Hadoop產生了一些誤解轉而采用混合架構。隨著Spark技術的進步,Hadoop加Spark的組合實際上已經極大地提高了處理效率,已經可以解決大中小各類數據處理問題,但是要扭轉企業用戶的看法,還需要更多的成功案例和技術推廣。

-根據您的了解,目前Spark發展的情況如何?

Spark目前的發展理念是通過一個計算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能于一個項目中,SparkSQL就是一個例子。Spark周邊的一些項目,像TachyonSparkR、BlinkDB等也在快速發展中。Tachyon已經成為RHEL標準yum庫中的缺省組件。國內外的應用開始越來越廣泛,國外一些大型互聯網公司已經部署了Spark。Yahoo是Hadoop的早期主要貢獻者,現在也在多個項目中部署使用Spark。國內我們已經在運營商、電商等傳統行業部署了Spark,預計今年會有更多的成功案例出現。

-請談談你在這次大會上即將分享的話題。

這次大會我會介紹一下Spark的兩種典型的應用,一個是如何充分利用Spark的優勢進行交互式SQL數據分析;另一個應用是如何組合使用R語言和Spark進行分布式的數據挖掘。

-哪些聽眾最應該了解這些話題?

下列聽眾可能對這個話題感興趣:希望對企業擁有的大數據進行分析和挖掘的最終用戶;曾經使用過Hadoop但體驗不佳的用戶或開發人員;數據量在從TB到PB快速增加的用戶或者數據量在10TB以下但想體驗新技術的用戶。

更多精彩盡在2014年4月19日中國Spark技術峰會,3月31日前購票訂票可享受最低票價優惠。馬上報名

往期采訪內容:

騰訊薛偉:快速模型更新在精準廣告推薦中的應用

皮皮網陳超:易用與性能兼備,Spark蓬勃發展!

淘寶明風:基于Graphx的圖計算實踐分享

Spark獨門秘籍:打造結構一體化、功能多元化的高效數據流水線

網易王健宗:革命Hadoop,Spark帶來百億市場價值!

尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養


以“ 云計算大數據 推動智慧中國 ”為主題的 第六屆中國云計算大會 將于5月20-23日在北京國家會議中心隆重舉辦。產業觀察、技術培訓、主題論壇、行業研討,內容豐富,干貨十足。票價優惠,馬上 報名 ! 

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 黄网站在线播放视频免费观看 | 国产成人香蕉在线视频fuz | 午夜刺激 | 国产三级午夜理伦三级 | 欧美精品在线一区二区三区 | 国产精品久久久久影院色老大 | 交专区videossex | 欧美亚洲日本一区二区三区浪人 | 一级aaaaaa片毛片在线播放 | 欧美一级毛片高清毛片 | aⅴ在线免费观看 | 国产精品久久毛片 | 国产亚洲欧美另类一区二区三区 | 小毛片网站 | 中文在线播放 | 亚洲十欧美十日韩十国产 | 欧美精品久久久久久久影视 | 亚洲综合一区二区 | 国产一国产一有一级毛片 | 日韩亚色 | jjzz黄色| 亚洲精品综合一区在线 | 高清免费国产在线观看 | 久久新网址| 欧美老女人性视频 | 激情久久久久久久久久 | 欧美第九页 | 视频免费观看在线播放高清 | 亚洲欧美日韩精品高清 | 免费一级毛片免费播放 | 久久亚洲精品中文字幕三区 | 亚洲一区二区三区四区在线观看 | 在线天堂av影院 | 日本二区 | 2021年中文字幕视频 | aaa级精品久久久国产片 | 成人国产一区二区三区精品 | 国产成人精品免费视频大全办公室 | 波多野结衣与公中出中文字幕 | 亚洲精品久久一区毛片 | 久久久精品456亚洲影院 |