多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國(guó)內(nèi)最全I(xiàn)T社區(qū)平臺(tái) 聯(lián)系我們 | 收藏本站
阿里云優(yōu)惠2
您當(dāng)前位置:首頁(yè) > 互聯(lián)網(wǎng) > 取代而非補(bǔ)充,Spark Summit 2014精彩回顧

取代而非補(bǔ)充,Spark Summit 2014精彩回顧

來(lái)源:程序員人生   發(fā)布時(shí)間:2014-09-09 20:49:59 閱讀次數(shù):2271次

Apache Spark開(kāi)源生態(tài)系統(tǒng)在2014上半年大幅增長(zhǎng),已迅速成為大數(shù)據(jù)領(lǐng)域中最活躍的開(kāi)源項(xiàng)目,HDFS位列第二,其代碼變動(dòng)次數(shù)(commits)和行數(shù)僅僅有Spark的一半:

  • 有超過(guò)50個(gè)機(jī)構(gòu)250個(gè)工程師貢獻(xiàn)過(guò)代碼
  • 和去年六月相比,代碼行數(shù)幾乎擴(kuò)大三倍。

隨著1.0版本于5月30日推出,Spark提供了一個(gè)穩(wěn)定的API,開(kāi)發(fā)人員可以依靠它來(lái)保證代碼的兼容性。所有主流的Hadoop發(fā)行商,包括Hortonworks、IBM、Cloudera、MapR和Pivotal都提供了Spark的包裝和技術(shù)支持。


會(huì)議第三日培訓(xùn)

伴隨著Spark平臺(tái)的發(fā)展,Spark Summit 2014于6月30日在舊金山正式展開(kāi)為期三天的峰會(huì),也是有史以來(lái)最大的Spark會(huì)議。

  • 大會(huì)收到了包括SAP、IBM、Intel、Amazon和Cloudera等近30個(gè)公司的贊助
  • 1000多位從事大數(shù)據(jù)應(yīng)用和開(kāi)發(fā)的專家注冊(cè)了會(huì)議 
  • 300多名開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家參加了第三天的培訓(xùn)
  • 12位來(lái)自Databricks、SAP、Cloudera、MapR、DataStax和Jawbone等公司的高管發(fā)表了主題演講
  • 大會(huì)共設(shè)50個(gè)技術(shù)講座,分為特色應(yīng)用、開(kāi)發(fā)、數(shù)據(jù)科學(xué)與研究三個(gè)領(lǐng)域

在這篇文章中,我們將一同回顧這次峰會(huì)的亮點(diǎn)。


Spark開(kāi)源生態(tài)系統(tǒng)的現(xiàn)在和未來(lái)

1. Spark創(chuàng)始人、Databricks CTO Matei Zaharia:Spark在大數(shù)據(jù)領(lǐng)域的角色

Matei Zaharia在加州大學(xué)伯克利分校AMPLab博士生涯的時(shí)候設(shè)計(jì)和編寫(xiě)了第一個(gè)版本的Spark,在圓滿完成博士生涯后,目前是Databricks公司的CTO,并將在麻省理工學(xué)院出任助理教授職位。Matei是此次峰會(huì)的第一個(gè)演講人,他首先回顧了Spark在社區(qū)規(guī)模和技術(shù)能力上的最新進(jìn)展。自2013年12月的首次Spark Summit以來(lái),Spark的開(kāi)源貢獻(xiàn)者已經(jīng)從100位增加至250+,已成為大數(shù)據(jù)領(lǐng)域最活躍的開(kāi)源項(xiàng)目。Spark新增了一些重要的組件,如Spark SQL運(yùn)行機(jī)制,一個(gè)更大的機(jī)器學(xué)習(xí)庫(kù)MLLib,以及豐富的與其它數(shù)據(jù)處理系統(tǒng)的集成。關(guān)于Spark在大數(shù)據(jù)領(lǐng)域未來(lái)角色,Matei設(shè)想Spark很快會(huì)成為大數(shù)據(jù)的統(tǒng)一平臺(tái),各種不同的應(yīng)用,如流處理,機(jī)器學(xué)習(xí)和SQL,都可以通過(guò)Spark建立在不同的存儲(chǔ)和運(yùn)行??系統(tǒng)上。

2. Databricks聯(lián)合創(chuàng)始人Patrick Wendell:展望Spark的未來(lái)

Patrick Wendell是Apache Spark的項(xiàng)目管理會(huì)成員,曾在伯克利分校攻讀博士學(xué)位,與2013年離開(kāi)伯克利幫助創(chuàng)建了Databricks。目前他在Databricks從事開(kāi)源管理工作,在技術(shù)上側(cè)重于Spark和網(wǎng)絡(luò)操作系統(tǒng)的關(guān)系。在這個(gè)演講中,Patrick回顧了Spark的快速增長(zhǎng),他強(qiáng)調(diào)Spark的未來(lái)將提供由各領(lǐng)域的專家領(lǐng)導(dǎo)開(kāi)發(fā)的強(qiáng)大的程序庫(kù)。為了實(shí)現(xiàn)這一目標(biāo),他闡述了應(yīng)該采用的發(fā)布流程和節(jié)奏,以提供完整的互操作性與穩(wěn)定的版本,同時(shí)支持快速的開(kāi)發(fā)。各種程序庫(kù)應(yīng)與Spark核心API高度策劃和整合在一起。Spark核心會(huì)不斷改進(jìn),以推動(dòng)未來(lái)的創(chuàng)新。Patrick講解了現(xiàn)有的主要Spark庫(kù)和它們各自的發(fā)展方向,包括支持結(jié)構(gòu)化數(shù)據(jù)的Spark SQL、Spark Streaming、用于機(jī)器學(xué)習(xí)的MLLib以及SparkR和GraphX??。

Databrick Cloud 產(chǎn)品發(fā)布

1. Databricks CEO Ion Stoica:Databricks公司的進(jìn)展和產(chǎn)品發(fā)布


Databricks CEO Ion Stoica

Ion Stoica是Databricks公司的CEO。他是加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)系的教授,并與2013年參與創(chuàng)辦了Databricks。Ion首先闡述了Databricks公司為推進(jìn)Spark在工業(yè)界的應(yīng)用所采取的兩個(gè)措施。 

  • Databricks和Spark的分銷商:Cloudera,DataStax,MAPR和SAP,建立了伙伴關(guān)系,以提高用戶的體驗(yàn)。
  • 今年二月,Databricks推出了Spark認(rèn)證計(jì)劃,以確保經(jīng)認(rèn)證的應(yīng)用程序可以運(yùn)行在任何經(jīng)過(guò)認(rèn)證的Spark發(fā)布上。

Ion主題演講的重點(diǎn)是推出Databricks Cloud。Ion列舉了當(dāng)前從數(shù)據(jù)到價(jià)值過(guò)程中的種種障礙,Databricks Cloud的推出就是為了使大數(shù)據(jù)容易。Databricks Cloud能夠使用戶方便的創(chuàng)建數(shù)據(jù)處理的整個(gè)流程,同時(shí)支持Spark現(xiàn)有的應(yīng)用,并加入了許多增強(qiáng)和附加功能。Databricks Cloud的設(shè)計(jì)初衷就是要大大簡(jiǎn)化大數(shù)據(jù)處理的的復(fù)雜性,它會(huì)吸引更多的企業(yè)用戶從事到利用大數(shù)據(jù)來(lái)實(shí)現(xiàn)全新的價(jià)值。

Databricks Cloud由Databricks Platform,Spark和Databricks Workspace三部分組成。Databricks Platform使用戶非常容易的創(chuàng)建和管理Spark計(jì)算機(jī)群,目前運(yùn)行在Amazon AWS上,不久將擴(kuò)展到更多的云供應(yīng)商的設(shè)施上。 Databricks Workspace由notebook、dashboard和一個(gè)job launcher組成:

  1. Notebook提供了豐富的界面,允許用戶進(jìn)行數(shù)據(jù)的發(fā)現(xiàn)和探索,交互式繪制結(jié)果,把整個(gè)工作流程變?yōu)槟_本執(zhí)行,并支持用戶之間的交互協(xié)作。
  2. 使用dashboard,用戶可以選擇任何以前創(chuàng)建的notebook,通過(guò)WISIWYG編輯器將所選的notebooks組裝成一個(gè)dashboard,并發(fā)布給更多的用戶。Dashboard上的數(shù)據(jù)和查詢還可以定期刷新。
  3. Job launcher允許用戶運(yùn)行任意的Apache Spark任務(wù),從而簡(jiǎn)化構(gòu)建數(shù)據(jù)產(chǎn)品的過(guò)程。

2. Databricks聯(lián)合創(chuàng)始人Ali Ghodsi:現(xiàn)場(chǎng)演示Databricks Cloud

Ali Ghodsi與2013年共同創(chuàng)立Databricks,現(xiàn)任工程主管。通過(guò)Databricks Cloud,Ali希望輕松完成簡(jiǎn)單的任務(wù),并使復(fù)雜的分析成為可能。他演示了僅需點(diǎn)擊鼠標(biāo)幾次就可以方便的在AWS上建立一個(gè)Spark計(jì)算機(jī)群。使用一個(gè)關(guān)于FIFA世界杯的示例數(shù)據(jù),他演示了notebook,交互式用戶界面,繪圖,參數(shù)化的查詢和dashboard。關(guān)于大數(shù)據(jù)分析,他使用Spark SQL交互處理了一個(gè)3.4 TB的推特?cái)?shù)據(jù)集。Ali重點(diǎn)演示了通過(guò)機(jī)器學(xué)習(xí)來(lái)進(jìn)行實(shí)時(shí)概念搜索。他首先使用MLlib在一個(gè)60GB維基百科數(shù)據(jù)上建立了一個(gè)TF-IDF詞模型,并用Scala基于此模型建立了一個(gè)不同詞之間的相似函數(shù),還在Spark SQL上注冊(cè)了此函數(shù)。最后使用Spark Streaming生成一個(gè)tweet流,并用Spark SQL過(guò)濾出和用戶給出的搜索詞相關(guān)的tweets,比如搜索足球會(huì)顯示世界杯的tweets。這個(gè)演示在聽(tīng)眾中得到極高的評(píng)價(jià)。人們驚嘆演示中復(fù)雜的數(shù)據(jù)流程和分析的無(wú)縫集成,大家認(rèn)為Databricks Cloud使自己可以更專注于分析本身,而不是花費(fèi)大量時(shí)間精力來(lái)建立數(shù)據(jù)的流程設(shè)施,這會(huì)給他們公司業(yè)務(wù)的增長(zhǎng)提供直接的動(dòng)力。

Apache Spark和大數(shù)據(jù)產(chǎn)業(yè)

出席本次峰會(huì)的有SAP、DataStax、Cloudera、MapR等公司的高級(jí)主管,他們關(guān)于Spark和大數(shù)據(jù)產(chǎn)業(yè)的主題演講非常精彩。

在峰會(huì)上,Databricks和SAP宣布成立合作伙伴關(guān)系,在SAP HANA平臺(tái)上包裝經(jīng)過(guò)認(rèn)證的Spark。 SAP高級(jí)副總裁Aiaz Kazi介紹了SAP的HANA和Apache Spark之間的協(xié)同效應(yīng),它們的結(jié)合給企業(yè)大數(shù)據(jù)提供了更好的支持。

Hortonworks前CEO / CTO Eric Baldeschwieler(也稱Eric 14)重申了他的觀點(diǎn):“Apache Spark是當(dāng)今大數(shù)據(jù)領(lǐng)域最激動(dòng)人心的事情”。他認(rèn)為Spark社區(qū)的一個(gè)重要目標(biāo)是使Spark在數(shù)據(jù)科學(xué)和現(xiàn)實(shí)世界應(yīng)用中大放異彩。為此他概述了幾個(gè)任務(wù),如建立一個(gè)開(kāi)放的認(rèn)證套件,更好的支持多個(gè)Spark計(jì)算機(jī)群并存,提供便攜性的存儲(chǔ)等。

Cloudera的CSO和共同創(chuàng)始人Mike Olson發(fā)表了主題是Spark作為下一代大數(shù)據(jù)MapReduce標(biāo)準(zhǔn)模式的演講。Mike描述了Spark在Cloudera產(chǎn)品中的重要地位:在過(guò)去一年所有Cloudera支持的項(xiàng)目中,Spark的開(kāi)源代碼更新活動(dòng)占總數(shù)的21%。Spark已經(jīng)完全融入CDH,并被Cloudera的主要客戶采用。 關(guān)與SQL在Hadoop上運(yùn)行,Cloudera會(huì)繼續(xù)支持用與BI分析的Impala,用于批量處理的Hive on Spark,以及用于混合Spark和SQL應(yīng)用程序的Spark SQL。

MapR首席技術(shù)官和創(chuàng)始人MC Srivas說(shuō),MapR平臺(tái)包括完整的Spark成員。Spark的優(yōu)點(diǎn)包括易于開(kāi)發(fā),基于內(nèi)存的高性能和統(tǒng)一的工作流程,Hadoop的優(yōu)點(diǎn)包括規(guī)模可無(wú)限擴(kuò)展,通用的企業(yè)平臺(tái)和廣泛的應(yīng)用范圍。通過(guò)結(jié)合Hadoop和Spark的優(yōu)勢(shì),可以給MapR客戶提供更好的支持。他展示了幾個(gè)在不同領(lǐng)域的案例,包括廣告優(yōu)化,基因組合,網(wǎng)絡(luò)安全和保健保險(xiǎn)。

DataStax執(zhí)行副總裁Martin Van Ryswyk的演講是關(guān)于如何整合Spark和Cassandra。他宣布推出cassandra-driver-spark v1.0。DataStax的Cassandra與Spark的組合比優(yōu)化后的Hadoop on Cassandra速度快2到30倍。

Spark的SQL支持

1. Spark SQL的主要開(kāi)發(fā)人員Michael Armbrust:使用Spark SQL進(jìn)行高級(jí)數(shù)據(jù)分析

Spark SQL是Spark1.0中最新的一個(gè)alpha組成部分。在峰會(huì)上,Databricks宣布,已停止對(duì)Shark的開(kāi)發(fā),Spark SQL將是其開(kāi)發(fā)的重點(diǎn)。Spark SQL允許開(kāi)發(fā)人員直接處理RDD,同時(shí)也可查詢例如在 Apache Hive上存在的外部數(shù)據(jù)。Spark SQL的一個(gè)重要特點(diǎn)是其能夠統(tǒng)一處理關(guān)系表和RDD,使得開(kāi)發(fā)人員可以輕松地使用SQL命令進(jìn)行外部查詢,同時(shí)進(jìn)行更復(fù)雜的數(shù)據(jù)分析。除了Spark SQL外,Michael還談到Catalyst優(yōu)化框架,它允許Spark SQL自動(dòng)修改查詢方案,使SQL更有效地執(zhí)行。

2. 英特爾軟件與服務(wù)部門(mén)工程經(jīng)理Grace Huang:StreamSQL

為了使SQL用戶迅速掌握流處理,StreamSQL支持通過(guò)SQL操作流數(shù)據(jù),它建立在Spark Streaming和Catalyst優(yōu)化框架之上。目前,它支持流之間簡(jiǎn)單的查詢以及流和結(jié)構(gòu)化數(shù)據(jù)之間的相互操作,也支持在Catalyst中的典型用法(如LINQ表達(dá)式,SQL和DStream的結(jié)合)。StreamSQL今后的工作將包括移動(dòng)窗口支持,使用Hive的DDL,統(tǒng)一的輸入/輸出格式等。

R和Cascading作為Spark的前端

1. 加州大學(xué)伯克利分校Zongheng Yang:SparkR

R是數(shù)據(jù)科學(xué)家們進(jìn)行分析和繪圖的最廣泛使用的語(yǔ)言之一,但是它只能運(yùn)行在一臺(tái)計(jì)算機(jī)上,當(dāng)數(shù)據(jù)大到超過(guò)其內(nèi)存時(shí),R就會(huì)變得無(wú)能為力了。 SparkR是R的一個(gè)程序包,因此它提供了在R的環(huán)境中使用Spark的一個(gè)簡(jiǎn)易方法。SparkR允許用戶創(chuàng)建RDD并用R函數(shù)對(duì)其進(jìn)行變換。在R交互環(huán)境中可以給Spark計(jì)算機(jī)群提交作業(yè)。 在SparkR中還可以方便地利用現(xiàn)有的R程序包。更多詳細(xì)信息請(qǐng)參考http://amplab-extras.github.io/SparkR-pkg。

2. Concurrent公司副總裁Supreet Oberoi:Cascading on Spark

Cascading是一個(gè)流行的應(yīng)用程序開(kāi)發(fā)框架,可用來(lái)構(gòu)建以數(shù)據(jù)為中心的應(yīng)用程序。它使用Tap和Pipe的概念,從而提高了用戶建立MapReduce程序的抽象水平。 Cascading 3.0版包括一個(gè)可定制的查詢規(guī)劃方案,所以Cascading程序可運(yùn)行在包括本地內(nèi)存、Apache MapReduce和Apache Tez的后端環(huán)境上。即將發(fā)布的3.1版將可運(yùn)行在Spark上。

Apache Spark內(nèi)部機(jī)制和優(yōu)化

1. MLlib主要開(kāi)發(fā)人員Xiangru Meng:MLlib和稀疏數(shù)據(jù)

實(shí)際應(yīng)用中的大型數(shù)據(jù)集往往是稀疏的。Spark MLlib支持稀疏矩陣和向量的存儲(chǔ)及處理。作為MLlib的用戶,應(yīng)識(shí)別所面臨的問(wèn)題是否可以用稀疏數(shù)據(jù)來(lái)表示。當(dāng)數(shù)據(jù)非常稀疏時(shí),這往往決定了運(yùn)行的效率。對(duì)于開(kāi)發(fā)者而言,應(yīng)采用適當(dāng)?shù)挠?jì)算和算法來(lái)利用稀疏數(shù)據(jù)。Xiangru詳述了對(duì)稀疏數(shù)據(jù)的三個(gè)優(yōu)化算法:在KMeans中計(jì)算兩點(diǎn)的距離,在線性模型中計(jì)算梯度的總和,以及如何在SVD中利用稀疏數(shù)據(jù)。

2. Databricks的Aaron Davidson:理解Spark的內(nèi)部機(jī)制

Aaron的演講主要是如何在實(shí)際應(yīng)用中提高Spark核心性能。他詳述了Spark RDD的執(zhí)行模型和shuffle操作。 RDD保存了產(chǎn)生的順序和計(jì)算過(guò)程,從??而形成一個(gè)邏輯的計(jì)劃。邏輯計(jì)劃在shuffle的邊界分為不同的執(zhí)行階段,所有執(zhí)行階段形成一個(gè)DAG。執(zhí)行階段加上一個(gè)數(shù)據(jù)partition形成一個(gè)執(zhí)行任務(wù)。當(dāng)父輩階段執(zhí)行后,任務(wù)調(diào)度器就會(huì)為每一個(gè)任務(wù)提交一個(gè)作業(yè)。在shuffle的邊界,Mapper任務(wù)將數(shù)據(jù)按照partition保存到磁盤(pán),而reducer從多個(gè)mapper提取數(shù)據(jù),并按照key來(lái)組合數(shù)據(jù)。此過(guò)程中shuffle的網(wǎng)絡(luò)通信是昂貴的,按key的數(shù)據(jù)組合也會(huì)使用大量的內(nèi)存。Aaron舉了一個(gè)簡(jiǎn)單的例子:計(jì)算不同人名的數(shù)量,并用人名的第一個(gè)字母分組。他演示了兩個(gè)不同的實(shí)現(xiàn)方法,并在Databricks Cloud中運(yùn)行,比較了執(zhí)行階段和運(yùn)行時(shí)間。

基于Apache Spark的科研及應(yīng)用

1. 加州大學(xué)伯克利分校教授David Patterson:Spark和基因?qū)W

David Patterson是RISC結(jié)構(gòu)的創(chuàng)始者,由他合作撰寫(xiě)的計(jì)算機(jī)體系結(jié)構(gòu)一書(shū)是經(jīng)典的教科書(shū)。David在演講中介紹了幾個(gè)基于Spark之上的開(kāi)源基因?qū)W軟件項(xiàng)目。SNAP是短讀基因序列校準(zhǔn)器,它是迄今為止最準(zhǔn)確和最快的校準(zhǔn)器,比其他的校準(zhǔn)器快3到10倍。 ADAM是一個(gè)適用于在計(jì)算機(jī)群中存儲(chǔ)的基因格式,使用先進(jìn)的系統(tǒng)技術(shù),可大大加速整個(gè)基因處理軟件流水線的效率。 使用一個(gè)82個(gè)節(jié)點(diǎn)的計(jì)算機(jī)群,ADAM可以用比其他系統(tǒng)快110倍的速度來(lái)執(zhí)行基因?qū)W中兩個(gè)最昂貴的步驟。當(dāng)David教授介紹了紐約時(shí)報(bào)為期2014年6月4日關(guān)于SNAP如何幫助挽救了一個(gè)孩子的生命的新聞時(shí),全場(chǎng)響起熱烈的掌聲。

2. Jawbone公司數(shù)據(jù)副總裁Monica Rogati:為數(shù)據(jù)時(shí)代的大眾制造數(shù)據(jù)產(chǎn)品

可聯(lián)網(wǎng)的設(shè)備的數(shù)量到2020年將增長(zhǎng)到500億。在數(shù)據(jù)時(shí)代的大眾眼中,世界將是聰明的,可適應(yīng)每個(gè)人的獨(dú)特情況。Monica認(rèn)為Spark是構(gòu)建智能數(shù)據(jù)產(chǎn)品的主要組成部分,因?yàn)樗С止I(yè)界所需的數(shù)據(jù)流程,無(wú)可挑剔的數(shù)據(jù)清理,迭代,機(jī)器學(xué)習(xí)和更快的運(yùn)行速度。

3. Spotify的工程師Chris Johnson:大型音樂(lè)推薦系統(tǒng)

Spotify使用各種機(jī)器學(xué)習(xí)模型來(lái)增強(qiáng)其音樂(lè)推薦功能,包括網(wǎng)頁(yè)發(fā)現(xiàn)和電臺(tái)。由于這些模型的迭代特性,它們非常適合Spark的計(jì)算模式,可以避免Hadoop輸入/輸出所帶來(lái)的開(kāi)銷。在這次講座中,Chris評(píng)論了兩個(gè)共同篩選算法,以及他如何基于Spark MLlib中的ALS來(lái)處理數(shù)千億的數(shù)據(jù)點(diǎn)。

4. 蘇黎世聯(lián)邦理工學(xué)院講師Kevin Mader:使用Spark進(jìn)行實(shí)時(shí)圖像處理和分析

采用基于同步加速器X射線層析Microscopy可以每秒產(chǎn)生8GB的圖像數(shù)據(jù)。為了實(shí)時(shí)處理這些圖像,Kevin采用了一個(gè)上千臺(tái)機(jī)器的計(jì)算機(jī)群,并在上面開(kāi)發(fā)了一套基于Spark,可進(jìn)行過(guò)濾、分割和形狀分析的系統(tǒng)。為了加速后期處理,Kevin進(jìn)行了實(shí)時(shí)近似分析,如區(qū)域篩選和采樣。

結(jié)束語(yǔ)

Spark Summit 2014是Spark開(kāi)源生態(tài)系統(tǒng)發(fā)展壯大的一個(gè)重要里程碑,Apache Spark已經(jīng)成為整合以下大數(shù)據(jù)應(yīng)用的標(biāo)準(zhǔn)平臺(tái): 

  • 復(fù)雜的分析(例如機(jī)器學(xué)習(xí)) 
  • 交互式查詢,包括SQL 
  • 實(shí)時(shí)流處理 

有越來(lái)越多的工業(yè)產(chǎn)品建立在或集成了Spark如Databricks Cloud和SAP HANA等。

展望未來(lái),Apache Spark社區(qū)將繼續(xù)在多個(gè)領(lǐng)域進(jìn)一步創(chuàng)新,以提供更多的功能,更快的運(yùn)行效率和更深度的整合: 

  • Spark內(nèi)核將提供一個(gè)可拔插的shuffle接口。現(xiàn)有的shuffler是基于HashMap來(lái)匯總具有相同關(guān)鍵詞的數(shù)據(jù),當(dāng)內(nèi)存壓力高時(shí),它會(huì)自動(dòng)溢出到磁盤(pán)里。有了可插拔接口,在未來(lái)的版本中將加入排序和流水線shuffler。 
  • Spark內(nèi)核將建立一個(gè)統(tǒng)一的存儲(chǔ)API,可以支持固態(tài)硬盤(pán)驅(qū)動(dòng)器(SSD),以及其他共享內(nèi)存的軟件存儲(chǔ)系統(tǒng),如Tachyon,HDFS緩存等。 
  • 與YARN更緊密的集成,比如動(dòng)態(tài)調(diào)整資源分配,來(lái)更好的支持multi-tenency。 
  • Spark SQL作為新的SQL引擎來(lái)取代Shark。基于Catalyst的優(yōu)化引擎可以直接為Spark內(nèi)核進(jìn)行優(yōu)化處理。即將推出的動(dòng)態(tài)代碼生成將大大提高查詢效率。 
  • Spark SQL將整合各種數(shù)據(jù)源,包括Parquet,JSON,NoSQL數(shù)據(jù)庫(kù)(Cassandra,HBase,MongoDB)和傳統(tǒng)的型數(shù)據(jù)庫(kù)(SAP,Vertica和Oracle)。 
  • MLlib將包括一個(gè)統(tǒng)計(jì)庫(kù)來(lái)進(jìn)行抽樣,相關(guān)性,估計(jì)和測(cè)試。不久推出將一組新的算法,包括非負(fù)矩陣分解,稀疏的SVD,LDA等。
  • Spark Streaming將增加新的數(shù)據(jù)源和更好的與Apache Flume的整合。 

通過(guò)這次的盛會(huì),更加堅(jiān)定了Spark在大數(shù)據(jù)中的核心地位。讓我們期待Spark在未來(lái)的更加精彩的發(fā)展。

關(guān)于作者

生活不易,碼農(nóng)辛苦
如果您覺(jué)得本網(wǎng)站對(duì)您的學(xué)習(xí)有所幫助,可以手機(jī)掃描二維碼進(jìn)行捐贈(zèng)
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關(guān)閉
程序員人生
主站蜘蛛池模板: 中文字幕亚洲综合久久2 | 永久免费在线观看视频 | 国产一区二区久久 | 亚洲欧美日韩久久一区 | 亚洲精品亚洲人成毛片不卡 | 亚洲成人高清在线 | 国产丝袜福利视频在线播放 | 亚洲午夜久久久精品影院视色 | 国产不卡的一区二区三区四区 | 欧美又粗又硬又黄又爽视频 | 欧美人一级淫片a免费播放 欧美人与z0z0xxxx | 亚洲免费视频网 | 亚洲精品国自产拍在线观看 | 就要精品综合久久久久五月天 | 欧美αv天堂在线视频 | 欧美日韩国产一区二区三区欧 | 成人国产网站v片免费观看 成人国产亚洲 | 亚洲精品高清国产麻豆专区 | 福利盒子手机看片 | 亚洲欧美久久精品 | 国产亚洲一区二区精品 | 一级欧美毛片成人 | 久久99爱爱 | 亚洲视频在线不卡 | 日本 黄 a| 国产日韩高清一区二区三区 | 日本三级理论片 | 手机在线观看视频 | 亚洲永久网站 | 国产高清1024永久免费 | 精品久久久久久久高清 | 国产亚洲精品自在久久不卡 | 亚洲欧美另类色妞网站 | 中文字幕欧美日韩高清 | 天天在线天天综合网色 | 免费视频成人 | 欧美最爽乱淫视频播放黑人 | 亚洲国产一区二区三区在线观看 | 亚洲 欧美 自拍 另类 | 女bbbbxxxx毛片视频丶 | 亚洲天堂网视频 |