多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > 互聯網 > 廣而告之:Databricks終止Shark項目,轉至Spark SQL

廣而告之:Databricks終止Shark項目,轉至Spark SQL

來源:程序員人生   發布時間:2014-09-13 08:00:01 閱讀次數:2914次

在2014年7月1日的Spark Summit上,Databricks宣布終止對Shark的開發,將重點放到Spark SQL上。Databricks表示,Spark SQL將涵蓋Shark的所有特性,用戶可以從Shark 0.9進行無縫的升級。


本次Databricks推廣的Shark相關項目一共有兩個,分別是Spark SQL和新的Hive on Spark(HIVE-7292),在介紹這兩個項目之前,我們首先關注下被終止的項目Shark。

Shark及項目終止原因

About Shark

Shark發布于3年前,那個時候,Hive可以說是SQL on Hadoop的唯一選擇,負責將SQL編譯成可擴展的MapReduce作業。鑒于Hive的性能以及與Spark的兼容,Shark項目由此而生。

Shark即Hive on Spark,本質上是通過Hive的HQL解析,把HQL翻譯成Spark上的RDD操作,然后通過Hive的metadata獲取數據庫里的表信息,實際HDFS上的數據和文件,會由Shark獲取并放到Spark上運算。

Shark的最大特性就是快和與Hive的完全兼容,且可以在shell模式下使用rdd2sql()這樣的API,把HQL得到的結果集,繼續在scala環境下運算,支持自己編寫簡單的機器學習或簡單分析處理函數,對HQL結果進一步分析計算。

除去Spark本身的迭代計算,Shark速度快的原因還在于其本身的改造,比如:

  • partial DAG execution:對join優化,調節并行粒度,因為Spark本身的寬依賴和窄依賴會影響并行計算和速度
  • 基于列的壓縮和存儲:把HQL表數據按列存,每列是一個array,存在JVM上,避免了JVM GC低效,而壓縮和解壓相關的技術是Yahoo!提供的。

終止Shark的原因

在會議上,Databricks表示,Shark更多是對Hive的改造,替換了Hive的物理執行引擎,因此會有一個很快的速度。然而,不容忽視的是,Shark繼承了大量的Hive代碼,因此給優化和維護帶來了大量的麻煩。隨著性能優化和先進分析整合的進一步加深,基于MapReduce設計的部分無疑成為了整個項目的瓶頸。

因此,為了更好的發展,給用戶提供一個更好的體驗,Databricks宣布終止Shark項目,從而將更多的精力放到Spark SQL上。

兩個相關/替代項目介紹

About Spark SQL

既然不是基于Hive,Spark SQL究竟有什么樣的改變,這里我們不妨看向 張包峰的博客。Spark新發布的Spark SQL組件讓Spark對SQL有了別樣于Shark基于Hive的支持。參考官方手冊,具體分三部分:

  • 其一,能在Scala代碼里寫SQL,支持簡單的SQL語法檢查,能把RDD指定為Table存儲起來。此外支持部分SQL語法的DSL。
  • 其二,支持Parquet文件的讀寫,且保留Schema。
  • 其三,能在Scala代碼里訪問Hive元數據,能執行Hive語句,并且把結果取回作為RDD使用。

第一點對SQL的支持主要依賴了Catalyst這個新的查詢優化框架(下面會給出一些Catalyst的簡介),在把SQL解析成邏輯執行計劃之后,利用Catalyst包里的一些類和接口,執行了一些簡單的執行計劃優化,最后變成RDD的計算。雖然目前的SQL解析器比較簡單,執行計劃的優化比較通配,還有些參考價值,所以看了下這塊代碼。目前這個PR在昨天已經merge進了主干,可以在SQL模塊里看到這部分實現,還有catalyst模塊看到Catalyst的代碼。下面會具體介紹Spark SQL模塊的實現。

第二點對Parquet的支持不關注,因為我們的應用場景里不會使用Parquet這樣的列存儲,適用場景不一樣。

第三點對Hive的這種結合方式,沒有什么核心的進展。與Shark相比,Shark依賴Hive的Metastore,解析器等能把hql執行變成Spark上的計算,而Hive的現在這種結合方式與代碼里引入Hive包執行hql沒什么本質區別,只是把hive hql的數據與RDD的打通這種交互做得更友好了。

About HIVE-7292

HIVE-7292更像是Spark SQL成為標準SQL on Spark項目的補充,首先它是一個Hive on Spark Project,旨在服務已有Hive投入的機構,這個項目將Spark作為一個替代執行引擎提供給Hive,從而為這些機構提供一個遷往Spark的途徑,提供一個更流暢的Hive體驗。(文/仲浩 審校/魏偉)


免費訂閱“CSDN云計算”微信公眾號,實時掌握第一手云中消息!

CSDN作為國內最專業的云計算服務平臺,提供云計算、大數據、虛擬化、數據中心、OpenStack、CloudStack、Hadoop、Spark、機器學習、智能算法等相關云計算觀點,云計算技術,云計算平臺,云計算實踐,云計算產業資訊等服務。

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 久久精品国产视频在热 | 中国在线播放精品区 | 亚欧毛片 | 伊人网在线免费视频 | 久久精品免费在线观看 | 波多野结衣中文字幕久久 | 在线天堂在线 | 一级做a爰性色毛片免费 | 最近免费中文字幕大全高清大全1 | 久久精品国产欧美 | 国产色综合久久无码有码 | 手机看片福利日韩 | 欧美在线观看成人高清视频 | 伊人国产在线视频 | 又硬又大又湿又紧a视频 | free性video18| 亚洲激情视频在线播放 | 欧美小网站 | 精品亚洲综合在线第一区 | 羞羞免费网站 | 欧美专区一区 | 国产精品视频国产永久视频 | 国产综合在线观看 | 国产精品久久久久久亚洲小说 | 一级一级特黄女人精品毛片 | 精品亚洲综合在线第一区 | 怡春院欧美一区二区三区免费 | 国产成人无精品久久久 | 亚洲综合影视 | 国产麻豆剧看黄在线观看 | 亚洲天堂视频在线观看 | 男人把大ji巴放进男人免费视频 | 欧美成人免费观看国产 | 亚洲国产精品乱码一区二区三区 | 久久久综合久久 | 欧美亚洲国产精品久久 | jizzxxxx18中国 | 亚洲精品一区二区观看 | 久草成人在线 | 俄罗斯freexxxx性 | 最新欧洲大片免费在线看 |