【編者按】前段時間,Cloudera對比了Spark與Hadoop,取代MapReduce,宣布該公司將加大Spark的投入。實際上,Cloudera已經開始了向Spark的遷移,其中包括了所有Hive SQL-on-Hadoop的部分。同時,Cloudera稱并不會使用Spark替換Impala,他們堅信Impala將是交互式SQL on Hadoop查詢的未來,處理Hive的速度遠超現有的所有軟件。
免費訂閱“CSDN云計算”微信公眾號,實時掌握第一手云中消息!
CSDN作為國內最專業的云計算服務平臺,提供云計算、大數據、虛擬化、數據中心、OpenStack、CloudStack、Hadoop、Spark、機器學習、智能算法等相關云計算觀點,云計算技術,云計算平臺,云計算實踐,云計算產業資訊等服務。
以下為譯文:
這周的大數據排行榜上有很多關于Spark的新聞,同時還有一些猜測。來自Cloudera的Mike Olson說,他們公司正在廣泛擁抱Spark――包括運行Hive――但是不存在替換Impala行為。
對于計劃將Hive SQL-on-Hadoop引擎設置在Spark上引來的非議,Cloudera的聯合創始人兼首席戰略官Mike Olson的回應是“并沒有什么改變”。也就是說,Cloudera的Impala的產品沒有發生任何變動。然而在Hadoop與Spark生態圈中,巨大的變化正在發生。
Olson表示,正如Cloudera所關注的那樣,Impala就是交互式SQL on Hadoop查詢的未來,Impala速度高于任何Hive相關產品,即使是Hortonworks出品。
Cloudera聯合IBM、MapR和Databricks(Spark發布公司)一起致力將Hive設置在Spark上。Hive的功能是企業迫切需要的,但運行在MapReduce上的Hive卻并不能滿足用戶需求。關于這一點,幾家公司已經達成了共識。Olson堅持,Hive本質就是一個運行在MapReduce上的批處理架構,雖然它在Spark或Hortonworks驅動的Apache Tez框架上運行的更快,但仍然是一個批處理作業。
他補充說,實際上,Cloudera等公司正致力于將幾乎現存的每一個MapReduce負載都轉移到Spark上,像Sqoop和Pig等,Spark具有美好的應用前景,大家相信它將會在不遠的未來超過MapReduce。
The Spark stack
有人可能會問Shark應用在哪里。Olson承認Databricks將會把Shark推遲到下一次Spark發布會,這次峰會集中精力在一個公司四月份發布的叫做Spark SQL的項目上。
這段時間,Databricks 的CEO Ion Stoica對數據庫行業分析師Curt Monash同樣提到了繼續開發一個被稱為BlinkDB的交互引擎的項目,Ion Stoica說: “如果我要重繪Spark棧圖,SparkSQL將會取代Shark,而Shark則會介于SparkSQL和BlinkDB層面中間。”
Olson沒有提到BlinkDB,但是他說對于Spark SQL的想法他并不感到興奮。他承認,Databricks是一個有智慧的公司,也可能會用Spark SQL做一項很成功的任務,但是他補充說,將Hive轉移到Spark上并不是一個快速的過程,因為SparkSQL仍是一個進展中的作品。
“我希望看到那些家伙能將他們的努力放在其他事情上”,他說“……我認為Spark框架中的Hive將會做的相當不錯”。
原文鏈接: Cloudera: Impala’s it for interactive SQL on Hadoop; everything else will move to Spark (編譯/史臣敏 責編/仲浩)