【編者按】隨著大數據被更多的企業采用,大數據分析算法編寫和生產語言也得到了廣泛的關注。而在不知不覺中,開源統計語言R已基本成為大數據科學家和開發者的必備技能。在所有編程語言和技巧中,人氣急劇上升。
免費訂閱“CSDN大數據”微信公眾號,實時了解最新的大數據進展!
CSDN大數據,專注大數據資訊、技術和經驗的分享和討論,提供Hadoop、Spark、Imapala、Storm、HBase、MongoDB、Solr、機器學習、智能算法等相關大數據觀點,大數據技術,大數據平臺,大數據實踐,大數據產業資訊等服務。
以下為譯文
通過與大數據工具整合,R提供了大數據集的深度統計能力,包括統計分析以及數據驅動的可視化等。而在金融、藥物、媒體及銷售這些可直接從數據中獲取決策的行業中,R更得到了深度應用。
根據Rexer Analytics 2013年對數據挖掘專業人員的調查顯示,R已經成為當下最流行的統計分析工具,至少有70%被調查者表示有使用過R語言。而在企業市場,R的受歡迎程度同樣如此,多個公司和項目都使用R,并將其提供給大數據科學家和業務用戶,其中包括了微軟的云計算Azure Machine Learning、IBM的Big R、Teradata Aster R、Oracle R Enterprise、PivotalR的Big Data R發行版、SAP的R for HANA等,下面做簡要分析:
搭載了R的Azure Machine Learning。微軟在Azure ML中提供了R語言的API和模板,支持了300多個使用R語言的包,同時用戶不用從頭做起,Azure ML允許開發者使用已有的部分來組裝適合自己需求的模型。這樣做無疑降低了機器學習的使用門檻,讓各種背景的數據科學家都可以使用。
IBM InfoSphere BigInsights Big R。Big R是一組功能庫,提供了終端到終端的R與InfoSphere BigInsights集成。Big R可以被用于InfoSphere BigInsights服務器上的數據綜合分析,降低親自編寫MapReduce作業的復雜性,讓用戶回歸常見的R語法和范例。
Teradata Aster R。Teradata Aster R,通過放寬內存和處理能力限制條件,擴展開源R語言分析能力。針對R語言分析師,Aster R開發出他們熟悉的R語言和工具,并提供強大的處理能力及豐富的分析方法,其主要分為3個組件:“Aster R Library”預置100余種R語言功能;“Aster R Parallel Constructor”擁有超過5500個R語言分析工具包;“Aster SNAP Framework集成”將開源R語言引擎完全整合至Teradata Aster無縫網絡分析處理框架。
Oracle R Enterprise。Oracle R Enterprise主要提供了該公司RDBMS以及Exadata設備的in-database分析能力。
PivotalR。PivotalR是一個允許R用戶與Pivotal (Greenplum)Database以及Pivotal HD(用于大數據分析)交互的包,在類似R的界面為數據科學家提供in-database和in-Hadoop計算。HAWQ是Pivotal HD Hadoop技術的核心,通過支持R語言,提供了Dynamic Pipelining、世界級的查詢優化器、縱向擴展、SQL依從、交互式查詢、深度分析以及常用的Hadoop格式。
SAP將R與HANA集合。SAP整合了R語言和他們的內存數據庫HANA,形成一個服務于移動、分析、數據服務和云集成服務的新平臺,SAP通過Rserve(與R Server的通信器)實現了這個功能。因為使用了列存儲,HANA能夠與R效率的交換數據,SAP通過預封裝快速部署解決方案來簡化用戶的操作。
原文鏈接: Big Data needs drive R as a powerful enterprise ready language(編譯/仲浩 審校/魏偉)
上一篇 八皇后問題
下一篇 web開發易犯的低級錯誤