多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > 互聯網 > 輕松搞定TB級數據,開源GraphLab突破人類圖計算“極限值”

輕松搞定TB級數據,開源GraphLab突破人類圖計算“極限值”

來源:程序員人生   發布時間:2014-09-06 19:22:19 閱讀次數:3499次

圖數據處理過去一直是數據科學家的專利,隨著數據應用得越來越廣泛,圖數據分析成為數據分析領域必不可少的部分,人們越來越需要易于上手、使用簡單的圖數據分析工具。GraphLab是個很受大家歡迎的開源項目,GraphLab開發者們不斷追求圖計算的創新和發展,使其能迎合海量數據處理的要求。SFrame的亮相顯得低調而神秘,不過其功能不可小覷,它將GraphLab擴展到了表格,使其可以輕松管理TB級數據。

社交媒體的圖數據已經引起了許多公司注意,在生命健康科學、安全、金融服務等很多領域也存在類似的數據集。圖數據的特征使其需要特殊工具和技術,這些工具對于一般用戶來說太復雜了,在過去使用這些工具一直是數據科學家的專利。幸運的是圖數據分析這個領域吸引了很多熱心的企業家和開發人員。這些工具已經得到很大的改進,而且變得越來越簡單。

我們身邊有很多機器學習應用于圖數據分析的示例,比如:發現有影響力的用戶(PageRank)和社區、欺詐檢測和推薦系統(GraphLab用戶中比較流行的協同過濾)。一個領域的工具開發出來后常常會被應用到其他領域,除了GraphLab,分布式分析還被應用到Giraph、GraphX、Faunus和Grappa,此外像Neo4j和Yarcdata這樣的圖數據庫也帶有一些分析功能。

近日一家新公司的成立大大推動了開源項目GraphLab的發展,該公司由GraphLab的開發者組成,籌集資金為圖數據集開發分析工具。GraphLab公司也將繼續使用開源GraphLab“突破圖計算的極限,努力創新”。

GraphLab的SFrame是一種趣味十足而低調神秘的工具,首次在 Strata Santa Clara被揭開面紗。它基于磁盤,并通過二維表形式將GraphLab擴展到了表格數據。通過添加SFrame,用戶可以利用GraphLab中許多處理圖或表中數據的算法。更重要的是SFrame增加了GraphLab數據科學工作流的覆蓋范圍:它允許用戶直接使用GraphLab對TB大小的數據集進行數據清潔或者創建新的功能,SFrame性能可以通過增加內核實現線性擴展。

據有關人士透露GraphLab正在努力將它們的引擎與YARN集成到一起,不過SFrame測試版已經可以從HDFS中讀取數據,還可以從本地磁盤、HDFS、S3或URL中讀取數據,并保存成人類可讀的.csv或更有效的本機格式。一旦SFrame被創建并保存到磁盤后,就不需要再重復處理數據了。下面用Python代碼演示如何讀取一個.csv文件到SFrame,以及創建一個新的數據功能并把它保存在S3磁盤上:

來源:GraphLab公司

GraphLab Create是為那些想要開發推薦系統之類數據產品的軟件工程師和數據科學家設計的,即使那些對機器學習比較陌生的人也能很快上手,還可以幫助經驗豐富的開發者節省大量時間。

通過GraphLab Create可以開發數據產品或者用機器學習和圖分析方法進行數據分析,可以連接到你的數據,通過迭代層次模型實現數據轉換,并輕松地分析模型和系統性能,還可以在你的機器上運行應用或在AWS中運行實例。

而SFrame就是GraphLab Create的一部分,三月份將發布Python包,以簡化可擴展分析產品的創建(例如推薦系統和圖型分析系統)。利用GraphLab Create,用戶將能夠從Python或Ipython內部生成和維護分析管道,并將它們部署在單個服務器上或整個群集(包括本地和云)。

過去GraphLab被認為可擴展、速度快,但是使用困難而且應用范圍有限。但過去的幾個月里,GraphLab公司已解決兩個首要問題,由此開發的工具應該可以大大增加GraphLab對于數據科學家的吸引力。與IPython的集成為PyData社區開啟了一個GraphLab快速、可擴展分析模塊時代(通過Python的六個線程生成端到端推薦)。SFrame和GraphLab Create擴展了數據科學工作流,使其包括數據轉換(data wrangling)和數據吸收(data ingestion)。

在利用圖工具分析之前,需要將數據轉化成圖。GraphBuilder是英特爾的一個開源項目,它使用Hadoop MapReduce從大型數據集中生成圖。另一個選擇是GraphX與Spark的結合產物,是由一個叫做Trifacta的新公司開發的多用途數據辨析工具。

由于SFrames類似于Pandas(PyData)和R數據架構,數據科學家可以非常方便快速地使用它們,提高工作效率。要問SFrames為什么能吸引Strata與會者,我覺得是因為它能夠擴展到更大的數據集: SFrame允許用戶處理大型表格式數據集而不局限于內存大小。

相關鏈接:

Easily Manipulate Terabyte-Sized Datasets With GraphLab

Improving options for unlocking your graph data(編譯/毛夢琪 審校/魏偉)


CSDN推薦:歡迎免費訂閱《Hadoop與大數據周刊》獲取更多Hadoop技術文獻、大數據技術分析、企業實戰經驗,生態圈發展趨勢。

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 在线免费日本 | 羞羞动漫在线观看 | 91视频一区二区 | 亚洲最新在线观看 | 交专区videossex| 成人精品免费视频 | 精品一区二区三区免费 | 亚洲春色另类 | 亚洲欧美日韩国产综合高清 | 精品国产一区二区三区久久影院 | 欧美一区二区三区在线视频 | 欧美专区在线视频 | 欧美色欧美色 | 色久综合大榴莲 | 欧洲一级毛片免费 | 国产精品视频分类 | 免费在线观看的视频 | 手机在线完整视频免费观看 | 欧美一区二区三区久久久 | 国产精品福利自产拍网站 | 亚洲图片 自拍偷拍 | 久久永久免费视频 | 毛片一级在线观看 | 男人天堂网2021 | 国产成人精品午夜在线播放 | 欧美成人精品高清在线播放 | 日韩精品手机在线 | 99久久精品免费国产一区二区三区 | 亚洲精品国产精品国自产 | 国产一区二区在线不卡 | 99久久精品一区二区三区 | 啪一啪在线视频 | 久久国产经典视频 | 日本亚洲黄色 | 999毛片免费 | 91精品国产色综合久久不 | 日本最新伦中文字幕 | 在线免费观看一级毛片 | 多人伦精品一区二区三区视频 | 国产精品国产三级国产 | 91久久国产综合精品 |