圖數據處理過去一直是數據科學家的專利,隨著數據應用得越來越廣泛,圖數據分析成為數據分析領域必不可少的部分,人們越來越需要易于上手、使用簡單的圖數據分析工具。GraphLab是個很受大家歡迎的開源項目,GraphLab開發者們不斷追求圖計算的創新和發展,使其能迎合海量數據處理的要求。SFrame的亮相顯得低調而神秘,不過其功能不可小覷,它將GraphLab擴展到了表格,使其可以輕松管理TB級數據。
社交媒體的圖數據已經引起了許多公司注意,在生命健康科學、安全、金融服務等很多領域也存在類似的數據集。圖數據的特征使其需要特殊工具和技術,這些工具對于一般用戶來說太復雜了,在過去使用這些工具一直是數據科學家的專利。幸運的是圖數據分析這個領域吸引了很多熱心的企業家和開發人員。這些工具已經得到很大的改進,而且變得越來越簡單。
我們身邊有很多機器學習應用于圖數據分析的示例,比如:發現有影響力的用戶(PageRank)和社區、欺詐檢測和推薦系統(GraphLab用戶中比較流行的協同過濾)。一個領域的工具開發出來后常常會被應用到其他領域,除了GraphLab,分布式分析還被應用到Giraph、GraphX、Faunus和Grappa,此外像Neo4j和Yarcdata這樣的圖數據庫也帶有一些分析功能。
近日一家新公司的成立大大推動了開源項目GraphLab的發展,該公司由GraphLab的開發者組成,籌集資金為圖數據集開發分析工具。GraphLab公司也將繼續使用開源GraphLab“突破圖計算的極限,努力創新”。
GraphLab的SFrame是一種趣味十足而低調神秘的工具,首次在 Strata Santa Clara被揭開面紗。它基于磁盤,并通過二維表形式將GraphLab擴展到了表格數據。通過添加SFrame,用戶可以利用GraphLab中許多處理圖或表中數據的算法。更重要的是SFrame增加了GraphLab數據科學工作流的覆蓋范圍:它允許用戶直接使用GraphLab對TB大小的數據集進行數據清潔或者創建新的功能,SFrame性能可以通過增加內核實現線性擴展。
據有關人士透露GraphLab正在努力將它們的引擎與YARN集成到一起,不過SFrame測試版已經可以從HDFS中讀取數據,還可以從本地磁盤、HDFS、S3或URL中讀取數據,并保存成人類可讀的.csv或更有效的本機格式。一旦SFrame被創建并保存到磁盤后,就不需要再重復處理數據了。下面用Python代碼演示如何讀取一個.csv文件到SFrame,以及創建一個新的數據功能并把它保存在S3磁盤上:
來源:GraphLab公司
GraphLab Create是為那些想要開發推薦系統之類數據產品的軟件工程師和數據科學家設計的,即使那些對機器學習比較陌生的人也能很快上手,還可以幫助經驗豐富的開發者節省大量時間。
通過GraphLab Create可以開發數據產品或者用機器學習和圖分析方法進行數據分析,可以連接到你的數據,通過迭代層次模型實現數據轉換,并輕松地分析模型和系統性能,還可以在你的機器上運行應用或在AWS中運行實例。
而SFrame就是GraphLab Create的一部分,三月份將發布Python包,以簡化可擴展分析產品的創建(例如推薦系統和圖型分析系統)。利用GraphLab Create,用戶將能夠從Python或Ipython內部生成和維護分析管道,并將它們部署在單個服務器上或整個群集(包括本地和云)。
過去GraphLab被認為可擴展、速度快,但是使用困難而且應用范圍有限。但過去的幾個月里,GraphLab公司已解決兩個首要問題,由此開發的工具應該可以大大增加GraphLab對于數據科學家的吸引力。與IPython的集成為PyData社區開啟了一個GraphLab快速、可擴展分析模塊時代(通過Python的六個線程生成端到端推薦)。SFrame和GraphLab Create擴展了數據科學工作流,使其包括數據轉換(data wrangling)和數據吸收(data ingestion)。
在利用圖工具分析之前,需要將數據轉化成圖。GraphBuilder是英特爾的一個開源項目,它使用Hadoop MapReduce從大型數據集中生成圖。另一個選擇是GraphX與Spark的結合產物,是由一個叫做Trifacta的新公司開發的多用途數據辨析工具。
由于SFrames類似于Pandas(PyData)和R數據架構,數據科學家可以非常方便快速地使用它們,提高工作效率。要問SFrames為什么能吸引Strata與會者,我覺得是因為它能夠擴展到更大的數據集: SFrame允許用戶處理大型表格式數據集而不局限于內存大小。
相關鏈接:
Easily Manipulate Terabyte-Sized Datasets With GraphLab
Improving options for unlocking your graph data(編譯/毛夢琪 審校/魏偉)