【編者按】為了滿足廣大研究人員的實驗需求,雅虎發布了一個巨型的Flick數據集,為圖像、視頻的處理和分析提供了可觀的資源。同時,該公司還準備在今年夏末于AWS上建立分析工具。
免費訂閱“CSDN云計算”微信公眾號,實時掌握第一手云中消息!
CSDN作為國內最專業的云計算服務平臺,提供云計算、大數據、虛擬化、數據中心、OpenStack、CloudStack、Hadoop、Spark、機器學習、智能算法等相關云計算觀點,云計算技術,云計算平臺,云計算實踐,云計算產業資訊等服務。
雅虎已經發布了一個巨大的數據集為研究人員進行實驗。這個數據集由1億圖片和70萬視頻的URL組成,同時也包含了它們的元數據。在不久的將來,一個更大的包含音頻和視頻的由超級計算機處理的數據集將能被使用。
Yahoo Flickr Creative Commons當下已有1億內容,其中包含了9930圖片和70萬視頻的URL以及與之相關的元數據(標題、攝像機類型、描述、標簽)。雅虎表示,大約4900萬的圖片都是地理標記的,各種評論、喜好和社交數據都可以借助Flickr API實現可用。
毫無疑問,對于那些分析圖像為了學習新東西或是嘗試一些新計算機視覺算法的人來說,這是一個相當可觀的資源。新的人工智能算法和技術已經興起多年,其中大部分算法和技術的靈感來源于訪問大量在線圖像和視頻等方式。然而,一般情況下,對于那些不容易獲得內容的研究人員或是公司而言(也就是說,除了谷歌、Facebook、微軟和雅虎的其他人),他們不得不通過人工拼湊或其他的方式搜集數據。
據說,尤其是谷歌和雅虎,在各種大數據集貢獻上已經頗有建樹,尤其是對訓練自然語言處理模型非常有用的文本數據。
僅僅為了測試新圖像數據集中的一個可能功能,雅虎正在籌備一個比賽,這個比賽能構建無需地理定位就能很容易識別照片和視頻拍攝地點的系統。其中,比賽的訓練集包括500萬的照片和2.5萬的視頻。
雅虎還與國際計算機科學研究所和Lawrence Livermore國家實驗室合作,共同處理一個專用超級計算機(Cray Catalyst,針對數據密集型計算設計)中的數據,并從中提取不同音頻及視頻特征。雅虎聲稱的超過50TB的數據集(原始的100萬URL圖片的數據大約只有12GB)和分析該數據集的工具將會于今年夏季末在亞馬遜網絡服務器上投入使用。
原文鏈接:Yahoo releases massive Flickr dataset, and a supercomputer steps up to analyze it(編譯/史臣敏 責編/仲浩)