您當前位置：首頁 > 互聯網 > 1億的圖片+視頻，雅虎發布超大Flickr數據集

1億的圖片+視頻，雅虎發布超大Flickr數據集

來源：程序員人生發布時間：2014-09-16 17:35:08 閱讀次數：3205次

【編者按】為了滿足廣大研究人員的實驗需求，雅虎發布了一個巨型的Flick數據集，為圖像、視頻的處理和分析提供了可觀的資源。同時，該公司還準備在今年夏末于AWS上建立分析工具。

免費訂閱“CSDN云計算”微信公眾號，實時掌握第一手云中消息！

CSDN作為國內最專業的云計算服務平臺，提供云計算、大數據、虛擬化、數據中心、OpenStack、CloudStack、Hadoop、Spark、機器學習、智能算法等相關云計算觀點，云計算技術，云計算平臺，云計算實踐，云計算產業資訊等服務。

以下為譯文：

雅虎已經發布了一個巨大的數據集為研究人員進行實驗。這個數據集由1億圖片和70萬視頻的URL組成，同時也包含了它們的元數據。在不久的將來，一個更大的包含音頻和視頻的由超級計算機處理的數據集將能被使用。

Yahoo Flickr Creative Commons當下已有1億內容，其中包含了9930圖片和70萬視頻的URL以及與之相關的元數據（標題、攝像機類型、描述、標簽）。雅虎表示，大約4900萬的圖片都是地理標記的，各種評論、喜好和社交數據都可以借助Flickr API實現可用。

毫無疑問，對于那些分析圖像為了學習新東西或是嘗試一些新計算機視覺算法的人來說，這是一個相當可觀的資源。新的人工智能算法和技術已經興起多年，其中大部分算法和技術的靈感來源于訪問大量在線圖像和視頻等方式。然而，一般情況下，對于那些不容易獲得內容的研究人員或是公司而言（也就是說，除了谷歌、Facebook、微軟和雅虎的其他人），他們不得不通過人工拼湊或其他的方式搜集數據。

據說，尤其是谷歌和雅虎，在各種大數據集貢獻上已經頗有建樹，尤其是對訓練自然語言處理模型非常有用的文本數據。

僅僅為了測試新圖像數據集中的一個可能功能，雅虎正在籌備一個比賽，這個比賽能構建無需地理定位就能很容易識別照片和視頻拍攝地點的系統。其中，比賽的訓練集包括500萬的照片和2.5萬的視頻。

雅虎還與國際計算機科學研究所和Lawrence Livermore國家實驗室合作，共同處理一個專用超級計算機（Cray Catalyst，針對數據密集型計算設計）中的數據，并從中提取不同音頻及視頻特征。雅虎聲稱的超過50TB的數據集（原始的100萬URL圖片的數據大約只有12GB）和分析該數據集的工具將會于今年夏季末在亞馬遜網絡服務器上投入使用。

原文鏈接：Yahoo releases massive Flickr dataset, and a supercomputer steps up to analyze it（編譯/史臣敏責編/仲浩）

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 埃森哲：智能電視潮流，勢不可擋

下一篇 Kingdom Rush創始人專訪：游戲與電影元素混搭

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

1億的圖片+視頻，雅虎發布超大Flickr數據集