【編者按】在數(shù)據(jù)爆發(fā)式增長的逼迫下,當下數(shù)據(jù)分析能力已得到長足的發(fā)展,機器學習更成為數(shù)據(jù)處理中必不可缺少的一環(huán)。這里,為大家分享Robert Seaton在其個人博客上整理的100+最有趣的數(shù)據(jù)集,從柏拉圖式的愛情到政治競選再到死刑囚犯,可謂是應有盡有,旨在給大家的模型訓練的過程增加一些樂趣。
免費訂閱“CSDN云計算”微信公眾號,實時掌握第一手云中消息!
CSDN作為國內最專業(yè)的云計算服務平臺,提供云計算、大數(shù)據(jù)、虛擬化、數(shù)據(jù)中心、OpenStack、CloudStack、Hadoop、Spark、機器學習、智能算法等相關云計算觀點,云計算技術,云計算平臺,云計算實踐,云計算產業(yè)資訊等服務。
以下為譯文
在尋找數(shù)據(jù)集?這里給你準備了100多個最有趣的,從柏拉圖式的愛情到政治競選再到死刑囚犯,應有盡有。
個人對“信息時代”這個名詞非常不感冒,就好像隨便來了個人,往過一坐,然后說:“當下的信息已經非常多了,我們該如何形容?我覺得‘信息時代’這個詞不錯。”個人認為這是極度不負責的,沒有創(chuàng)意,命名者太懶了;其次,如此多的數(shù)據(jù)帶來更多的是處理上的無助和絕望,用“drinking from the firehose” 比喻起來或許更貼切一點。因此,與其叫“信息時代”,我們不妨稱之為“飽和時代”,或者是“泛濫時代”。然而,不管稱之為什么,毫無疑問的是,我們已經被數(shù)據(jù)淹沒了。這里為大家分享100+最有意思的數(shù)據(jù)集。無他,在提供數(shù)據(jù)分析材料的同時,給大家增加一點樂趣。
1. 如果你是智力競賽節(jié)目Jeopardy的參賽選手,你該如何準備?你可以下載這個數(shù)據(jù)集―― 215930個Jeopardy真題。把這個數(shù)據(jù)集放到記憶系統(tǒng)中,你就是下一個贏家。
2. 想知道被判死刑是什么樣的感受?看看這個數(shù)據(jù)集―― 德克薩斯州將1984年以來每個死刑犯的最后一句放到了網上。借助這些數(shù)據(jù),我們可以進行臨刑者的情感分析。
3. 談到監(jiān)獄,還有很多關于囚犯的信息,如“犯罪史,家庭背景和個人性格,藥物史、酗酒史、治療方案,槍支所有權和使用史、監(jiān)獄活動,項目,服務”。
4. 想讀他人的郵件么?即使你想,你也沒有那個技術,更沒有哪個膽量去。來看看安然公司的文集數(shù)據(jù)庫吧。這個數(shù)據(jù)庫包括來自 150多個使用者的100萬封郵件,大部分郵件來自Enron公司的管理層,以文件夾的形式呈現(xiàn)。
5. 想了解互聯(lián)網用戶都關心什么?這個問題不好回答,我們可以先回答一個更簡單的問題:Reddit(新聞網站)用戶都關心什么。有人將 Reddit上250萬個帖子進行了分析,公布到了GitHub上。通過這些數(shù)據(jù),我們可以了解用戶對貓的喜愛程度,一個數(shù)據(jù)是否支持r/circlejerk。
6. 談到貓,還有一個數(shù)據(jù)集上 10000張有注釋的貓圖片。當我們想訓練機器人消滅除了貓以外的所有生物時,這個數(shù)據(jù)集會非常有用。
7. 如果你對構建金融算法有興趣,或者只是對預測美國最大經濟作物的套利機會感興趣,那你應該看看 這個數(shù)據(jù)集,該數(shù)據(jù)集包含了從2010年9月2日到現(xiàn)在的所有大麻價格數(shù)據(jù)。
8. 哪些人用了哪些藥物?多長時間用一次?
9. 有關象棋比賽的記錄最早可追溯到10世紀,產生于巴格達的歷史學家和一位學者之間博弈。從那以后,記錄象棋比賽中的每一步成為一種傳統(tǒng)――尤其是對于那些有重大意義的比賽,比如兩個強勁的對手之間的勝負之戰(zhàn)。因此,今天的象棋學生們可以借助包含這些比賽記錄的豐富數(shù)據(jù)集進行象棋學習。“Million Base”或許是世界上最大的象棋比賽數(shù)據(jù)集,聲稱有220萬條比賽記錄,你可以通過 此鏈接下載該數(shù)據(jù)集。
10. 說起比賽這個主題,少不了足球,我已經找到了 關于足球比賽、足球運動員、球隊、得分等信息的數(shù)據(jù)集。如果這些還不夠,你還可以利用S occermetrics API的python包獲取更多的數(shù)據(jù)。我想只要教練們想要戰(zhàn)勝對手,這些數(shù)據(jù)遲早會發(fā)揮作用。通常我們說:極客和賭徒區(qū)別,就在于極客們通過構建分析模型獲得勝利。
11. Google已經開放了所有的Google Book字串數(shù)據(jù)(n-gram)。每個字串實際上是由n個單詞組成的短語,開放的數(shù)據(jù)集中包括了1-gram到5-gram等不同長度的字串數(shù)據(jù)。該數(shù)據(jù)集的建立是“基于1500年到2008年之間出版的520萬冊書籍”。我們可以通過這一數(shù)據(jù)集來判斷哪些短語被過度使用,哪些短語已經過時,哪些短語面臨被淘汰的危險(友情提醒:有些人甚至已經搶先注冊了clichealert.com域名)。
12. 亞馬遜有大量 開放的數(shù)據(jù)集(雖說是免費的,但免費只是針對AWS的用戶),該數(shù)據(jù)集包括了從超過280萬個網頁上抓取的數(shù)據(jù)。分析抓取的數(shù)據(jù),買下有升值空間的網址后,你可以再賣給那些需要做SEO的人,或者你也可以自己用來創(chuàng)建下一個Google。
13. 少數(shù)民族的計算機科學跳級考試成績如何? 你可以自己查一下然后告訴我。
14. 有一個百萬歌曲(Million Song)數(shù)據(jù)集,包含了一百多首不同的歌曲,包括“舞曲”。如果配備一個晚會專用的媒體播放機可能會更好,這些數(shù)據(jù)還適用于聚類算法(比如,自動類型檢測),但我不太確定能起到多大的作用。許多人試過基于這些數(shù)據(jù)構建推薦算法,包括 Kagglers和 Cornell的一個團隊。一種做法是:按照時間,比如按年分析音樂――70年代、80年代或者90年代(或者找出“模仿-領導“效應,比如一首歌因為風格獨特而流行,還會有很多模仿者)。
15. 說道音樂的數(shù)據(jù)集,last.fm有大量可用的音樂數(shù)據(jù)。last.fm從它的36萬用戶那里收集數(shù)據(jù),這些數(shù)據(jù)可能是以“用戶,藝術家,以及歌曲的播放信息”這樣的形式呈現(xiàn),這時候用聚類算法自動給音樂分類或者構建推薦系統(tǒng)會更好。
16. 我一想起極客,總會聯(lián)想到數(shù)學和計算機黑客,但是極客遠不止這么簡單。CescRosselló、Ricardo Alberich和Joe Miro描繪出了一個神奇宇宙的“社交網絡圖”,使用 Facebook的社交網絡圖,還可以做一個新的“什么是超級英雄?”測驗。
15. Yelp有免費的數(shù)據(jù)子集,包括餐館排名和評論數(shù)據(jù)。通過挖掘Twitter來獲取你需要的數(shù)據(jù),可以讓你擁有可以匹敵Yelp的競爭力。
18.如果你對數(shù)據(jù)(元數(shù)據(jù))中的數(shù)據(jù)感興趣,你或許也會對Jürgen Schw?rzler感興趣,Jürgen Schw?rzler是Google公共數(shù)據(jù)團隊中的一名統(tǒng)計學家,他整理出一個排名,記錄下 常被搜索的數(shù)據(jù)。前5位分別是學校對比、失業(yè)、人口、營業(yè)稅和工資。
19. 我的讀者中無疑有一些邪惡的天才,當然也存在一些想要拯救世界的英雄。這兩類人可能都會對超級智能機器人感興趣,但是要建造這樣的一個機器人,你必須教會它事實,然而,手動輸入1千萬條事實是一件痛苦的事情。還好, Freebase為我們減少了工作量,它為我們免費開放的數(shù)據(jù)集包含了19億條事實。
20. 你或許沒有打算建造一個超級機器人,只要比一般的數(shù)學家聰明一點就行。如果是這種情況的話,那你就需要教你的機器人許多數(shù)學知識(定義和定理),因此,你可能需要了解一下 Mizar項目,該項目為我們提供了9400條定義和49000條定理。
21. 那我們假設你建造出了這樣的機器“數(shù)學家”,它能在證明上為你提供幫助,但那又能怎樣?你還需要一個能和你在更深層次交流的人,一個能對某些抽象的主題進行概括的人。這樣,你就需要給你的機器人“喂”維基百科的數(shù)據(jù)了,所有 維基百科的數(shù)據(jù)都是免費開放的。
22. 當你對數(shù)學和維基百科都厭倦時(事實上,這些是掙不到錢的),你會決定成為一名軟件工程師。這時,你面臨讓一個對編程沒有基本概念的機器來教你編程的尷尬,在哪能找到相關的數(shù)據(jù)呢?你可以下載 730萬個StackOverflow問題(這些都是免費的),所以你可以從StackOverflow和StackExchange兩處得到信息來“喂”你的機器(另外還有來自Cross Validated的數(shù)據(jù),等等)。
23. 你想過研究一下正真的友誼嗎?(試一下吧,實現(xiàn)你成為社會科學家的愿望)。你了解正真的、柏拉圖式的愛情(像海豚之間的那種感情)嗎?即使暫時還不了解,你也完全可以做到,這要感謝謙虛的作者本人,當然還得感謝Mark Newman,他構建了一個由6 2只海豚組成的親密的社區(qū)――New Zealand,遠離偽裝和不信任。
24. 是不是左傾的博客通常會鏈接到其他左傾的博客,而不是右傾的博客?好吧,其實我也不知道,但是這聽起來還是很合理的。要特別感謝LadaAdamic的許可,你可以下 載2005年記錄下的美國政治超鏈接網絡。
25. 誰更友好一些:是爵士樂音樂家還是海豚?你會發(fā)現(xiàn)我們應該將之前提到的海豚數(shù)據(jù)集和Pablo M. Gleiser、Leon Danon的 爵士樂音樂家網絡數(shù)據(jù)集結合起來分析。
26. 那20世紀30年代的南方婦女和囚犯呢?誰更友好?兄弟會成員和HAM無線電話務員,誰又更友好呢?這些問題都可以用 網絡數(shù)據(jù)集來解決。
27. 將 海豚與Slashdotters比較,結果又會怎么樣呢?
28.Web2.0網站(比如Reddit)有時候會被用“投票環(huán)”這種方式作弊,很多人故意互相投票,而不在乎內容質量。我們經常會想在學術界會不會也出現(xiàn)這樣的情況。Stanford大學有一個在線 Arxiv’s High Energy Physics文獻引用網,你會從中發(fā)現(xiàn)類似的現(xiàn)象。
29. 我假設讀者們都非常聰明,但也許你們還想變得更加富有,這樣你就能創(chuàng)建下一個Bill and Melinda Gates基金會,然后拯救世界。那也許你應該開發(fā)一些新奇的交易算法。但是,在這種情況下,依據(jù)市場歷史數(shù)據(jù)檢驗一樣你的策略會更好,你可以通過此鏈接獲取市場數(shù)據(jù)。
30. 公開產品數(shù)據(jù)( Open Product Data)網站旨在為每個品牌提供免費的條形碼數(shù)據(jù)。經營理念是:建立一個特別的紋身店,只紋條形碼,但允許客戶選擇他們想要的產品,想想看:“你的條形碼表達的意義是什么?”“這樣的條形碼就像是一種信仰。”
31. 做中期天氣預測的European Center對收集天氣數(shù)據(jù)情有獨鐘。如果你要問這和天氣有關嗎?其實我主要想談一些我認識到的 關于天氣數(shù)據(jù)的有趣應用:金融行業(yè)。我很尊敬金融,主要是因為有些人做了一些瘋狂的事情。我聽說過中微子的應用實際上是 “因為金融”。你的算法可以解決購買印尼芝麻種子期貨問題嗎?有了天氣數(shù)據(jù),也許就可以。
32. 如果你想了解 食物的營養(yǎng)數(shù)據(jù),美國農業(yè)部可以為你提供數(shù)據(jù)。你可以開發(fā)一個判斷用戶是否類食物過敏的手機APP。然后說服學校給每個學生購買這個APP。
33. 想精通語言,字典必不可少,但談到 單詞數(shù)據(jù),沒有什么字典比WordNet更優(yōu)秀。WordNet側重于語言的結構,這點其它字典無法比擬。
34. NASA公布了 太陽系以外的行星數(shù)據(jù)集。買一個飛船,你可以飛到那里建一個秘密基地。
35. 聯(lián)邦鐵路管理局有“ 關于鐵路事故和意外的安全信息,庫存和穿過的高速公路數(shù)據(jù)”。一些組織(如紐約時報)可以通過這些數(shù)據(jù)判斷貧窮地區(qū)的人們是否更容易發(fā)生火車事故等。
36. 如果你需要關于 圖書的數(shù)據(jù),你可以到Open Library下載免費的數(shù)據(jù)集。
37. 美國的無人機殺害了誰?如果你 對巴基斯坦地區(qū)感興趣,你可以查看這個數(shù)據(jù)集。
38. 如果你想通過自動導入引用數(shù)據(jù)構建Papers2的競爭對手,你可以使 用CrossRef的元數(shù)據(jù)查詢。
39. Mnemosyne是一個虛擬卡片應用,通過間隔重復輔助記憶。幾年來,這個項目一直在搜索用戶數(shù)據(jù),現(xiàn)在 gwern公司同意將這些數(shù)據(jù)免費公開若干月。研究者們可以在這些數(shù)據(jù)上運行機器學習算法,了解更多關于人類記憶的信息。
40. 婚禮上邀請賈斯丁?比伯要花多少錢? Priceconomics網站列舉了雇傭各種明星的價格。你可以借助這些數(shù)據(jù)計算流行度和價格的比率。
41. 有些數(shù)據(jù)集可以更好的預測股市。2011年, 研究員發(fā)現(xiàn)他們可以通過分析推特數(shù)據(jù)預測股市:他們分析與上市 公司相關的推文,然后計算一個“情緒得分”,通過這個得分預測股市。
42. 2014年,Clifford Winston和Fred Mannering指出,美國在車輛交通上每年花費千億。我們可以通過數(shù)據(jù)集提高交通效率。例如,我們可以通過對歷史交通數(shù)據(jù)進行算法分析,預測交通擁擠時段、路段。 data.gov網站提供了相關數(shù)據(jù)。
43. 如果你想開發(fā)一個跟蹤實時路況的app,你需要 不同的數(shù)據(jù)源。
44. 如果你想開發(fā)反垃圾軟件服務,或者只是分析通常垃圾郵件的內容,你需要數(shù)據(jù)。 UCIrvine提供這些數(shù)據(jù)。
45. 如果你想做反垃圾短信服務,你依舊可以找到 相關數(shù)據(jù)。
46. 有大量的數(shù)據(jù)可被R操作,你所需的只是安裝一個包。 Ecdat是其中的一個包,包括大量的計算數(shù)據(jù)。我還見到過對數(shù)學水平和抽煙量關系的分析。
47. 有沒有想過一個人會參加多個公司的董事會,比如:Condoleezza Rice(美國前國務卿賴斯)加上和她密切相關的政府監(jiān)控,或許這對于Dropbox來說不能算是最好的選擇。好吧,有了
這個數(shù)據(jù)集,你也可以做到,但這只針對挪威――因為該數(shù)據(jù)集是由挪威的上市公司組成的網絡數(shù)據(jù)。
48. 有沒有看過:地方政府會根據(jù)一個人的社會關系來判斷某人是不是恐怖分子?實際上, 你也可以得到這些數(shù)據(jù),分析出恐怖分子的社交網絡。
49. 圍繞維基百科的官僚機構一直存在很大的爭論。如何才能成為一個真正的維基百科大人物?誰才是維基百科最理想的管理者?當然,可以通過投票, 數(shù)據(jù)可以免費下載。
50. 哈佛大學開放了哈佛大學圖書館持有的“ 超過1200萬的材料數(shù)據(jù)記錄”數(shù)據(jù)集,包括了書籍、期刊、電子資源、手稿、檔案材料、音頻、視頻等各種形式的資料。
51. 如果你需要為學生提供一個小型數(shù)據(jù)集,可以看一下 DASL。比如解決這樣一個問題: 由不孕雄性野馬主導野馬群體會不會降低野馬群體的規(guī)模?
52. GET-Evidence已經提供了可下載的 公共基因組。我懷疑Steven Pinker的個人數(shù)據(jù)也在其中,或許你也可以克隆一個自己。
53. 說到基因組,已經有1000個基因組項目提供了大約260TB可供下載的數(shù)據(jù)。
54. 在列出的這些數(shù)據(jù)集中要說什么是最小數(shù)據(jù)集, 或許就是泰坦尼克號上男性和女性的幸存率,女乘客幸存率是男乘客的四倍。
55. 你想過對食物進行具體細分嗎?如果是,那就恭喜你了,你可以在此處下載 相關數(shù)據(jù)集(感謝加拿大)。
57. 有一個與前者類似的數(shù)據(jù)庫,不過記錄是
人體內代謝物的相關數(shù)據(jù)。我不確定你可以用這些數(shù)據(jù)做什么,但也許有人可以用這個來進行病毒式營銷――xxx營養(yǎng)之道。
58. 參考能量解集數(shù)據(jù)集包括大概 500G關于家庭能量使用的數(shù)據(jù)。我們可以利用這些數(shù)據(jù)提高家庭能量效率,或者對家庭能量費用消耗進行可視化展示。
59. 開發(fā)了一個新的圖像壓縮算法,需要數(shù)據(jù)進行測試?試試 CSAIL的小圖像數(shù)據(jù)集。
60. 如果覺得這些圖像太小了,試試 ImageNet數(shù)據(jù)集。如果你想訓練一個算法識別獨角鯨,可以先用這些數(shù)據(jù)訓練。
61. 還不夠?試試 維基百科所有的圖片。
62. 假設你在 構建下一代圖書閱讀器,你希望段落可以自動與相應的維基百科文章相關聯(lián)。怎么做?斯坦福大學和谷歌研究中心已經搭建了 英文段落映射維基文章的數(shù)據(jù)庫,你可以下載他們的 論文。
63. 俄羅斯搜索引擎Yandex提供了一系列 搜索數(shù)據(jù)。也就是,如果一個人搜索了關鍵詞,他們會點擊哪些內容?不過,提供的都是俄羅斯人的搜索結果。
64. 人們通常在維基百科上做哪些編輯修訂? 也有數(shù)據(jù)庫是關于這一內容的。
65. 谷歌有一個 面向數(shù)據(jù)集的搜索引擎,你造么?
66. Pew研究機構有很多免費的數(shù)據(jù)集,其中包括他們的 “全球態(tài)度項目”數(shù)據(jù)集。通過這個數(shù)據(jù)集我們可以了解:世界是否變得越來越進步?隨著時間的推移,人們對宗教的態(tài)度是如何變化的?
67. 談到公眾態(tài)度隨時間的變化,你可以下載從 1972年到2012年的綜合社會調查數(shù)據(jù)集,這個數(shù)據(jù)集也可以回答這兩個問題。
68. 有一個有趣的數(shù)學問題叫名人問題,你需要找出一個每個人都認識,但是不認識任何人的人。但生活中真的有名人問題么?試試 雅虎的明星臉集。
69. 需要2009年以來的十億個網頁?需要訓練一個從不停止的語言學習者NELL? 是的,你可以做到。
70. 你知不知道你可以 下載Arxiv上所有的PDF?一旦我們可以教會機器自然語言,我們就可以讓計算機閱讀所有文檔為我們提取重點。
71. 如果你需要任何 產業(yè)的經濟狀況數(shù)據(jù),試試census.gov的行業(yè)統(tǒng)計信息。如果經濟狀況不好,你會在數(shù)據(jù)中找到證據(jù)。
72. 你可以下載大量 Usenet帖子的數(shù)據(jù)。這些數(shù)據(jù)對某些文本分析項目或機器學習算法(如拼寫檢查)很有用。
73. Nick Bostrom有一篇很有意思的文章 “預防人類滅絕是頭等大事”。該文章提出,考慮到人類滅絕的危害,再小的滅絕危險都是需要警惕的。通過分析從 公元前2500年到2012年流星撞擊地球記錄,我們可以更好的應對這個問題。
74. 性別和精神疾病對犯罪影響有多大? 有數(shù)據(jù)集是針對這個問題的。
75. 談到精神疾病,如果你想了解精神疾病是如何影響少數(shù)民族的, 試試這個數(shù)據(jù)庫。
76. 現(xiàn)在有很多孤男寡女,其中不乏一些具備卓越分析的人。
試試這個數(shù)據(jù)集“對比傳統(tǒng)夫婦和不傳統(tǒng)夫婦,美國人是如何遇到他們另一半的”,尋找遇到另一半的最好辦法。
77. 你可以通過此鏈接下載大量所謂的 “青少年健康”的數(shù)據(jù),而且還包括了大量關系數(shù)據(jù)和生物指標數(shù)據(jù)。
78. 我有一個問題:現(xiàn)代工作與過去工作相比,哪個更糟糕? 有五組調查調查了關于不同職業(yè)群體對該問題的回答,我已經看到了這樣一篇文章――“我們可以告訴你:昨天是不是比今天更好?”
79. 斯坦福大學有 3500萬條亞馬遜商品評價可供下載。你可以用這個做很多事情:使用它來改善推薦系統(tǒng)的算法,找出評論中是否存在“模仿-領袖”效應(比如:早期的積極評價能否帶來更多的積極評價?)
80. 基于我過去的一些研究,搜索關鍵字 “關于連環(huán)殺手的數(shù)據(jù)集”時發(fā)現(xiàn)兩個特點:1)很具體;2)很流行,但我希望這和人的品味沒有太大關系。當然,我找到了相關的數(shù)據(jù)集,在此特別感謝連環(huán)殺手信息中心。
81. 這確實是一個讓人有些毛骨悚然的名字,Maryland大學還有個“全球恐怖主義數(shù)據(jù)庫”,這是一組由 11.3萬個恐怖事件組成的數(shù)據(jù)集。你可以在填完表后下載它。可視化這些數(shù)據(jù),對一些易受影響的地區(qū)進行預測,可以防止恐怖襲擊,建立提前預警系統(tǒng)。
82. MNIST數(shù)據(jù)庫是機器學習領域的一個經典。它是由一組帶標簽的手寫字符組成,這對OCR算法來說是必不可少的。如今,一些算法的判斷能力甚至比人類法官還要準確!在將來,我們會要求讓機器來做判決。
83. UCI為我們提供了 撲克牌數(shù)據(jù)集。我不擅長玩撲克,但我敢肯定關于撲克一定會有一些有趣的分析可做。我聽說在撲克界人類仍然比機器更有優(yōu)勢,但我覺得這種說法不太可靠。
84. UCI的另一個數(shù)據(jù)集:其中,圖像被簡單的分為廣告和非廣告兩種。基于該數(shù)據(jù)集可以自動攔截廣告或進行垃圾郵件的檢測,也許還能應用到Google Glass中,過濾掉現(xiàn)實生活中的廣告,那一定是一件很酷的事情。我們看到的將不再是一個廣告牌,而是自然景觀的虛擬擴展。
85. 還記得Star Wars Kid崩潰事件嗎?Attack of the Show將它評為了史上第一病毒視屏。Andy Baio策劃了這一事件,還杜撰了“Star Wars Kid”這一詞,并將他的 服務器日志公開發(fā)表。
86. 怎樣知道在Wordpress上誰鏈接到了誰(或者是某物)?可視化網絡是件很了不起的事情,但如果它能揭示一些關于“超節(jié)點”的信息,或許會更好,“超節(jié)點”是指被許多節(jié)點連接或者連接到許多節(jié)點的節(jié)點(也許兩者都有)。如果你有興趣, 也可以利用這些數(shù)據(jù)將不同的人歸類。
87. Obama是更喜歡石油大亨?還是極端環(huán)保主義者?或是玉米游說團體?是誰在背后支持Herman Cain?我們已經可以下載到 2012總統(tǒng)競選的財務數(shù)據(jù),用來分析哪些行業(yè)偏向于哪位候選人想必是也極好的。
88. 哪所私立大學最有價值?
89. 哪所公立大學最有價值?
90. 按州統(tǒng)計的香煙數(shù)據(jù)。肯塔基州抽的最多,西弗吉尼亞州第二。 鑒于煙草的巨大社會危害,一個不錯的分析也許可以挽救很多人的生命。
91. 在2008年12月5日,從Pirate Bay可以下載到什么?
92. 想要構建一個Reddit推薦引擎嗎?(或換個說法會更好――你覺得把那些愚蠢卻流行的意見過濾掉怎么樣?)不錯,用Redditor完全可以做到這一點,Redditor會是個不錯的推薦引擎。
93. 全球健康數(shù)據(jù)。用這些數(shù)據(jù)來確定改善世界健康的方法會很有效,像血吸蟲病控制倡議一樣,這一項目被GiveWell列為評價最高的慈善機構之一。
94. 美國從1960年到2012年的犯罪事件。談論犯罪雖然在道德上令人反感,但在電視上節(jié)目開個玩笑還是無傷大雅的。
95. 發(fā)起一項為浴室中的Yelp運動怎么樣?
96. 你知道在加拿大,雜貨店的暢銷品是卡夫晚餐(aka通心粉和奶酪)嗎?我想知道它在比利時或者臺灣銷售的怎么樣,這里為我們提供了 部分超市的數(shù)據(jù)。
97. 火狐瀏覽器使用情況的數(shù)據(jù)。記錄比如選項卡的使用數(shù)量,活躍狀態(tài)的時間,隱私標簽打開的數(shù)目。雖然隱私標簽這一詞或許會讓一些人浮想聯(lián)翩,但用來比較互聯(lián)網與實際數(shù)據(jù)之間準確度還是很不錯的。
98. 非常強大的一個數(shù)據(jù):Mozilla將Mozilla和Eclipse中發(fā)現(xiàn)的 超過20萬個bug放到一個數(shù)據(jù)集中。我很想看看哪些bug導致的奔潰最常見,以及如何預防這些奔潰,當然也只有參考這些數(shù)據(jù),才能設計出更好的編程語言。
99. 如果你對設計調度算法感興趣的話,你會對這一消息感興趣: Google開放了他們在集群上作業(yè)排序的數(shù)據(jù)集。開發(fā)針對數(shù)據(jù)集的算法可能會幫助未來驗證你的發(fā)現(xiàn)。畢竟,明天的桌面系統(tǒng)很可能會像今天數(shù)據(jù)中心一樣強大。
100. Techcrunch開放了一個具有超過400 000家公司、投資者和企業(yè)家的檔案的數(shù)據(jù)集,此外還有45,000輪投資記錄,這或許是一個逆向發(fā)現(xiàn)市場需求和投資者的投資傾向的好方法。
101. 125萬個delicious.com書簽。
102. 美國主要的軍事設施分布在哪?
103. 誰是H1-B信用卡的接受者?你可能想知道一些國家是否接受信用卡,或者哪些公司接受大部分的信用卡消費。
104. Twitter用戶很有可能被Hacker News的讀者跟蹤。
105. 這里有 1000年到1903年之間的所有地震數(shù)據(jù)。將這些數(shù)據(jù)“喂”給一個神經網絡,也許能看到一些關于地震的預測。
106. 我常常想會不會有人做在線人格測試發(fā)現(xiàn)比大多數(shù)人更神經質?從很多在線性格測試項目中可以得到 大量可用的數(shù)據(jù),將性格測試的答案與大眾的答案進行比較,就可以找出那些比較神經質的人。
107.
臟話表
原文連接: 100+ Interesting Data Sets for Statistics(翻譯/蔡仁君、毛夢琪 責編/仲浩)