現(xiàn)在隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)無時(shí)不刻不在產(chǎn)生。包括個(gè)人用戶的手機(jī)、可穿戴設(shè)備等;也包括行業(yè)應(yīng)用的傳感器、監(jiān)控?cái)z像頭等信息。數(shù)字化將物理世界的模擬信息轉(zhuǎn)化為數(shù)字信息,數(shù)字世界與現(xiàn)實(shí)世界的融合過程中產(chǎn)生和積累了大量的數(shù)據(jù)。全球所有信息數(shù)據(jù)中90%產(chǎn)生于過去兩年。2013年每天全球產(chǎn)生25PB數(shù)據(jù),相當(dāng)于1500個(gè)國(guó)家圖書館信息量的總和。全球的數(shù)據(jù)總量從2003年的5EB,快速增長(zhǎng)到2012年2.7ZB,并將于2020年達(dá)到40ZB。這些數(shù)據(jù)往往被人們比作海上漂浮著的冰山,因其巨大的價(jià)值隱藏在水面以下。
免費(fèi)訂閱“CSDN云計(jì)算”微信公眾號(hào),實(shí)時(shí)掌握第一手云中消息!
CSDN作為國(guó)內(nèi)最專業(yè)的云計(jì)算服務(wù)平臺(tái),提供云計(jì)算、大數(shù)據(jù)、虛擬化、數(shù)據(jù)中心、OpenStack、CloudStack、Hadoop、Spark、機(jī)器學(xué)習(xí)、智能算法等相關(guān)云計(jì)算觀點(diǎn),云計(jì)算技術(shù),云計(jì)算平臺(tái),云計(jì)算實(shí)踐,云計(jì)算產(chǎn)業(yè)資訊等服務(wù)。
如陳尚義在大會(huì)上所講,任何數(shù)據(jù)的產(chǎn)生都有其最初的目的,這就是它們的第一價(jià)值,當(dāng)這些數(shù)據(jù)迅速積累起來,它們將能產(chǎn)生第二、第三價(jià)值。這背后就需要有效的技術(shù)來發(fā)現(xiàn)、挖掘。比如網(wǎng)上相冊(cè),其第一價(jià)值在于為網(wǎng)民提供存儲(chǔ)服務(wù)。照片多起來后,我們就可以從中發(fā)現(xiàn)當(dāng)時(shí)的流行色,甚至可以預(yù)測(cè)以后的流行趨勢(shì)。再例如,可穿戴設(shè)備可以24小時(shí)監(jiān)控我們的身體,它的第一價(jià)值是記錄自己的身體狀況,用句時(shí)髦的話說,就是“量化自我”。但如果能將一段較長(zhǎng)時(shí)間的數(shù)據(jù)綜合分析,我們可能發(fā)現(xiàn)健康的情況,并為我們提供預(yù)警。
大數(shù)據(jù)的兩個(gè)重要特點(diǎn):數(shù)據(jù)量大,增速快。根據(jù)麥肯錫的報(bào)告,到2020年醫(yī)療數(shù)據(jù)將急劇增長(zhǎng)到35ZB,相當(dāng)于2009年數(shù)據(jù)量的99倍。根據(jù)交通部的數(shù)據(jù),某省高速公路視頻監(jiān)控?cái)?shù)據(jù)每天50T。這些數(shù)據(jù)的產(chǎn)生也有其第一價(jià)值。如醫(yī)療數(shù)據(jù)是為了患者就診,視頻監(jiān)控?cái)?shù)據(jù)是為了事后的追溯。當(dāng)他們的第一價(jià)值被利用之后,這些數(shù)據(jù)一般就被束之高閣。逐漸,這些數(shù)據(jù)成為了行業(yè)的負(fù)擔(dān)。但事實(shí)上,這些數(shù)據(jù)仍然有寶貴的價(jià)值。如何發(fā)現(xiàn)這數(shù)據(jù)隱藏的價(jià)值,成為了行業(yè)的難題之一。
在面對(duì)自己的數(shù)據(jù)冰山中的價(jià)值,各行業(yè)對(duì)數(shù)據(jù)價(jià)值的挖掘做出了一些實(shí)際行動(dòng)。陳尚義在演講中總結(jié)出企業(yè)實(shí)踐中存在的一些誤區(qū)。許多傳統(tǒng)行業(yè)仍然局限在小數(shù)據(jù)的開發(fā)和利用,將小數(shù)據(jù)當(dāng)成大數(shù)據(jù),未涉及全面、完整和系統(tǒng)的大數(shù)據(jù)本質(zhì)。將傳統(tǒng)的數(shù)據(jù)處理手段和技術(shù)當(dāng)成大數(shù)據(jù)技術(shù),未有大數(shù)據(jù)時(shí)代帶來的新特征。這時(shí)候,傳統(tǒng)行業(yè)需要看清大數(shù)據(jù)的特點(diǎn),開發(fā)新的工具和新的平臺(tái),滿足數(shù)據(jù)規(guī)模大、結(jié)構(gòu)復(fù)雜和高速膨脹的需求。所以,傳統(tǒng)行業(yè)亟需大數(shù)據(jù)技術(shù)和能力挖掘行業(yè)數(shù)據(jù)的新價(jià)值。
百度是如何挖掘其數(shù)據(jù)冰山下的價(jià)值金礦呢?陳尚義舉了幾個(gè)很有趣的例子。作為搜索引擎起家的百度,將人與信息連接起來,天然就是一個(gè)大數(shù)據(jù)公司。首先作為搜索引擎,百度需要收集互聯(lián)網(wǎng)上的數(shù)據(jù)。為了方便人們檢索信息而被存儲(chǔ)下來的大量文本、圖片、影音等不同結(jié)構(gòu)的數(shù)據(jù)。像以前我們搜索某個(gè)關(guān)鍵詞,結(jié)果出來的都是一個(gè)個(gè)單調(diào)的鏈接。想要查相關(guān)視頻,還得另外搜索。現(xiàn)在,百度利用自己的數(shù)據(jù)挖掘及人工智能技術(shù)將這些不同類型的網(wǎng)絡(luò)數(shù)據(jù)關(guān)聯(lián)起來,于是產(chǎn)生了一種叫“知識(shí)圖譜”的結(jié)果。比如現(xiàn)在用百度搜索“中國(guó)好聲音”,結(jié)果出現(xiàn)的不僅僅是對(duì)這個(gè)節(jié)目的描述,還有歌手、歌曲、類似節(jié)目等結(jié)果。同樣的一次搜索,帶來的卻是各種形式的信息展示,這讓筆者眼前一亮。
同時(shí),用戶的搜索行為也會(huì)留下信息,百度再將它們進(jìn)行大數(shù)據(jù)的關(guān)聯(lián)分析,為人群畫像,發(fā)現(xiàn)人群的興趣點(diǎn)、特征等新的信息,反過來又可以從上千萬條推廣中為我們網(wǎng)民找到最相關(guān)的信息。這就是 百度司南。它使得廣告投放結(jié)果與用戶搜索關(guān)鍵字之間具有相關(guān)性,廣告投放商在百度投放的廣告更有效。對(duì)于未來,百度還利用自己的人工智能技術(shù)推出了 百度預(yù)測(cè),有旅游城市、景點(diǎn)熱度的預(yù)測(cè),還有高考專業(yè)、院校的預(yù)測(cè)等。筆者在網(wǎng)站上看到了百度的世界杯預(yù)測(cè)結(jié)果――巴西奪冠,讓我們拭目以待吧。
百度利用技術(shù)掀起了冰山,挖掘出了大數(shù)據(jù)資源中的金礦。最后陳尚義講,如今,大數(shù)據(jù)的發(fā)展已經(jīng)進(jìn)入到全新的數(shù)據(jù)挖掘階段。百度將這些大數(shù)據(jù)技術(shù)打包成為“ 百度大數(shù)據(jù)引擎”,開放為給行業(yè)社會(huì)。幫助傳統(tǒng)行業(yè)根據(jù)大數(shù)據(jù)的特點(diǎn),利用大數(shù)據(jù)引擎的平臺(tái),挖掘行業(yè)數(shù)據(jù)的新價(jià)值,助力產(chǎn)業(yè)升級(jí)。