毫無(wú)疑問(wèn),一個(gè)大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時(shí)代逐漸朝我們走來(lái)。互聯(lián)網(wǎng)時(shí)代將我們帶入了一個(gè)以“PB”為單位的結(jié)構(gòu)與非結(jié)構(gòu)化數(shù)據(jù)信息時(shí)代。大數(shù)據(jù)之于企業(yè)、個(gè)人等是什么樣的存在不需要再贅述。
訂閱“AWS中文技術(shù)社區(qū)”微信公眾號(hào),實(shí)時(shí)掌握AWS技術(shù)及產(chǎn)品消息!
AWS中文技術(shù)社區(qū)為廣大開發(fā)者提供了一個(gè)Amazon Web Service技術(shù)交流平臺(tái),推送AWS最新資訊、技術(shù)視頻、技術(shù)文檔、精彩技術(shù)博文等相關(guān)精彩內(nèi)容,更有AWS社區(qū)專家與您直接溝通交流!快加入AWS中文技術(shù)社區(qū),更快更好的了解AWS云計(jì)算技術(shù)。
但是事實(shí)上我們還沒(méi)有完全準(zhǔn)備好迎接如此量大、并且不規(guī)則的“非結(jié)構(gòu)數(shù)據(jù)”,大數(shù)據(jù)時(shí)代下我們要如何更好的將這些大量、高速、多變的終端數(shù)據(jù)存儲(chǔ)下來(lái),并隨時(shí)進(jìn)行分享、分析、挖掘與計(jì)算?這是我們探索海量數(shù)據(jù)背后的真正價(jià)值所在的關(guān)鍵。本期活動(dòng)我們邀請(qǐng)到了亞馬遜AWS中國(guó)解決方案架構(gòu)師王毅和上海高欣-數(shù)據(jù)中心部技術(shù)總監(jiān)周誠(chéng),與我們一起探索解決數(shù)據(jù)分析、數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)等問(wèn)題。
分享會(huì)上,AWS中國(guó)解決方案架構(gòu)師王毅帶來(lái)了主題為“大數(shù)據(jù)時(shí)代下的非結(jié)構(gòu)化數(shù)據(jù)的管理與分析”的演講。演講中,他談到了數(shù)據(jù)的產(chǎn)生、收集和存儲(chǔ),以及數(shù)據(jù)處理,同時(shí)分享了相關(guān)的客戶案例。
圖:AWS中國(guó)解決方案架構(gòu)師王毅
在數(shù)字世界產(chǎn)生的1.2 ZB的數(shù)據(jù)中,95% 的數(shù)據(jù)都是非結(jié)構(gòu)化的,大約70% 的內(nèi)容都是用戶產(chǎn)生的(UGC),而且非結(jié)構(gòu)化的數(shù)據(jù)以平均每年62%的速度爆發(fā)性增長(zhǎng),這就需要對(duì)這些數(shù)據(jù)加以分析,提取出對(duì)我們有用的數(shù)據(jù)。通過(guò)分析這些數(shù)據(jù),可以了解客戶的需求、對(duì)財(cái)務(wù)建模及預(yù)測(cè)、欺詐檢測(cè)等方面。當(dāng)然,這些數(shù)據(jù)可以從智能手機(jī)、平板電腦或者第三方數(shù)據(jù)(RSS)來(lái)獲取。而且獲取的數(shù)據(jù)格式不盡相同,除了結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)外,可能還包括比如文本、二進(jìn)制、準(zhǔn)實(shí)時(shí)類型的數(shù)據(jù)。最后再對(duì)這些數(shù)據(jù)加以分析來(lái)獲取有價(jià)值的信息。
王毅談到了產(chǎn)生的數(shù)據(jù)和可供分析的數(shù)據(jù)之間的差異。他表示在獲取的大量數(shù)據(jù)面前,可以有效的加以利用的數(shù)據(jù)往往是微乎其微,而且在數(shù)據(jù)的收集和存儲(chǔ)的過(guò)程中,往往依賴于硬件的性能,性能越好,效率越高。
關(guān)于大數(shù)據(jù)與云計(jì)算之間的關(guān)系,王毅發(fā)表了自己的看法。“簡(jiǎn)而言之,它們是天生一對(duì)的關(guān)系。”他說(shuō)道,“由于大數(shù)據(jù)經(jīng)常不是一個(gè)穩(wěn)定的負(fù)載,它有高峰和低谷,因此需要彈性的計(jì)算來(lái)滿足大數(shù)據(jù)不斷變化的需求,剛好AWS非常適合負(fù)載變化大的應(yīng)用場(chǎng)景,并且讓大數(shù)據(jù)更加的平民化。”
最后,王毅介紹了利用EMR分析數(shù)據(jù)具有容易使用、節(jié)約成本、彈性計(jì)算等優(yōu)勢(shì),對(duì)S3的基本工作原理進(jìn)行了簡(jiǎn)要的介。
王毅講義PPT下載:
http://download.csdn.net/detail/wangyp1230/7694823
來(lái)自于上海高欣數(shù)據(jù)中心部技術(shù)總監(jiān)的周誠(chéng)帶來(lái)了主題為“大數(shù)據(jù)時(shí)代下的機(jī)器學(xué)習(xí)”的演講,主要分享了數(shù)據(jù)分類問(wèn)題和一個(gè)經(jīng)典案例。
分享會(huì)上,周誠(chéng)談到了兩種數(shù)據(jù)分類的方法――K-Mean聚類和信息熵。K-Mean聚類簡(jiǎn)單地說(shuō)就是把相似的東西分到一組,同分類不同是聚類通常需要你告訴它“這個(gè)東西被分為某某類”這樣一些例子。信息熵則是一個(gè)數(shù)學(xué)上的抽象概念,在這里可以把信息熵理解成某種特定信息的出現(xiàn)的概率。這兩方法對(duì)數(shù)據(jù)的聚類非常重要。
通過(guò)對(duì)信息的聚類,我們可以得到更加精簡(jiǎn)的數(shù)據(jù),這大大的提升了分析數(shù)據(jù)的效率,因此先給數(shù)據(jù)進(jìn)行聚類后再進(jìn)行分析是處理海量數(shù)據(jù)的重要手段。
接著,周誠(chéng)介紹了語(yǔ)言模型。他認(rèn)為語(yǔ)言模型的目的是建立一個(gè)能夠描述給定詞序列在語(yǔ)言中的出現(xiàn)的概率的分布,語(yǔ)言模型最開始誕生在語(yǔ)音識(shí)別領(lǐng)域,識(shí)別給定的語(yǔ)音信號(hào)對(duì)應(yīng)的詞序列。但是隨著歷史信取值的不同衍生出:一元模型(Unigram)、二元模型(Bigram)、三元模型(Trigram)。
最后,周誠(chéng)對(duì)DC系統(tǒng)構(gòu)架做了簡(jiǎn)單介紹。
周誠(chéng)講義PPT下載:
http://download.csdn.net/detail/u013424982/7685481
如您需要了解AWS最新資訊或是技術(shù)文檔可訪問(wèn)AWS中文技術(shù)社區(qū);如您有更多的疑問(wèn)請(qǐng)?jiān)贏WS技術(shù)論壇提出,稍后會(huì)有專家進(jìn)行答疑。