多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > 互聯網 > 百度技術委員會理事長陳尚義:百度大數據引擎

百度技術委員會理事長陳尚義:百度大數據引擎

來源:程序員人生   發布時間:2014-09-06 01:07:42 閱讀次數:3571次

【CSDN現場報道】第六屆中國云計算大會于2014年5月20-23日在北京國家會議中心拉開帷幕。本次大會立足實踐,以國際化的視野,幫助與會者了解全球云計算技術的發展趨勢;從應用出發,探討交通、醫療、教育、金融、制造、數字娛樂等行業領域的實踐經驗;并通過技術專場、產品發布和培訓課程等方式,深度剖析云計算大數據的核心技術。

百度技術委員會理事長 陳尚義

在第六屆中國云計算大會的全體會議上,百度技術委員會理事長陳尚義的演講主題是“百度大數據引擎”,他首先為我們回顧了大數據的發展歷史,從2011年的4V界定,到2012年的政府立項,再到2013年的行業間交流合作,再到現在的傳統行業紛至,大數據以成為當下最火的技術。然而,當下大數據的執行卻面臨著太多的挑戰:數據孤島,價值未知;數據積累,成本激增;技術瓶頸,智能缺失。隨后,陳尚義更以百度的大數據實踐為背景,對數據存儲、計算、呈現進行了分享。

以下為演講實錄:

非常高興有機會跟大家一起交流一下百度的大數據引擎,這是上個月剛剛對外發布的一個計劃或者行動。

剛才王博士的講話給我留下了一個非常深刻的印象,他提了一個問題,說現在講云計算已經不怎么時髦了,現在講大數據比較時髦,過三個月之后,不知道什么東西更時髦。在這里我想試圖回答一下王博士的問題,所以我今天講的題目就叫“大數據引擎”,如果明年我還在這里講的話,我一定會跟大家講人工智能,跟大家匯報一下百度人工智能最大的進展。

大家也許知道,上周五,我們在大西洋彼岸,設了一個百度的硅谷研究院,其中有一個實驗室,我們聘請了原谷歌的一位工程師加入我們,明年希望能夠跟大家匯報我們工程方面的進展。現在我們給大家講一講這個時髦的話題,就是百度的大數據引擎。

我匯報分為四個部分,第一部分,我覺得大數據已經到了一個新的階段,為什么這樣講呢?我記得在2011年前后,其實那個時候并不是說云計算和大數據是相對排斥的,那時候我記得很清楚,CSDN的劉總就講了它們之間的關系,當時是跟我們的首席科學家探討的,那時候我們已經看到了云計算和大數據之間的某種關系。

一、 大數據發展史

當然,那時候有一個現象,大家都是在談論大數據,試圖對概念進行理解。讓我印象比較深刻的就是大家試圖解釋四個V是什么含義。當時僅僅是談談而已,當時有很多的會議,還有大數據專業委員會。

有一個朋友問我一個問題,現在大家都關注云計算,但是政府沒有關注,緊接著2012年前后,政府開始部署大數據,標志事件就是各地省政府和地方政府都把大數據作為戰略,提到非常高的高度,我印象中咸陽新區等,還有國家一些重大科技專項和科技計劃項目把大數據列入支持對象。這時候開始,政府開始關注云計算和大數據。

第三個階段,大家就開始找自己的數據資源,以及它能創造什么價值,就是大數據的價值探索。我記得比較清楚的是大家都互相交流,有數據的企業或者是行業找有數據處理能力的企業交流,有數據能力的企業反過來去找數據資源豐富的企業進行交流。這個時候,他們對數據資源的開發利用進行了探討,一個標志性的東西就是跨界的交流。

現在我認為大數據到了一個價值挖掘的階段,我有機會接觸到全國做數據方面的一些企業,但是都是打著大數據這么一個招牌去談論他們在數據方面所做的工作。但是,很顯然他們已經在做實實在在的一些事,這個是我們目前2014年所處的這么一個階段,在這個階段里頭,我認為他們存在著一些問題,我這里講的是誤區,或者說是一些現象。這個現象不見得是不積極的,至少說明我們對數據價值的認識已經到了非常高的地步,而且我們也提出了很多具體的實際行動。比如說他們把過去我們所做的輿情分析、把過去我們做的BI都進行了大數據挖掘,所用到的傳統技術也不是今天大家坐在一起討論的大數據方面的一些新的技術和方法。

所以,我們把數據當做大數據,把傳統的技術當做大數據的技術,他們挖掘這個數據價值,他們缺乏大數據所必須面對的挑戰,它的這些新的特征。 

在這個階段里頭,我們最需要做的事情,就是我們必須得看到真正的大數據不是那樣,真正的大數據一定是高速成長的,它的成長速度,大家都知道現在的摩爾定律,它的膨脹速度是你不可想象的,對成本的壓力是你不可想象的。這是第一個。第二個,我們必須要開發新工具和新平臺,去滿足大的數據規模和高速膨脹的需求,這是我們需要想到的,而不是說我們停留在過去所做的關于數據方面的一些工作而滿足。在剛才我說的第四個階段,迫切需要做這樣一些事情,克服我們的誤區,然后才能贏得一個新的機會。這是我匯報的第一個方面。

二、 行業大數據面臨的挑戰

第二個方面,跟大家介紹一下通過我們和行業的交流,因為剛才講了,我們其中有一個階段,我們跟很多的傳統行業交流,如何挖掘大數據的價值,因為他們知道百度是一個大數據處理企業,他相信我們可以幫到他們。所以在交流過程中,我們也實實在在感覺到各個行業面臨的一些問題。

行業挑戰1:數據孤島,價值未知

第一個困難就是數據孤島,大家有沒有想到所有的數據產生,都有它的第一個作用,否則,它不會產生。這個數據都積累起來,最后它一定有第二個作用、第三個作用,比如說百度的相冊里存了很多關于我們每一個網民存放上去的各種圖片,當圖片積累到一定程度的時候,我們就可以發現當年流行的那個趨勢是什么。我每天早上有一個習慣,起床以后站到窗戶照一張照片,對生活做一個記錄,但是多了以后,我每天把照片放在一起的時候,我很容易的就發現這一年天氣變化的軌跡,我甚至可以預測未來的趨勢,這就是第二個和第三個作用。 

還有一個就是行業數據如果不和其他的數據進行聯合、進行交易的話,它的數據價值是非常有限的。比如說銀行的數據如果不跟互聯網搜索數據結合起來的話,那它純粹只是做銀行原來的事情。比如說保險數據如果和醫療數據不結合起來的話,它們之間的價值流失就會很多。總而言之,數據存在著孤島現象,他們對自己數據價值的認知存在著一些誤區。

行業挑戰2:數據累積,成本劇增

第二個挑戰,就是數據的累積,真正的大數據成長速度是指數級的,所以給我們帶來的挑戰很大,包括我們的IT成本。右邊這是一個真實的服務器增長的速度,5年漲25倍,基本上按照摩爾定律在增長。我們相信在座的都知道,這意味著什么?比如說一個大型的醫院現在是100臺服務器,三年以后就將近1000臺服務器,這對系統成本的壓力是巨大的,如果你不好好利用的話,那這些數據會成為你一個很大的負擔。

行業挑戰3:技術瓶頸,智能缺失

第三個挑戰,就是我們要迎接大數據下一個階段的話,你必須要有很強大的技術,這些技術我可能現在并不知道它是什么技術,必須有強大的技術、必須有強大的平臺、必須有數據挖掘這些智能的東西,發現數據的價值規模,才能夠各個行業的需求。

這是我講的三個方面,即使你有錢買得起那么多處理器,但是你的成本可能受不了,你的計算能力可能達不到。第二方面是從海量、超大規模的數據里,比如說百度從PB數據里如果找到想要的數據,在一定時間內找到,你就需要非常強大的數據管理,然后再網上是缺乏數據智能技術。

三、 百度大數據實踐

第三部分,跟大家匯報一下百度在大數據方面所做的一些工作,有的大家可能已經知道了,有的可能還不知道。第一個方面,由于數據規模的迅速膨脹,大家知道因為百度天生就是大數據企業,從它成立第一天開始就收集全網的數據,這個數據的增長速度,我們感受非常的深刻。所以,我們在后臺必須得做很多的工作和準備,一個是規模大,另外一個是成長快。這種情況下,我們必須得有一套辦法來節省成本,提高部署效率,才能夠滿足大規模數據超高效的價值。

我們使用ARM服務器,在特定領域,比如說在存儲為主方面,它有它獨特的作用,它效率比較高。另外一個就是用圖形處理器代替CPU,同時,我們在整機柜服務器,顧名思義是把很多服務器放在一個柜子里,這樣處理起來會很快。由于高速的數據增長需求,我們必須提高部署的效率。再一個就是萬兆交換機,使得我們作布線方面,節約成本方面提高了很多。

再一個就是在數據中心方面,數據中心方面規模是第一位的,我們現在建了很多大型的數據中心,北京、山西、內蒙建了超過十萬臺,70萬個CPU,4000舞臺服務器,數據中心亞洲第一,現在PUE1.32,最佳的達到1.16。一年下來,由于采用了服務器方面、數據中心方面,把各方面根據百度的優化和機制,使得我們的成本降到50%。

百度在大數據方面實踐還有很多,有搜索,這是百度的老本行。我想提醒一下,這個跟傳統的搜索結果不一樣的是,過去的搜索是你點關鍵詞,出來若干鏈接,如果你覺得是好的,就結束這個搜索。如果你不滿足這個需求,就要往下去找。這個搜索不是這樣,這個例子是說“中國好聲音”這么一個關鍵詞,出來的結果是什么呢?是關于《中國好聲音》比較權威的描述,底下小圖片是里面的歌手,右邊是跟《中國好聲音》相似的節目,比較好的滿足了用戶的需求,提高了用戶體驗,節省了用戶的時間,別看小小一個變化,背后是大數據,因為要從上千億網頁里頭知道《中國好聲音》是一個節目,以及和這個節目相關的其他節目,以及節目當中的歌手,要從海量的數據里把這個關系找到,建立一個知識庫,我們叫知識圖譜。大家不妨可以體驗一下,可想而知背后的大數據處理提出了極高的要求。

還有一個,百度的商業模式是后代有人做推廣,俗話叫廣告,他們要給百度付錢。他投廣告不能亂,一定要精準的,根據用戶的關鍵字,他的廣告投放要有相關性,這樣點的人才沒有白費錢,廣告的投放商才省錢。這個背后也是大數據,因為要對用戶的行為進行仔細的分析,使得廣告投放的結果和用戶搜索關鍵字之間具有相關性。

再一個就是在大數據的驅動之下,剛才我講了,明年我們會講到人工智能,目前百度在人工智能方面已經走得很遠,這是一個例子,語音。現在很多百度的用戶已經知道,無論是搜索還是其他方面都可以提供語音的支持,但是背后是大規模的數據對語音識別的模型進行訓練,所以我們才有優勢,所以我們才在過去一兩年的時間里,我們剛剛起步就迅速地突破了所有的約束。

人工智能方面另外一個就是圖片搜索,你輸入一個圖片要找到相似的圖片,比如說你輸入一張照片,然后就可以找到全網的關于你的照片出來,這項技術跟語音識別技術有點類似,后面是大規模的模型訓練的結果。左邊搜出來的基本上都是形狀顏色相似的照片,右邊這個是另外一個很強大的競爭對手,他們出來的結果。

還有自然語言的理解,還有翻譯。自然語言的理解對客戶來說非常重要,為什么?網民的搜索是隨心所欲的,這是一個很強大的挑戰。翻譯也是一樣,過去是基于規則的翻譯,基于規則的自然語言的理解,現在已經敵不過我們基于統計的自然語言的理解,背后是大數據和技術在做支撐。

百度還在另外一個方面做了實踐,就是做預測。這里有一個網站,是rtends.baidu.com,大家可以去看看,我們對一些事情可以做比較準確的預測。

大家看電視也好,看別的新聞也好,可能都知道百度在今年春節期間非常生動、非常形象的描繪了春運人口的遷徙情況,為什么我愿意在這里分享?因為我被震撼了。中國春運人口遷徙是人類歷史上規模最大的遷徙,我們看到的是這張圖,但是背后它有數據的采集、存儲、處理和展現,大家都知道數據的展現本身就是大數據的一個核心技術。

四、 百度大數據引擎

最后跟大家分享一下百度的大數據引擎。這是大數據引擎的示意圖,這個圖怎么看呢?我告訴大家一個技巧,首先我們看中間一塊,就是黃色、綠色、藍色,這是大數據引擎本身,然后我們再看上面和下面,下面是百度的數據、行業的數據,上面是行業的價值、行業應用。然后再看每一個核心的部分都有三個向上的箭頭。

我解釋一下,內核三個部分,第一個部分就是開放云,開放云大家可能都不陌生,過去我們在移動上已經做了移動開放,就是百度開放平臺,即百度云,我們對中小開發者已經開放有幾年了,在這上面有幾十萬個開發者,有很多的應用,已經取得了成就。這里頭的開放云除了內部之外,還包括對行業進行開放,包括這種分布式的存儲、計算等等。

然后再往上面一個是數據工廠。數據工廠顧名思義是對數據進行加工,有大量行為點擊的數據,要把它變成結構化的、較小的數據,從超大規模的數據里迅速找到所需要的數據,這是數據工廠部分的功能。

最上面百度大腦,這里頭有百度所有的關于數據方面的智能,這個相當于機器人的智力水準,它能認出一張照片上的是人還是貓,就是想把數據變成智能的,或者說通過大數據,以它為基礎開展人工智能的工作。

底下是百度的數據加上行業的數據,這個行業也可能是一個行業,也可能是幾個行業,這樣既克服了數據孤島問題,同時又解決了數據聯合起來創造更大的價值。

向上的三個箭頭分別表示我們系統上運行的每一個層次都可以單獨對外開放,開放云的技術指標,在數據的規模方面,剛才已經講到了,百度的數據未來還會迅速增長。在數據中心的規模方面,我們已經達到的超過10萬臺。然后在數據工廠這個層面,如果你是高并發、查詢結果比較大的話,在一秒之內能夠掃描100個GB,反過來如果是小規模的查詢,并發比較高的話,能達到10萬qps。

在深度學習方面,百度的這個機器可以無時無刻,24小時不間斷學習,可以告訴大家,我們有200億的參數,它是世界上規模最大的人工神經網絡。

剛才講了半天大數據引擎,它由三個部分組成,開放的云加上數據工廠,加上百度大腦,這個引擎對行業來講有什么意義呢?我們看一看幾個例子,第一個,我們對跟旅游行業結合,我們就可以比較準確的預測某一個城市的熱度和某一個擁擠的程度,在預測一個景點的時候可以提前到兩天。

然后百度和健康產業結合的話,我們也會產生新的價值。比如說我們和中國疾病控制中心簡稱CDC合作,我們就能準確的預測到某種疾病蔓延的趨勢。右邊這張圖有兩條曲線,一條是紅色的,一條是藍色的,這兩條線的變化走勢非常相似,這就是預測和實際結果的對比。過去我們有一個比較粗糙的數據,就是百度的搜索數據加上醫院收集到的臨床數據進行預測,未來我們還會更加精確,因為我們有更多的數據可以供預測,比如說我們有人口遷徙的數據,也多種APP的數據,地區的數據等等,這些數據都可能被用來做疾病模型的趨勢預測。

還有一個是跟商業的結合,所有用大數據精準營銷的,都可以用這種引擎,它背后是大數據的支持。可以看看這個例子,左邊是各種在線的數據,用戶用百度知道、百度空間,通過對用戶行為的研究,來精準的投放廣告。右邊是說零售商或者是他們自己用購買的數據來進行商業決策,然后他們的每一個客戶體規精準化、個性化的服務。兩者互為影響,使我們的廣告更加精準,使他們的商業服務更加個性化。

總而言之,百度在大數據方面積累的能量,是我們積累的技術平臺,未來百度的這些能力和平臺會繼續為各位合作伙伴提供服務,這是我們的網站,大家如果感興趣的話可以去上面了解更多。非常感謝,謝謝大家!

更多精彩內容,敬請關注第六屆中國云計算大會專題報道,關注新浪微博直播 @CSDN云計算。

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 一区二区亚洲精品 | 影音先锋色天使 | 日韩精品亚洲人成在线观看 | 欧美一区二区视频三区 | 亚洲成人免费在线观看 | 亚洲精品伊人 | 免费福利在线 | 美女视频一区二区三区 | 最近最新的免费中文字幕 | 欧美黑人乱大交ⅹxxxxx | 免费区一级欧美毛片 | 免费国产一区二区三区四区 | 国产精品性 | 看日本黄色大片 | 人善交xxx | 欧美一级精品高清在线观看 | 国产精品久久久亚洲 | 欧美日韩中文亚洲另类春色 | 伊人久久99亚洲精品久久频 | 久久精品一区二区 | 欧美一区二区三区精品国产 | 欧美日韩亚洲二区在线 | 日本h在线精品免费观看 | 精品三级国产一区二区三区四区 | 亚洲图区欧美 | 久久精品国产一区二区三区 | 久草在线新首页 | 精品欧美一区二区精品久久 | 欧美一级日韩一级亚洲一级 | 2018精品国产一区二区 | 久久久久久久久久久观看 | 亚洲看 | 日本精品中文字幕在线播放 | 毛片毛多| 国美女福利视频午夜精品 | 性欧美video超清 | 都市激情校园春色亚洲 | 免费观看性欧美毛片 | 日韩一级欧美一级 | 手机在线观看视频 | 最新亚洲 |