【編者按】4月24日,以“大數據引擎驅動未來”為主題的百度第四屆技術開放日在北京舉行,會議期間百度推出了首款集基礎設施、數據處理和機器學習的大數據引擎,而董事長兼CEO李彥宏親自出席更凸顯了百度對這一產品的重視,下面為大家分享羅超在虎嗅上的精彩分析。
以下為原文:
在昨天(4月24日)的百度技術開放日上,李彥宏現身并推出了百度大數據引擎。這在百度,表明對相關產品最高的重視了。
這個發布是什么意思呢?簡單地講,大數據引擎將百度在大數據的數據、能力和技術開放給行業,行業可以近身距離甚遠的大數據盛宴,百度則尋到了一個新的增長點。
大數據引擎三件套
百度大數據引擎一共分三個部分。
開放云:百度的大規模分布式計算和超大規模存儲云。過去的百度云主要面向開發者,大數據引擎的開放云則是面向有大數據存儲和處理需求的“大開發者”。
百度的開放云擁有超過1.2萬臺的單集群,超過阿里飛天計劃的5k集群。百度開放云還擁有CPU利用率高、彈性高、成本低等特點。百度是全球首家大規模商用ARM服務器的公司,而ARM架構的特征是能耗小和存儲密度大,同時百度還是首家將GPU(圖形處理器)應用在機器學習領域的公司,實現了能耗節省的目的。
數據工廠:開放云是基礎設施和硬件能力,你可以把數據工廠理解為百度將海量數據組織起來的軟件能力。就像數據庫軟件的位置一樣。只不過數據工廠是被用作處理TB級甚至更大的數據。
百度數據工廠支持單詞百TB異構數據查詢,支持SQL-like以及更復雜的查詢語句,支持各種查詢業務場景。同時百度數據工廠還將承載對于TB級別大表的并發查詢和掃描,大查詢、低并發時每秒可達百GB,在業界已經是很領先的能力了。
百度大腦:有了大數據處理和存儲的基礎之后,還得有一套能夠應用這些數據的算法。圖靈獎獲得者N.Wirth(沃斯)提出過“程序=數據結構+算法”的理論。如果說百度大數據引擎是一個程序,那么它的數據結構就是數據工廠+開放云,而算法則對應到百度大腦。
百度大腦將百度此前在人工智能方面的能力開放出來,主要是大規模機器學習能力和深度學習能力。此前它們被應用在語音、圖像、文本識別,以及自然語言和語義理解方面,被應用在不少App,還通過百度Inside等平臺開放給了智能硬件。現在這些能力將被用來對大數據進行智能化的分析、學習、處理、利用。百度深度神經網絡擁有200億個參數,是全球規模最大的,它擁有獨立的深度學習研究院(IDL)和較早的布局,在人工智能上百度已經快了一步,現在貢獻給業界表明了它要開放的決心。
大數據引擎可以干嘛
百度將基礎設施能力、軟件系統能力以及智能算法技術打包在一起,通過大數據引擎開放出來之后,擁有大數據的行業可以將自己的數據接入到這個引擎進行處理。同時,一些企業在沒有大數據的情況下,還可以使用百度的數據以及大數據成果。
從架構來看,企業或組織也可以只選擇三件套中的一樣使用,例如數據存放在自己的云,但要運用百度大腦的一些智能算法應該也是支持的。
舉幾個例子可能你更加清楚百度大數據引擎究竟是什么。
許多政府部門擁有海量大數據――大數據經典之作《大數據》也是在講美國政府的大數據。但政府部門幾乎都沒有大數據處理和挖掘技術。交通部門有車聯網、物聯網、路網監控、船聯網、碼頭車站監控等地方的大數據,衛生部門擁有流感法定報告數據、全國流感樣病例哨點監測和病原學監測數據,公安部門有大量的視頻監控數據。如果這些數據與百度的搜索記錄、全網數據、LBS數據結合,在利用百度大數據引擎的大數據能力,則可以實現智能路徑規劃、運力管理、流感預測、疫苗接種指導、安防追逃等等。
許多企業也擁有海量大數據――通信、金融、物流、制造、農業等行業。不過,它們幾乎都沒有大數據能力,坐擁海量數據卻一籌莫展。這時候如果能夠應用百度大數據引擎,則可以對海量數據進行可靠低成本的存儲,進行智能化的由淺入深的價值挖掘。在百度技術開放日上,中國平安便介紹了如何利用百度的大數據能力加強消費者理解和預測,細分客戶群制定個性化產品和營銷方案。
可以看出,大數據引擎的輸入實際上是百度擁有的大數據以及行業已有的大數據,而輸出則是各種行業應用成果,也就是大數據的“價值”。
與一些類似項目的對比
在百度之前,業界已經有一些類似的思路,即有一些大數據能力的企業視圖將自己在基礎能力或者軟件方面的優勢釋放出來。
Google:
大數據時代的奠基者。對應到百度開放云,它有舉世聞名的數據中心以及基于Colossus的云;對應到百度數據工廠,Google近年來為迎接大數據時代不斷改造核心技術,包括比MapReduce批處理索引系統搜索更快的Caffeine,專為BigTable設計的分布式存儲Colossus比GFS還要先進,Dremel和PowerDrill管理和分析大數據,以及Instant和Pregel。對應到百度大腦,Google提供的大數據分析智能應用包括客戶情緒分析、交易風險(欺詐分析)、產品推薦、消息路由、診斷、客戶流失預測、法律文案分類、電子郵件內容過濾、政治傾向預測、物種鑒定等多個方面。技術有Big Query、趨勢圖等。
可以說Google與百度的思路最為接近,不過Google目前還未將它的大數據能力打包起來以一個新“引擎”的方式共享。毫無疑問,這在不久之后就會發生。
亞馬遜:云計算的奠基者。亞馬遜是IaaS(基礎設施即服務),與阿里云非常相似。亞馬遜在用戶交易、個人偏好、經濟領域的大數據能力可能比Google還要優秀,也被一些人視作這是亞馬遜與Google競爭的唯一機會。亞馬遜目前更多還是在云領域做貢獻,雖然也有Redshift的方案,但在數據工廠和人工智能的開放上進展慢一些。
阿里巴巴:
亞馬遜對應回中國自然是阿里巴巴。阿里云是國內最早的獨立運作的云部門。數據則是阿里三大核心戰略之一,大數據也被擺到了阿里十分重要的位置,不懂技術的馬云經常談及大數據都有人調侃他應該改名Data Ma。阿里在大數據基礎設施領域確實取得了突飛猛進的進展,飛天、Apsara、跨機房5K集群都是知名的大數據項目,應對雙十一、余額寶規模取現預測、廣告業務高速增長等業務場景也證明了阿里的大數據能力。
阿里大數據的思路便是做大數據的集市,讓阿里系之外的大數據能夠跑在阿里苦心搭建的大數據機器上運轉起來。不久之前阿里與東軟合作,后者的業務未來都將部署在阿里云。這意味著東軟客戶的數據很可能會進入阿里的大數據體系。可以確定阿里將會推出類似大數據引擎的平臺,將大數據能力完全開放出來。
相比百度,阿里在“數據工廠”這塊應該是各有所長,在數據基礎領域以及業務理解方面有著電商領域的專注,但人工智能這塊跟百度比肯定會有不小差距。語音、圖像和自然語言理解,阿里并沒有多少積累,它更擅長處理結構化的數據。
其他電商玩家如京東和蘇寧也有類似的云,與阿里和百度完全不在一個級別就不比較了。
Salesforce等軟件公司:
Salesforce近兩年收購了超過5家與社交大數據相關的營銷公司,目的是獲取更多的數據。其他的軟件廠商和方案廠商也有大數據引擎方面的布局,EMC、Oracle有對應的大數據處理軟件,IBM有大數據行業方案,英特爾入股大了數據初創企業Cloudera,Cloudera推出的Impala比GoogleDremel還要快。Intel還推出了基于Hidoop的“大數據引擎”,加州伯克利大學AMPLab開發了名為Shark的大數據分析系統。
回到國內,華為在去年發布了大數據平臺產品FusionInsight,還有百分點科技這樣的基于大數據的推薦服務公司。而“天河2號”等獨立超級計算機也對外宣稱它們的超級計算能力將會逐步開放出來。
不過,軟件公司、方案公司以及超級計算機都無法做到像百度一樣將大數據作為一種云端能力打包開放出來,也無法同時具備基礎設施、數據工廠和智能算法的開放能力。尤其是“百度大腦”這部分,很少有其他具備這樣的“數據智能”的能力。
百度將用互聯網的方式來做開放的大數據引擎。它不可能采取與軟件方案公司一樣的“一竿子買賣”方式進行合作。而是將大數據引擎做成一個開放平臺,形成標準的接口,讓每個行業不同企業可以根據自身需求各取所需。而它的首要目的是獲取數據,然后是考慮變現。
變現方式可能是增值服務、收費云、數據分析結果、技術咨詢等方式,這將改變百度盈利模式過渡依賴“搜索廣告”的現狀。有消息稱,大數據已經給Google每天帶來2300萬美元的收入,一年約為82億美元。這已經遠遠超過百度2013年51億美金的年收入了。因此,如果百度大數據引擎能夠成功,很可能會為之帶來源源不斷的數據以及現金流。
原文鏈接: 李彥宏為什么會為大數據引擎站臺?(責編/仲浩)
以“ 云計算大數據 推動智慧中國 ”為主題的 第六屆中國云計算大會 將于5月20-23日在北京國家會議中心隆重舉辦。產業觀察、技術培訓、主題論壇、行業研討,內容豐富,干貨十足。 目前還有優惠,需要購買的朋友,請抓住這最后的機會,點擊報名!