在未來的某一天,當你突然想知道這個世界上有多少人跟你長的相似的時候,你可以在搜索框中上傳一張自己的照片,剩下的一切都可以交給智能化的圖片搜索引擎來完成,它能根據(jù)圖片的內容特征自動識別相似的圖片。這種“以圖搜圖”的情景說起來容易,但實現(xiàn)起來,卻是一個困擾了谷歌、百度等各大搜索引擎巨頭們許久的技術難題。
要知道,計算機本身并不能識別圖像或文字,唯有將其轉化為數(shù)字,計算機才能識別和處理。傳統(tǒng)的圖像檢索技術是以文本檢索技術為核心構建的,互聯(lián)網(wǎng)上的圖片被人為的打上各種各樣的標簽,如一張海上日出的風景照片,可能的標簽包括“海洋、日出、風景”等等,一旦有用戶在搜索框中輸入這些關鍵詞后,搜索引擎會在數(shù)據(jù)庫中自動查找相對應的標簽。
然而,隨著技術的進步,以人工智能為核心的內容圖像檢索技術已經(jīng)成為未來發(fā)展的趨勢。目前,谷歌通過提供數(shù)百萬份 YouTube 視頻,成功的讓虛擬神經(jīng)網(wǎng)絡系統(tǒng)――DistBelief在事先沒有獲取“貓的特征描述”信息的情況下,自行總結出貓這個概念的特征。也就是說,DistBelief具有自學習能力。而在這套人工智能系統(tǒng)后面,是一個由 1000 臺機器組成、包括 16000 個內核、處理參數(shù)高達 10億個的超級計算機系統(tǒng)。
讓機器像人一樣理解圖像內容,強大的硬件固然必不可少,可最核心的依然是智能算法的設計,目前基于聚類的方法是圖像搜索領域的關鍵方法之一,其中k-means算法是應用最廣泛的無監(jiān)督聚類方法,海量數(shù)據(jù)的索引大部分都使用了分層聚類的思想。但是k-means算法效率相對比較低,原來CPU版本的方法在使用50到60個節(jié)點的條件下處理約100萬張圖片,需要耗時5個多小時。這種速度對于動輒上億數(shù)據(jù)的互聯(lián)網(wǎng)公司來說,完全無法接受的,因此必須要對k-means進行優(yōu)化。
針對k-means目前的特點,浪潮日前與國內某知名搜索公司實現(xiàn)合作,成功實現(xiàn)了對k-means算法的優(yōu)化。在項目過程中,浪潮高性能計算并行團隊在分析代碼后,提出GPU集群的解決方案,并提出了從硬件(計算節(jié)點、網(wǎng)絡互聯(lián)、存儲節(jié)點)到軟件(優(yōu)化軟件)的一攬子解決方案。特別在軟件方面,浪潮與客戶算法專家團隊共同成立專門聯(lián)合項目組,基于K-means串行版本,完成GPU MPI集群版本的實現(xiàn),節(jié)點內使用CPU+GPU協(xié)同計算,大幅降低了計算時間。
雙方聯(lián)合針對GPU架構進行了算法層面的優(yōu)化,重寫了計算部分代碼,將整體速度大幅提升。經(jīng)過優(yōu)化后的軟件,在單GPU上運行的速度與串行程序相比,加速比達到41倍,1塊GPU相當于4.4個8核CPU并行的性能,同時由于浪潮 GPU版本K-means具有很好的性能可擴展性,這使得GPU服務器具有很好的性價比非常適合于此類應用大規(guī)模部署。
某搜索引擎技術部的負責人在上線了浪潮優(yōu)化后的搜索程序表示:“浪潮優(yōu)化以后,大幅降低了我們硬件采購的成本,并且節(jié)省了計算時間,為我們的應用上線帶來了很大助益。”
浪潮作為中國異構高性能計算技術的領先者,一直致力于推動GPU和MIC的應用發(fā)展和人才培養(yǎng),推動異構技術的產業(yè)生態(tài)環(huán)境建設。據(jù)了解,浪潮已經(jīng)分別與英特爾和英偉達聯(lián)合成立并行計算實驗室,合作開發(fā)優(yōu)化基于MIC和GPU的并行應用,涉及石油天然氣、數(shù)值氣象預報、生命科學、計算流體力學、金融風險分析、電磁仿真、CAE、機器學習等諸多領域。同時,浪潮高性能計算應用軟件開發(fā)團隊是目前同時掌握CPU、GPU、MIC應用技術的國際領先團隊,在CPU、GPU、MIC技術方面已取得多項研究成果,并成功在SC和IDF大會上成功展示。