【編者按】中國“天河二號”超級計算機在世界超級計算機排行榜上連續3次奪得冠軍,我們在慶賀的同時也發現目前超級計算機的技術已經陷入瓶頸狀態,龐大的功耗費用,難以控制,難以容忍的故障率,數據的訪問速度限制,如何開發更加創新的系統架構從而突破性能瓶頸,使超算性能從千萬億次上升到百億億次,這些方面仍然是超級計算機實現突破的障礙。
免費訂閱“CSDN云計算”微信公眾號,實時掌握第一手云中消息!
CSDN作為國內最專業的云計算服務平臺,提供云計算、大數據、虛擬化、數據中心、OpenStack、CloudStack、Hadoop、Spark、機器學習、智能算法等相關云計算觀點,云計算技術,云計算平臺,云計算實踐,云計算產業資訊等服務。
以下為原文:
IT領域的摩爾定律認為,計算機性能每18個月就將提升一倍。中國“天河二號”超級計算機在世界超級計算機排行榜上連續3次奪得冠軍,固然值得慶賀,但另一方面也顯示,超級計算機的技術陷入瓶頸狀態。
中國科學院軟件研究所并行軟件與計算科學實驗室執行主任,HPC領域一線專家張云泉介紹說,以往超級計算機通過增加處理器數量就能不斷提高性能。但美國勞倫斯?伯克利國家實驗室的豪斯?費姆尼教授認為,最近幾年超算技術上的發展,都不足以突破艾級超算的障礙。原來認為2018年就能實現1000P級別的超算,現在推遲到2020年,甚至2022年都無法實現。
超算發展目前面臨的挑戰首先是功耗控制難。目前的集成水平和此前相比并沒有根本性改善,以現有技術,艾級超級計算機的功耗會超過20兆瓦,建造費用將超過2億美元,這將帶來一系列技術和運營問題。例如“天河二號”一年僅電費就要1億元人民幣,全速運算的話,電費更高達1.5個億。如果還是按照老思路,依靠增加規模制造出的艾級超算,功耗可能會達到50-100兆瓦,這需要有一個專門的核電站來給它供電,這樣的超算顯然沒有實用價值。同時這樣密集排列的大功率處理器,也會帶來無法解決的散熱問題。因此國際上公認的艾級超算標準是,功耗必須控制在20兆瓦內,這就要求在制造工藝上有革命性突破。
其次是可靠性問題,將來超級計算機并發部件將超過10億,以現在的故障率,平均每過10-20分鐘系統就會報一次硬件錯誤,而每次處理錯誤需要半個小時。這顯然也是無法容忍的。
第三,超算還面臨數據的訪問速度限制?,F在超級計算機運行的速度越來越快,但現有存儲器讀取數據的速度卻已無法跟上需求,也成為超級計算機性能提升的瓶頸。因此美國也有一批教授認為應該反思超算的發展方向,改變追求峰值運算速度的模式,而注重實用價值。例如放棄通用型超算,而是根據實際需求定制超算。
第四,超算要取得更長遠發展需要解決架構難題?,F任高效能服務器和存儲技術國家重點實驗室主任、浪潮集團高級副總裁王恩東認為,如何開發更加創新的系統架構從而突破性能瓶頸,使超算性能從千萬億次上升到百億億次,這是全球超級計算機專家都關心的話題之一。去年在上海交通大學上線運行的中國高校第一超級計算機就使用了浪潮和上海交大共同開發的CPU+GPU+MIC的創新技術架構,目前這種架構被普遍認為是突破P級到艾級最有可能的方法。
原文鏈接:超算發展面臨技術瓶頸:天河二號一年電費1億 (責編/魏偉)
上一篇 “中國杯”游戲極限開發大賽報道