Disco旨在較大的利用程序輕松集成,比如web服務,那樣要求計算的任務可以拜托給獨立于核心利用程序的集群去履行。Disco提供了1個非常緊湊的Python API――通常只需要兩個函數,和1個rest樣式的Web API的工作控制和簡單易用的狀態監控Web界面。另外,Disco還具有了1個簡單的工作協議,允許作業以任何語言編寫,實現協議。
Disco對LINUX商業服務器集群非常友好,新節點可以通過單擊Web界面動態地添加到系統。如果服務器崩潰,能夠自動將失敗的任務重新分配,這樣就沒有任何中斷。在自動配置機制的幫助下,如全自動安裝,乃至是保護大型集群,也只有少許的人工工作。作為1個觀念的驗證,在帕洛阿爾托的諾基亞研究中心使用Disco這類設置來保護1個800核心集群。
?證明范圍數以百計的CPU和不計其數的同步任務
?用于處理數以萬計范圍為tb的數據集
?簡單易用:1個典型的任務由用Python編寫的兩個函數和兩個調用Disco API
?通過實行Disco工作協議,可以任何其他語言指定任務。
?輸入數據可以在任何格式,乃至2進制數據,如圖象。位于任何源的數據可以通過HTTP得到或分發到本地磁盤
?容錯:服務器崩潰不中斷工作。能夠自動將失敗的任務重新分配
?靈活:除核心的map和reduce函數、組合器功能,配分函數和1個輸入瀏覽器可以由用戶提供
?使用標準的Disco模塊和Web api輕松集成較大的利用程序
?帶有1個內置的散布式存儲系統(Disco散布式文件系統)。
數據輸入:
disco可分散計算,需要確保數據能被分割,1般來講,將數據放入ddfs文件系統中,該文件系統類似于hdfs,是1個散布式文件系統,能處理好數據的分配和復制。