【CSDN現場報道】第六屆中國云計算大會于2014年5月20-23日在北京國家會議中心拉開帷幕。本次會議以技術、應用、創新、標準、國際交流為方向,共設置了近20個分論壇,特邀了十大院士與百余位企業一線實踐者,共同技術把脈云計算及大數據發展趨勢,深入探討云計算大數據在生產環境中的核心技術、實踐經驗、革新方向與國際標準等。
在Hadoop應用實戰技術培訓專場首先登臺的是ChinaHadoop小象社區核心成員葉琪,他是一位Hadoop的開發者與實踐者,專注于Hadoop的底層模塊(HDFS、YARN、MapReduce、HBase和Hive),擅長將傳統業務系統遷移到基于Hadoop的解決方案,對Hadoop集群的構建和各種運維問題有著豐富的實踐經驗。他給大家介紹了Hadoop在電信行業的應用實踐。
葉琪主要從四個方面介紹了Hadoop在電信行業的應用實踐:第一,電信行業數據應用現狀和挑戰;第二,Hadoop在電信領域的成功應用;第三,如何從零開始設計一個Hadoop集群;第四,如何調優及高效運維一個Hadoop集群。
電信行業數據應用現狀和挑戰
眾所周知Hadoop不是萬能鑰匙,同樣有很多不適用的場景,比如說:
1、低延遲的數據訪問,除了Hbase,Hadoop并不適用于需要實時查詢和低延遲的數據訪問。數據庫通過索引記錄可以降低延遲和快速響應,這一點單純的用Hadoop是沒有辦法代替的。
2、數據量并不大的時候,Hadoop一般適用于百TB 及PB以上的數據量。當你的數據只有幾十GB時,使用Hadoop是沒有任何好處的。按照企業的需求有選擇性的的使用Hadoop,不要盲目追隨潮流。
3、大量的小文件,小文件指的是那些size比HDFS的block size(默認64M)小得多的文件。如果在HDFS中存儲大量的小文件,每一個個文件對應一個block,那么就將要消耗namenode大量的內存來保存這些block的信息。
4、太多的寫入和文件更新,HDFS天然適用于一次寫入多次讀取的場景。當有太多文件更新需求,Hadoop沒有辦法支持。
電信行業系統數據類型中有很多適用于Hadoop的類型。