您當(dāng)前位置：首頁 > php框架 > 框架設(shè)計 > HBase作為存儲方案

HBase作為存儲方案

來源：程序員人生發(fā)布時間：2016-08-22 08:33:27 閱讀次數(shù)：3625次

HBase存儲特點

hbase
* Client
1. 包括訪問HBase的接口，并保護cache來加快對HBase的訪問，比如region的位置信息。
* Zookeeper：
1. 選舉集群中的Master，Master與RegionServers 啟動時會向ZooKeeper注冊。
2. 存儲所有Region的尋址入口。
3. 實時監(jiān)控Region server狀態(tài)并實時通知Master。
4. 存儲HBase的schema和table元數(shù)據(jù)。
5. 使Master不存在單點故障。
* Master
1. 在Region Split后，為Region server分配region。
2. 管理HRegionServer的負載均衡，調(diào)劑Region散布。
3. 發(fā)現(xiàn)失效的Region server后重新分配其上的region，并負責(zé)Regions遷移。。
4. 管理用戶對table的增刪改查操作。
* Region Server
1. Regionserver保護region，處理對這些region的IO要求，向HDFS文件系統(tǒng)讀寫數(shù)據(jù)。
2. Regionserver負責(zé)切分在運行進程中變得過大的region。
* Region
1. table依照行分割成若干Region，每一個Region對應(yīng)table中的1個Region。
2. Region由多個HStore組成。
* HLog
1. 類似mysql的binlog，數(shù)據(jù)會先寫到WAL上，然后再放到內(nèi)存中，數(shù)據(jù)恢復(fù)。
2. 已持久化到StoreFile的HLog會定期被刪除。
* HStore
1. HBase的存儲核心，由MemStore和StoreFile組成。
2. 每一個HStore對應(yīng)Table的1個列族的存儲。
* MemStore
1. 數(shù)據(jù)不直接寫磁盤而是先寫到MemStore，當(dāng)滿了才會Flush到StoreFile中。
2. 底層由HFile實現(xiàn)。
3. 數(shù)據(jù)只需寫入到此內(nèi)存便可返回，快速的插入操作。
* StoreFile
1. StoreFile文件數(shù)到1定閥值會觸發(fā)Compact合并操作，多個StoreFile變成1個StoreFile。
2. 所有數(shù)據(jù)操作都是添加操作，保證I/O，而對數(shù)據(jù)更新/刪除都是在后續(xù)compact進程中完成。

底層存儲

HBase支持很多文件系統(tǒng)的存儲。
1. 操作系統(tǒng)原生文件系統(tǒng)。
2. HDFS文件系統(tǒng)。
3. 其他文件系統(tǒng)。

HDFS可靠性高及其同屬同個生態(tài)，選擇HDFS作為存儲。

HBase 如何尋址

尋址進程大致為client -> -ROOT- -> .META. -> RS ->region -> rowkey。

client通過zookeeper的root-region-server節(jié)點獲得哪一個Server管理-ROOT-表，包括該機器的IP地址和端口。
接著訪問-ROOT-表，該表只有1個Region且不會split，每行記錄了.META.表的1個region信息，和這個region的startkey和endkey，查找到.META.表包括要查的rowkey記錄的Region的ip和端口。
接著訪問該ip和端口的.META.表，根據(jù)rowkey找到用戶表數(shù)據(jù)寄存對應(yīng)的Region的機器信息，根據(jù)rowkey查找對應(yīng)的regionserver和region。最后到對應(yīng)的region找到value。
根據(jù)查到的用戶表信息到對應(yīng)機器上查找數(shù)據(jù)。

客戶端會緩存查詢過的rowkey的地址。

client訪問hbase上數(shù)據(jù)的進程其實不需要master參與（尋址訪問zookeeper和region server，數(shù)據(jù)讀寫訪問region server），master僅僅保護table和region的元數(shù)據(jù)信息，負載很低。