HBase基础知识

hbase:
分布式面向列的数据库，构建在hadoop之上，对海量结构化数据的快速随机访问。是hadoop生态系统的一部分，提供随机实时读写。
hbase和hadoop的区别：
hdfs hbase
1.分布式文件系统，存储大量数据数据库
2.不支持快读单个记录查找支持大表的快速查找
3.提供了高延迟批处理提供了单行记录低延迟随机访问(10亿级别)
4.只是提供数据按序访问内部使用hash表提供的随机访问，在hdfs上存放索引文件，用于快速查找。
hbase存储机制：
1.面向列族的数据库，适用于海量数据的随机读写
2.table中只定义了列族，表按照row存储
3.table:表，是row的集合
row：行，是列族的集合
column family：列族，是列的集合
column：列，是kv对的集合
hbase和rdbms区别：
hbase rdbms
1.无模式的，没有列的定义有模式的，描述整个table表
只定义列族，列是key
2.适合于宽表，水平可伸缩适合于小表，难于扩展
3.没有事务支持事务性
4.不是规范化的规范化
5.结构化和半结构化结构化
hbase架构：
1.master-slave主从结构
2.table从竖直方向进行切割，分成若干个区域，由每个regionserver(rs,区域管理器)进行处理
3.master server(ms)
a.负责指派region给rs，通过zk获得task的帮助
b.处理跨rs的region的负载均衡问题
c.从繁忙服务到空闲服务器之间的数据转载
d.通过裁定负载均衡判断集群的状态
4.region：
被切割的表，跨rs
5.region server(rs)
和client通信
处理数据操作
处理它下面的所有region的读写请求
通过阈值觉得region size的大小