Hbase

Hbase介绍

• HBase是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的BigTable建模，实现的编程语言为 Java。

• 是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，因此可以容错地存储海量稀疏的数据。

• 特性：

　　– 高可靠

　　– 高并发读写

　　– 面向列

　　– 可伸缩

　　– 易构建

行存储 vs 列存储

• 行存储：

　　– 优点：写入一次性完成，保持数据完整性

　　– 缺点：数据读取过程中产生冗余数据，若有少量数据可以忽略

• 列存储

　　– 优点：读取过程，不会产生冗余数据，特别适合对数据完整性要求不高的大数据领域

　　– 缺点：写入效率差，保证数据完整性方面差

Hbase 优势

• 海量数据存储

• 快速随机访问

• 大量写操作的应用。

Hbase 应用场景

• 互联网搜索引擎数据存储

• 海量数据写入

• 消息中心

• 内容服务系统（schema-free）

• 大表复杂&多维度索引

• 大批量数据读取

Hbase 数据模型

• RowKey：是Byte array，是表中每条记录的“主键”，方便快速查找，Rowkey的设计非常重要。

• Column Family：列族，拥有一个名称(string)，包含一个或者多个相关列

• Column：属于某一个columnfamily，familyName:columnName，每条记录可动态添加

• Version Number：类型为Long，默认值是系统时间戳，可由用户自定义

• Value(Cell)：Byte array

三维有序：

Hbase 物理模型

• Hbase一张表由一个或多个 Hregion组成

• 记录之间按照Row Key的字典序排列

• Region按大小分割的，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，Hregion就会等分会两个新的Hregion。当table中的行不断增多，就会有越来越多的 Hregion。

• 表 -> HTable

• 按RowKey范围分的Region-> HRegion ->Region Servers

• HRegion按列族（Column Family） ->多个HStore

• HStore -> memstore + HFiles(均为有序的KV)

• HFiles -> HDFS

• HRegion是Hbase中分布式存储和负载均衡的最小单元。

• 最小单元就表示不同的 Hregion可以分布在不同的 HRegion server上。

• 但一个Hregion是不会拆分到多个server上的。

• HRegion虽然是分布式存储的最小单元，但并不是存储的最小单元。

Hbase 系统架构

• Client

　　– 访问Hbase的接口，并维护Cache加速Region Server的访问

• Master

　　– 负载均衡，分配Region到RegionServer

• Region Server

　　– 维护Region，负责Region的IO请求

• Zookeeper

　　– 保证集群中只有一个Master

　　– 存储所有Region的入口（ROOT）地址

　　– 实时监控Region Server的上下线信息，并通知Master

Hive整合Hbase

• HBase是被设计用来做k-v查询的，但有时候，也会遇到基于HBase表的复杂统计，写MR很不方便。Hive考虑到了这点，提供了操作HBase表的接口。

• Hive读取HBase表，通过MR,最终使用HiveHBaseTableInputFormat来读取数据，在getSplit()方法中对 HBase表进行切分，切分原则是根据该表对应的 HRegion，将每一个Region作为一个InputSplit，即，该表有多少个Region,就有多少个Map Task；

• 每个Region的大小由参数hbase.hregion.max.filesize控制，默认10G，这样会使得每个map task处理的数据文件太大，map task性能自然很差；

• 为HBase表预分配Region，使得每个Region的大小在合理的范围；

• 创建Hbase表：

　　– create 'classes','user'

• 加入数据：

　　– put 'classes','001','user:name','jack'

　　– put 'classes','001','user:age','20'

　　– put 'classes','002','user:name','liza'

　　– put 'classes','002','user:age','18'

• 创建Hive表并验证：

　　– create external table classes(id int, name string, age int)

　　– STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

　　– WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,user:name,user:age")

　　– TBLPROPERTIES("hbase.table.name" = "classes");

• 再添加数据到Hbase：

　　– put 'classes','003','user:age','1820183291839132'

参考资料

八斗大数据