Hbase

Hbase介绍

• HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现 的编程语言为 Java。

• 是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,因此可以容错地存 储海量稀疏的数据。

• 特性:

  – 高可靠

  – 高并发读写

  – 面向列

  – 可伸缩

  – 易构建

行存储 vs 列存储

• 行存储:

  – 优点:写入一次性完成,保持数据完整性

  – 缺点:数据读取过程中产生冗余数据,若有少量数据可以忽略

• 列存储

  – 优点:读取过程,不会产生冗余数据,特别适合对数据完整性要求不高的大数据领域

  – 缺点:写入效率差,保证数据完整性方面差

Hbase 优势

• 海量数据存储

• 快速随机访问

• 大量写操作的应用。

Hbase 应用场景

• 互联网搜索引擎数据存储

• 海量数据写入

• 消息中心

• 内容服务系统(schema-free)

• 大表复杂&多维度索引

• 大批量数据读取

Hbase 数据模型

• RowKey:是Byte array,是表中每条记录的“主键”,方便快速查找,Rowkey的设计非常重要。

• Column Family:列族,拥有一个名称(string),包含一个或者多个相关列

• Column:属于某一个columnfamily,familyName:columnName,每条记录可动态添加

• Version Number:类型为Long,默认值是系统时间戳,可由用户自定义

• Value(Cell):Byte array

三维有序:

Hbase 物理模型

• Hbase一张表由一个或多个 Hregion组成

• 记录之间按照Row Key的字典 序排列

• Region按大小分割的,每个表 一开始只有一个region,随着 数据不断插入表,region不断 增大,当增大到一个阀值的时 候,Hregion就会等分会两个 新的Hregion。当table中的行 不断增多,就会有越来越多的 Hregion。

               

• 表 -> HTable

• 按RowKey范围分的Region-> HRegion ->Region Servers

• HRegion按列族(Column Family) ->多个HStore

• HStore -> memstore + HFiles(均为有序的KV)

• HFiles -> HDFS

• HRegion是Hbase中分布式存 储和负载均衡的最小单元。

• 最小单元就表示不同的 Hregion可以分布在不同的 HRegion server上。

• 但一个Hregion是不会拆分到 多个server上的。

• HRegion虽然是分布式存储的 最小单元,但并不是存储的最 小单元。

         

Hbase 系统架构

• Client

  – 访问Hbase的接口,并维护Cache加速Region Server的访问

• Master

  – 负载均衡,分配Region到RegionServer

• Region Server

  – 维护Region,负责Region的IO请求

• Zookeeper

  – 保证集群中只有一个Master

  – 存储所有Region的入口(ROOT)地址

  – 实时监控Region Server的上下线信息,并通知Master         

     

Hive整合Hbase

• HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统 计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。

• Hive读取HBase表,通过MR,最终使用HiveHBaseTableInputFormat来读取数 据,在getSplit()方法中对 HBase表进行切分,切分原则是根据该表对应的 HRegion,将每一个Region作为一个InputSplit,即,该表有多少个Region,就 有多少个Map Task;

• 每个Region的大小由参数hbase.hregion.max.filesize控制,默认10G,这样会 使得每个map task处理的数据文件太大,map task性能自然很差;

• 为HBase表预分配Region,使得每个Region的大小在合理的范围;

• 创建Hbase表:

  – create 'classes','user'

• 加入数据:

  – put 'classes','001','user:name','jack'

  – put 'classes','001','user:age','20'

  – put 'classes','002','user:name','liza'

  – put 'classes','002','user:age','18'

• 创建Hive表并验证:

  – create external table classes(id int, name string, age int)

  – STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

  – WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,user:name,user:age")

  – TBLPROPERTIES("hbase.table.name" = "classes");

• 再添加数据到Hbase:

  – put 'classes','003','user:age','1820183291839132'

参考资料

八斗大数据

原文地址:https://www.cnblogs.com/xumaomao/p/11777308.html