How Hbase store data in HDFS 数据在Hbase上的存储形式，Hbase 知识点概述

列族的最佳个数应该是一个或两个，不应该超过3 个<---- from apache.com
标签个数没有限制

数据是以二进制存储在Hbase （hbase 更像是一个数据管理系统，数据存储在HDFS中，这一点与DB2 和 oracle 类似，关系数据库数据存储在磁盘上）中，

所以在通过java API操作Hbase时候，需要通过.getBytes() 转化成字节码形式

单元格 Cell 是基本存储单元，一行数据是有一个cell 加上一个rowkey 加上 timestamp 组成的，这迫使设计人员用简单，短小的rowkey 来节省存储空间。

同时 rowkey 上应该承载一些重要的业务信息。

一个cell 是有列族和列标签（CFOne：gender）以及值（value = “男”）组成的。

Example ：

scan 'tablename'

1531187321_20161230224431                        column=cfOne:addr,    timestamp=1466343766398, value=Shanghai
1531187321_20161230224431                        column=cfOne:phone, timestamp=1466343766398, value=153765324169
1531187321_20161230224431                        column=cfOne:time, timestamp=1466343766398, value=218
1531187321_20161230224431                        column=cfOne:type,      timestamp=1466343766398, value=1

Hbase 思想是？

百度百科似乎解释的还不错

http://baike.baidu.com/link?url=Iy3VSkddq3HH-vzedzOIGakgwjg7qf49M5keEdCPHafH3qZEcbEvxVTH_y7wRQmrGt2L0FveKKifCsAf_cKKOq

Hbase 不支持join

Hbase 简介

Hbase --hadoop database 是一个高可靠性高性能面向列可伸缩实时读写的分布式数据库

利用Hadoop hdfs 作为其文件存储系统，利用 MapReduce 处理Hbase 中的海量数据，利用zookeeper 作为分布式协同服务

主要用来存储非结构化半结构松散数据

Zookeeper

保证任何时候集群中只有一个Master

存储所有Region 的寻址入口

实时监控Region server 的上线和下线信息，并实时通知Master

存储Hbase的schema 和 table 元数据

Master

为Region server 分配 region

负责region server 的负载均衡

为失效的region server 重新分配其上的 region

管理用户对table 的ddl dml 操作

Regionserver

维护 region 处理这些region 上的IO请求

负责切分在运行过程中变大的region