TDH-search汇报理解

题目：海量数据查询
开头：
1.自我介绍；
2.题目切入：
什么是海量数据查询？（海量数据，快速，符合要求）
几个常用场景（搜索引擎，百度；话单查询；影像平台，高铁）
3.展示目录：架构，案例，平台规划
4.架构，常用需求的切入：
高并发qps;
全文搜索（模糊查询，类似sql like；近义词；有PDF,WORD,文本等解析能力）；
固定查询（固定字段，可组合查）；
灵活查询（任意字段，随意组合查）；
非结构化数据存储（小文件，半结构，非结构数据，图片视频之类）
5.hyperbase介绍
来源：基于hbase，hbase基于Google bigtable;
定义：列式，key-value,分布式数据库；
特性：稳定健壮；多个运维工具针对集群维护；完善的sql支持（inceptor）；
超高并发支持；支持多种索引；高速入库；高效分析；非结构化支持。
6.search介绍
1.擅长做灵活查询，全文搜索；
2.比solr，es优点：做了大量工作，单节点（单实例，2T*12）容量增加到15-20T左右；
冷热数据隔离；提高压缩比，压缩速率；高速检索分析；
堆外内存管理：解释单节点容量能达到20T问题；管理jvm最大30G，索引+segment占用内存，把堆内存解放
放在堆外，扩展了内存，提高了IO效率，减少了GC次数；
支持sql2003标准；
3.另外的工作：基于时空地理信息的高效处理；
7.关键字对应的解决方案
高并发：hyperbase，search（1w,300）;
全文搜索：search；
灵活查询：search；
固定查询：hyperbase>search
非结构存储：hyperbase
8.场景组合：
高并发+固定查询：柜面查询，话单查询，历史记录查询，交易记录查询；
注意点：
hbase和search不适合做join（join需求只适合小表10W以下，返回1W以内）；
hbase和search都不适合做聚合和排序，除非返回数据较少
9.案例解决方案
1.挑战：持续增长数据，数据类型多样
2.解决方案：TDH
3.效果：硬件成本1/3；千亿级数据秒级返回；PB级别数据的存储和检索；时空分析秒级响应
4.框图：主线:数据源（结构化，非结构化）组件（hyperbase，search），功能，平台，场景应用
10.检索场景评估：
1.hyperbase：裸容量=原始数据量*（1+20%膨胀）*3副本/3(压缩率)；
2.search：裸容量=原始数据量*（1+100%膨胀）*（1+1）副本；
11.hyperbase性能指标：
1.单个regionserver建议不超过4000*7=28T的存储容量；
2.bulkload入库：20-30M/s；
3.API入库：10M/s；
4.索引入库：带1个索引，入库性能降低20%；
5.rebuild时间：10M/S/机器；
12.search 性能指标：
1.查询：ms级别；
2.并发：上限300qps;
3.rebuild时间：search不开副本1W/tps,开副本5000/tps；
4.search处理上限：单实例15T，开源6T