面试题

1.给40亿个不重复的unsigned int的证书，没排过序，然后再给一个数，如果快速判断这个数不再这40亿个数当中？

2.采集nginx产生的日志，日志格式为user ip time url htmlID 每天产生的文件数量上亿条，请设计方案把数据保存到hdfs上，并提供一下实时查询功能（相应时间小于3s）？

　　a　　某个用户某天访问某个URL的次数

　　b　　某个URL某天被访问的总次数

3.datanode首次加入cluster的时候，如果log报告不兼容文件版本，那需要namenode执行格式化操作，这样处理的原因是？

4.描述Hbase中scan和get的功能以及实现的异同？

5.简述Hbase数据操作步骤以及Hlog功能？

6.hadoop中job和task之间的区别是什么？

7.hadoop节点动态上线下线怎么操作？

8.hbase二级索引的描述，哪些是正确的（）a 核心是倒排序 b 二级索引概念是对应Rowkey这个“一级”索引 c 二级索引使用平衡二叉树 d 二级索引使用LSM结构

9.mapreduce与hbase的关系，哪些描述是正确的？（）a 2者不可或缺，mapreduce是hbase可以正常运行的保证 b 2者不是强关联，没有mapreduce，hbase可以正常运行c ···········mapreduce可以直接访问hbaes d 他们没有任何关系

10.hbase依赖？提供消息通信机制 a zookeeper b chubby c RPC d Socket

11 hfile数据格式中的metaindex字段用于？ a meta快的长度 b meta快的结束点 c meta快的数据结构 d meta块的起始点

12secondryNamenode？个正确 a