前阶段学习工作总结，下一步计划

　　在工作的时空下，相比学生时代的时空，时间这个维度上的速度貌似变快了不少；虽然天天几乎满脑子的技术，不断的在现有需求技术实现上遇到瓶颈，而刚开始却不是瓶颈，因为刚开始是什么都没有，几乎一片空白。于是需求相对已有技术难以实现，毫无疑问得益于Java的opensource，经过适当的调研{根据相同需求条件下，网上所体现最普遍，经典的开源解决方案}，就引入了“那个方案”，例如大数据条件下实时搜索的解决方案，就引入了solr，因为已有已经确定了hbase的存在，所以只能solr作为hbase的二级索引。其实像其他的基于hdfs的like SQL、建立索引也好，但是就形成了一个“……”的情况，hbase+solr。

　　一堆废话，自己都比知道讲了什么。面对大数据处理岗的半年工作经验，自己感觉做的东西杂、多、散，而且好像怎个数据处理只是利用mapreduce，封装也在mapreduce的粒度，毫无算法而言。只是简单的数据item提取封装，是一种原始的关系关联处理策略，当然自己个人认为这样肯定不是长久之计；但是回归最原始，又是在mapreduce的粒度进行数据关联，从而处理，这就像比喻，有人到了九重天，然后经常在一重天活动，我没有到九重天，一直在一重天活动，毫无疑问这两个一重天的活动的实际本质是不同的，当你经过实际的相关算法分析了，然后确定最简单的实现，那才是走了整个数据分析处理流程，否则就只是瞎搞，简单的进行了数据处理。这个数据分析处理呀还只是所有"数据流"中多且重要的部分，但是他是有前提的，数据流程设计，数据结构设计，比喻：流程,avro-hadoop-hbase-solr-web,数据结构设计，比如特别重要的solr的schema，hbase的rowkey以及表schema，当然这是局部的结构设计，可以称为数据结构设计。另外还有集群结构设计，那么就是两方面，一在集群粒度上面进行设计，比如Hadoop集群的NN{1+}，DN等，二是底层infrastructure【各个集群集成及关系】设计【】，暂时只是模仿apatche大数据处理生态圈以及各商业公司的数据处理解决方案等。其中为了方便集群调优搭建了ganglia+nagios集群监控管理系统，但很无奈得不到公司的使用，然后……，也就只是作为自己的技术实现，没有得到商业应用，更没有创造出商业价值，哀哉！！！！！！！！！！！！！其中由于机器原因【1.7 4g】作为solr，入库速度一直不满意，cpu【ganglia】爆表，找了很多资料，没有解决，最后想将数据用MQ放到磁盘？？？？？？？？？其中自己想将整个solr indexing动作放到mapreduce实现【no ，……】，奈何……，不得而终。

　　总而言之，最常用的就是solr、hbase 的 official reference guide，还有感谢 itbook，差不多形成了半个月 700pages的英文书籍阅读习惯，这是个好东西，希望自己永远坚持下来，将这个习惯在自己的生活中永远的使用；做了的东西也只是在使用的方面，比如Hadoop、solr、hbase、zookeeper、java、ganglia、nagios、等spark读了两三本书流程清楚更Hadoop差不多{相对编码}，但没有商用。其中从语言的角度出发，Java mapreduce 进行数据分析处理、shell进行集群的相关操作。

　　然后下一步，有三个部分，根据重要性【仅个人】Java mapreduce 算法封装，深入研究，Hadoop 层面数据检索学习【】，非solrcloud层面，shell集群相关。最重要的就是对已有的进行维护、跟进。