前阶段学习工作总结,下一步计划

  在工作的时空下,相比学生时代的时空,时间这个维度上的速度貌似变快了不少;虽然天天几乎满脑子的技术,不断的在现有需求技术实现上遇到瓶颈,而刚开始却不是瓶颈,因为刚开始是什么都没有,几乎一片空白。于是需求相对已有技术难以实现,毫无疑问得益于Java的opensource,经过适当的调研{根据相同需求条件下,网上所体现最普遍,经典的开源解决方案},就引入了“那个方案”,例如大数据条件下实时搜索的解决方案,就引入了solr,因为已有已经确定了hbase的存在,所以只能solr作为hbase的二级索引。其实像其他的基于hdfs的like SQL、建立索引也好,但是就形成了一个“……”的情况,hbase+solr。

  一堆废话,自己都比知道讲了什么。面对大数据处理岗的半年工作经验,自己感觉做的东西杂、多、散,而且好像怎个数据处理只是利用mapreduce,封装也在mapreduce的粒度,毫无算法而言。只是简单的数据item提取封装,是一种原始的 关系关联 处理 策略,当然自己个人认为这样肯定不是长久之计;但是回归最原始,又是在mapreduce的粒度进行数据关联,从而处理,这就像比喻,有人到了九重天,然后经常在一重天活动,我没有到九重天,一直在一重天活动,毫无疑问这两个一重天的活动的实际本质是不同的,当你经过实际的相关算法分析了,然后确定最简单的实现,那才是走了整个数据分析处理流程,否则就只是瞎搞,简单的进行了数据处理。这个数据分析处理呀还只是所有"数据流"中多且重要的部分,但是他是有前提的,数据流程设计,数据结构设计,比喻:流程,avro-hadoop-hbase-solr-web,数据结构设计,比如特别重要的solr的schema,hbase的rowkey以及表schema,当然这是局部的结构设计,可以称为数据结构设计。另外还有集群结构设计,那么就是两方面,一在集群粒度上面进行设计,比如Hadoop集群的NN{1+},DN等,二是底层infrastructure【各个集群集成及关系】设计【】,暂时只是模仿apatche大数据处理生态圈以及各商业公司的数据处理解决方案等。其中为了方便集群调优搭建了ganglia+nagios集群监控管理系统,但很无奈得不到公司的使用,然后……,也就只是作为自己的技术实现,没有得到商业应用,更没有创造出商业价值,哀哉!!!!!!!!!!!!!其中由于机器原因【1.7 4g】作为solr,入库速度一直不满意,cpu【ganglia】爆表,找了很多资料,没有解决,最后想将数据用MQ放到磁盘?????????其中自己想将整个solr indexing动作放到mapreduce实现【no ,……】,奈何……,不得而终。

  总而言之,最常用的就是solr、hbase 的 official reference guide,还有感谢 itbook,差不多形成了 半个月 700pages的英文书籍阅读习惯,这是个好东西,希望自己永远坚持下来,将这个习惯在自己的生活中永远的使用;做了的东西也只是在使用的方面,比如Hadoop、solr、hbase、zookeeper、java、ganglia、nagios、等spark读了两三本书流程清楚更Hadoop差不多{相对编码},但没有商用。其中从语言的角度出发,Java mapreduce 进行数据分析处理、shell进行集群的相关操作。

  然后下一步,有三个部分,根据重要性【仅个人】Java mapreduce 算法封装,深入研究,Hadoop 层面数据检索学习【】,非solrcloud层面,shell集群相关。最重要的就是对已有的进行维护、跟进。

原文地址:https://www.cnblogs.com/lkzf/p/4658261.html