2015年总结

时光如梭，稍不留神，就又到年底了。每至此时，都不免有些感慨，除了脸上增加的皱纹，岁月还带给了我一些什么呢？

2015年，可谓平静又有波澜。辞掉了一份平静如水的工作，踏上了快节奏的工作路途。毕业至此2年有余，一至在想自己到底需要什么样的生活、适合什么样的工作，在平静安逸的工作中挣扎、纠结每天的无所事事的状态，自己并不喜欢。心理学上说：人要取得进步，就必须不断突破自己的心理舒适区，进入不适应状态，不断挑战自己，才能激发自己的潜能。是时候改变这种现状了，于是在年中的时候辞去了原先的工作，告别了安逸、舒适的工作环境，来到了现在的公司。工作内容有些宽泛，算法、数据分析、软件开发，都有所涉及，相对于之前的一份工作狭窄的工作内容，现在的工作涉及的东西要广泛的多，每天也需要接触和学习很多新的知识。因此相对来说，尽管现在的工作要忙碌很多，但是心理上还是更加欣慰。

作为一个互联网行业新兵，无论是在技术上还是业务理解上，都是处于入门阶段，因此要填的坑、要学习的东西也很多。由于之前做的工作是医疗设备数据的分析与挖掘，数据存储方式同一、数据质量好，大部分工作集中在分析阶段，前期的数据预处理工作相对较少，更多的精力投入在算法设计和分析上面。然而，互联网和医疗行业的数据差别甚大、互联网的数据基本是异元异构的，而且质量上相当差，因此分析的手法和医疗行业来讲差别也非常大。从数据挖掘人员的角度，技术层面来看，如何从复杂异元的数据库获取数据，同一个用户的数据可能同时分布在hbase、mysql等多个异构的数据库中，同时数据还是异构的，每个数据库存储数据的格式都有所不同，甚至同一个数据库、比如hbase，由于其是高度可扩展的，因此不同时间段的数据格式都不一样，因此有效获取数据是每个数据分析人员都需要面对的问题；同时，获取得到的数据受噪声的干扰严重，不同时间的数据粒度也不一样，因此，在得到数据之后，还需要对数据作一些去噪、归一化等预处理的操作，才能得到一份基本可用的数据集。供后面继续进行分析、挖掘。对比来看，互联网行业的数据挖掘涉及的工作范围更广泛，不仅要有业务理解和分析能力，同时还需要掌握一定的计算机、数据库知识、甚至有时候还需要去了解前段如何获取到数据、后台又是如何转化数据、存储数据的，更全面的了解，后续的数据获取、预处理及分析工作都会更加顺利。在这个过程中，自己在数据获取上走的相对坎坷，之前对hbase、spark、hive这一套hdfs的工具学习不足，获取数据时就显得力不从心，在工作中才慢慢的把这些东西摸熟，同时官网上的文档、实例都相当详细，对于日常工作基本够用了。同时，从数值数据、图像数据，转向文本数据，在这一过程中，分词、关键词抽取、词向量化、语义相似度的计算，都是文本数据挖掘的要点，很多都需要根据自己的行业特点和需要进行重新定义和设计。

如果把数据挖掘工作者看作一位厨师的话，分析、挖掘就好比厨师的煎炒烹炸，决定了最终的菜色和味道，而数据提取、预处理就好比选材、切菜，看的是厨师对菜的构思和刀工，一样至关重要。希望未来的自己，能够成为一位好厨师。

十年树木，相信做任何事情都是一个厚积薄发的过程，stay hungry stay foolish,送给2016年的自己。