2015年总结

时光如梭,稍不留神,就又到年底了。每至此时,都不免有些感慨,除了脸上增加的皱纹,岁月还带给了我一些什么呢?

2015年,可谓平静又有波澜。辞掉了一份平静如水的工作,踏上了快节奏的工作路途。毕业至此2年有余,一至在想自己到底需要什么样的生活、适合什么样的工作,在平静安逸的工作中挣扎、纠结每天的无所事事的状态,自己并不喜欢。心理学上说:人要取得进步,就必须不断突破自己的心理舒适区,进入不适应状态,不断挑战自己,才能激发自己的潜能。是时候改变这种现状了,于是在年中的时候辞去了原先的工作,告别了安逸、舒适的工作环境,来到了现在的公司。工作内容有些宽泛,算法、数据分析、软件开发,都有所涉及,相对于之前的一份工作狭窄的工作内容,现在的工作涉及的东西要广泛的多,每天也需要接触和学习很多新的知识。因此相对来说,尽管现在的工作要忙碌很多,但是心理上还是更加欣慰。

作为一个互联网行业新兵,无论是在技术上还是业务理解上,都是处于入门阶段,因此要填的坑、要学习的东西也很多。由于之前做的工作是医疗设备数据的分析与挖掘,数据存储方式同一、数据质量好,大部分工作集中在分析阶段,前期的数据预处理工作相对较少,更多的精力投入在算法设计和分析上面。然而,互联网和医疗行业的数据差别甚大、互联网的数据基本是异元异构的,而且质量上相当差,因此分析的手法和医疗行业来讲差别也非常大。从数据挖掘人员的角度,技术层面来看,如何从复杂异元的数据库获取数据,同一个用户的数据可能同时分布在hbase、mysql等多个异构的数据库中,同时数据还是异构的,每个数据库存储数据的格式都有所不同,甚至同一个数据库、比如hbase,由于其是高度可扩展的,因此不同时间段的数据格式都不一样,因此有效获取数据是每个数据分析人员都需要面对的问题;同时,获取得到的数据受噪声的干扰严重,不同时间的数据粒度也不一样,因此,在得到数据之后,还需要对数据作一些去噪、归一化等预处理的操作,才能得到一份基本可用的数据集。供后面继续进行分析、挖掘。对比来看,互联网行业的数据挖掘涉及的工作范围更广泛,不仅要有业务理解和分析能力,同时还需要掌握一定的计算机、数据库知识、甚至有时候还需要去了解前段如何获取到数据、后台又是如何转化数据、存储数据的,更全面的了解,后续的数据获取、预处理及分析工作都会更加顺利。在这个过程中,自己在数据获取上走的相对坎坷,之前对hbase、spark、hive这一套hdfs的工具学习不足,获取数据时就显得力不从心,在工作中才慢慢的把这些东西摸熟,同时官网上的文档、实例都相当详细,对于日常工作基本够用了。 同时,从数值数据、图像数据,转向文本数据,在这一过程中,分词、关键词抽取、词向量化、语义相似度的计算,都是文本数据挖掘的要点,很多都需要根据自己的行业特点和需要进行重新定义和设计。

如果把数据挖掘工作者看作一位厨师的话,分析、挖掘就好比厨师的煎炒烹炸,决定了最终的菜色和味道,而数据提取、预处理就好比选材、切菜,看的是厨师对菜的构思和刀工,一样至关重要。希望未来的自己,能够成为一位好厨师。

十年树木,相信做任何事情都是一个厚积薄发的过程,stay hungry stay foolish,送给2016年的自己。

原文地址:https://www.cnblogs.com/cl1024cl/p/6205041.html