数据分析总结与感悟

小生今年研二,从事软件数据分析与挖掘不到两年。两年里小生忙忙碌碌,从来没有总结过自己的工作,今天暂停住忙碌的脚步,随意书写几行文字,权当忙里偷闲总结这两年数据分析与研究的经历与体悟。大家共勉!

   分析数据其实说难也难说简单也是简单的。分析的难点在于初始分析某个专业领域的数据是“无从下手”的,数据量之大,种类之多,更新速度之快真的会让所有 分析人员摸不着头脑。此时,最重要的就是多看数据了,人工一条一条的解读数据,刚开始最基本的还是解决what的问题,数据的方方面面,不同的属性代表什 么意思,属性之间是否有关联关系等等都是解读数据初期需要完成的目标。当然这个过程是痛苦的,万事开头难嘛!

  难点之二在于寻找分析的目 标,也就是暂定分析时要解决的问题,这可不是我们小生菜鸟能解决的问题。此时,真正需要的就是与专业领域内大牛讨论学习了,不然刚开始为什么说需要学徒 呢!(学徒可不是指找个师傅帮你完成解决问题时的困难,而是以师傅的“格局”开阔的视野帮助我们找需要解决的问题。玛蛋,听起来是不是很欠!)好了,问题 确定了,分析的目标也就确定了,不过此时的问题之抽象不是一般人能想象的,如果能搞懂问题你也算是“大牛”了!这也就是分析数据的难点之一了。搞不懂问题 主要还是对数据理解不深,还是要继续人工看数据。不过小生要恭喜你的是你升级了,此时看数据再也不是解决what了,而是应该心中带着问题,带着分析的目 标验证数据,看看数据是否真的存在这些问题,或者寻找解决问题的角度。

  到这一步,下面就是要解决how的问题了,也许需要寻找数据内部 的规律,此时可能需要做一些统计核实规律的普遍性。不过到这一步应该本领域的数据比较熟悉了,分析起来也不觉得那么难受了(实现自己的想法还是挺有意思 的),结合分析目标也许自己可以提出一些技术方法实现一些技术路线。后面就是建模验证技术的可行性和有效性了。模型里可能有一些参数需要调整,这些参数的 值不同便会影响模型的结果,因此训练数据集此时很重要,不过这个小生感悟还不是很多,毕竟数据分析才搞了两年,之前对训练的数据也只是做了一些分组,主要 分为训练集和实验集。训练集是为了调整模型参数的,而实验集主要用来验证模型的有效性。

  

  感谢大家耐得住寂寞,挺得住烦恼,看完这一行行无聊的文字。也许您会批评两句,建议几点!谦虚学习,高调做事,诚恳待人,一向是小生待人处事的原则。感谢大家的关注,大家的建议!

原文地址:https://www.cnblogs.com/huiyang865/p/5554119.html