数据挖掘分析流程~简介

  前言:大数据和人工智能相信大家都知道,这是未来的趋势,作为一枚程序员居安思危,业务代码什么的都是浮云,数据分析了解

一波。让我们揭开大数据分析的神秘面纱。

  大数据分析其实在实际生活中很常见,京东淘宝智能推荐系统就是其中的代表,通过收集用户行为,分析用户行为,处理用户行为数

据,建立用户行为模型,智能推荐商品。这就是数据分析。

  数据分析挖掘第一步:明确目标

  从上面京东天猫商品推荐系统上,我们也大致知道了数据分析的流程,同时也可以了解到前面的一系列动作,最终就是为了合理的推

商品。也就是说数据分析都是带有目的性的,所以数据分析并不是随便分析,首先需要明确数据分析的目的,比如我数据分析的目的就

为了知道股票行情,知道哪只股票会涨,然后自己赚点小钱钱,ok,我们的目的很明确了。

  数据分析挖掘第二步:数据获取

  有了挖掘目标之后,就需要收集数据了,毕竟是数据分析,没有数据还分析啥。所以明确挖掘目标之后就需要收集数据,像之前我们

的目标是分析股票行情,所以我们下一步就是收集和股票行情相关的数据,这个数据没有人给我们,所以我们需要自立更生,网络上最不

缺的就是数据,而我们就是在海量数据中淘金的人,写个爬虫,各大应用商店APP下载量及评论数据,是我们哒了,再写个爬虫大众点评的

资讯数据,也是我们哒了,总之爬虫是获取网络数据的重要方式,get一波。瞄准各个行业的数据,撸个爬虫,啥数据都有了。还有些情况

是不用写爬虫的,比如有些连锁店也想搞数据分析,毕竟大型连锁店想更合理的发展离不开大数据分析,分析哪款产品好卖,就能提升销

额了,像这种大型连锁店的数据一般都有自己的管理工具管理,我们只需要从数据库里面抽取就可以了。kettle了解下。

  数据分析挖掘第三步:数据探索

  获取了数据就等于走上了人生巅峰,准备迎娶白富美了,不,醒醒!!海量的数据只是贫瘠的沙漠,你不知道下面埋葬的是黄金还是

沙子,获取数据只是走出了人生巅峰的第一步。我们从网络上获取的数据都是混乱无序的,我们不知道这些数据之间有何关联,而数据探

索就是分析数据结构和规律过程,沙漠里淘金的关键一步。

  看到这里可能就比较懵了,沙漠淘金谈何容易,用双手挖是不可能用双手挖的。同样数据探索也不可能靠人力去探索,人之所以是人

就是擅长使用工具,而数据探索也是有工具可用,有方向可循的,漫无目的的寻找不可能到达目的地。在数据探索方面也有2个方向:

据质量分析(缺失值分析,异常值分析,一致性分析)、数据特征分析(分布分析,对比分析,统计量分析,周期性分析,贡献度分析,

相关性分析),掌握相关工具数据探索就变得很容易哒。

  数据分析挖掘第四步:数据处理

  数据探索是给我们指引方向,告诉我们沙漠哪个地方可能有黄金,属于有依据的猜测,就是告诉你“那里可能有黄金,去找吧”,但

是这个范围还是很大,毕竟数据探索只是指个方向,指定范围,不让我们埋头乱窜。所以我们要想挖到黄金还是得再次缩小范围,而数据

处理就能帮我们缩小范围,数据处理包括:数据清洗(缺失值处理、异常值处理)、数据集成(实体识别、冗余属性识别)、数据变换

单函数变换,规范化,连续属性离散化,属性构造,小波变换)、数据规约(属性规约、数值规约)。数据处理的目的在于提高数据的

量,使数据更易于建模。

  数据分析挖掘第五步:数据建模

   万事具备,只差东风。现在你离迎娶白富美只差一个数据建模了,不论是数据探索还是数据处理都是为了数据建模,也就是离黄金的

最后一铲子,当然一铲子下去也有可能是沙子,毕竟我们的分析方向,挖掘方向也是有可能有误差的。建模说的神秘,其实模型的本质就

一个函数,或者说是一个公式,我们通过大量数据推演出的公式,这个公式通过输入得到我们想要的输出。比如我们把后续爬取的股票

行情相关的信息输入公式,得到哪只股票会涨,哪只股票会跌。而这个公式都是通过前面大量的数据分析总结出来的。而推演公式的方法

,或者说建模的方法包括:分类与预测(分类算法,预测算法,回归分析,决策树,人工神经网络)、聚类分析关联规则时系模式

点检

  就像不同地形判断是否有黄金一样,不同的数据和场景,我们需要选择不同的建模方式来达到我们的目的。比如我想给股票分类,分

哪些股票容易涨,哪些容易跌可以使用分类算法(分类算法的的具体原理我们悄悄讨论)。还有预测算法,通过某个现象(变量)会导致

其他现象(因变量)的发生。然后构建公式,输入变量得到因变量的结果。比如输入某公司管理层出现问题的某些问题,预测这个公司的

股票涨跌等等。

  数据分析挖掘第六步:模型评价

  就像前面说的,建模是挖掘黄金的最后一铲子,但是铲下去得到的是黄金还是沙子我们是不清楚的,但是我们可以通过一些手段来提

高是黄金的几率,而提高几率的过程就是模型评价。通过模型测试提高模型的准确率。

  总结:干货是不可能有干货的,我们的主题就是了解数据分析流程哒,干货在哪,期待后续未知的更新,喵喵喵!!!

  

原文地址:https://www.cnblogs.com/guan-520/p/10688075.html