数据分析系列精彩浓缩(一)

什么是数据分析?

  • 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。

  • 具体对数据分析做了解通过下方提供的连接:

  • https://baike.baidu.com/item/数据分析/6577123?fr=aladdin

  •  

为什么要数据分析?

  • 希腊有一个著名的谷堆悖论。“如果1粒谷子落地不能形成谷堆,2粒谷子落地不能形成谷堆,3粒谷子落地也不能形成谷堆,依此类推,无论多少粒谷子落地都不能形成谷堆。但是,事实并非如此。” 这个悖论说的,就是告诉我们量变产生质变,需要一个明显的分割线。如果说,量是一个量化的数据,质是一个结论的话。那么,数据分析做的,就是要分析量,从而引向“定性”、”定质"。定量的了解历史的规律(“质”),从而预测未来。

  • 互联网时代的到来,掀起了工业革命后的浪潮,让我们又重新认识了这个世界,而且从中获得了很多有用的信息,包括日常生活,工作,学习,旅游,创业,投资,天文,军事方方面面,越来越多的信息刷新着我们的大脑,刺激着神经,网上购物已经是我们的日常应用。随着技术和科研的进步,出现了无人驾驶车,无人商店,无人酒店等等,是什么支撑着这些看似很神秘的东西呢。毋庸置疑,那就是数据分析的伟大胜果。

如何进行数据分析?

一般流程:

“数据获取-数据存储-数据清洗-Python数据建模与分析-数据可视化与报告”

  • 这才是我们要讨论的重点

  • 我们已经搭建好了python环境,是我们分析数据的强大工具和发挥个人魅力的利器(皮一下)

  • 首先要有数据来源,对于刚开始学习的我们,美国加州大学尔湾分校([https://uci.edu UCI])为我们提供了海量免费数据库供我们实验使用

    • 这里提供段老师的详细引导资料

      • [http://archive.ics.uci.edu/ml/datasets.html 点这里]可以带你进入数据的海洋。 [[文件:UciMain.png|缩略图|点击看大图]]

        • 左边的一列是数据库根据行业/学科的分组

        • 中间那些个大大的就是实际的数据库了

        • 右上搜索条可以根据关键字搜索数据库

        • 在这里能看到一些数据库的重要基本信息方便我们选择

          • Name:名字

          • Data Types:数据类型(单变量、多变量、文字、图像等)

          • Default Task:默认任务类型(分类、分组、回归等)

          • Attribute Type:特征类型(整数、实数、分组(男、女)等)

          • #Instances:(数据量)

          • #Attributes:(特征量)

    • 简单实例:信用批准问题(Credit Approval)。

      • 我们知道,美国个人中小额贷款大多为信用贷款而非抵押贷款。那么“信用”该如何量化,对于不同的人该如何确定是否批准他的信用贷款呢?

        • 请点击:[http://archive.ics.uci.edu/ml/datasets/Credit+Approval Credit Approval]: [[文件:CreditApproval.png|缩略图|点击看大图]]

        • 这里我们最需要关注的就是最上面的两个按钮和那个小图表了

        • Data Folder:点开进入下载页面,这里面就是实际的数据库和可能有的说明文件

        • Data Description:解释数据的详细信息,如每个特征的可能变量和具体代表

        • 小图表中包含了更详细的数据库的详细信息。

        • 确定了一个要用的数据库,我们就可以在Data Folder里下载,整理(清理)并使用啦!

    总得来说这些数据在初级阶段实验各种模型还是很有用的。有一个对某个数据库来说看起来美好的模型,我们在抓取数据的时候也可以以这个“某个数据库”为蓝本做工作。

    还有很多别的提供数据库的网站,这里不一一赘述了。贴一个连接抛砖引玉:[https://www.kaggle.com/ 近几年很火的网站Kaggle]

ok 根据目前段老师引领的风向呢 个人觉得 我们的要干的是Python数据建模与分析
  • 至于怎么建模等 见后续

  • 2018-12-26

原文地址:https://www.cnblogs.com/jcjc/p/10178127.html