数据分析流程

数据分析流程

数据介绍

数据:
    数据科学(英语:Data Science),又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。
    它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。
    数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://images.gitbook.cn/305484d0-ddb3-11e8-a810-c56af2994f6b")

项目流程

项目介绍:

    开发一套能够评价学生学习情况的软件系统
项目分析:
    理解商业问题 !!1
        对相应的业务有所了解

        从业务中梳理出与数据工程项目有关的环节,特别是将业务中某些问题转化为数据问题。
        
    问如下几个问题:

        哪些类型的数据能够支持“过程性评价”?
        通过什么渠道可以获取这些数据?
        所获得的数据可靠程度如何?

    理解商业问题,把通常的业务人员习惯用的描述性语言,转变为具体的科学性语言,才能对某些环节作出“数据性”回复,实现“数据驱动决策”目标。

    过程性评价能够对学生的成长发展提供指导,而不是一考定终身。


        学生成长发展的指标是什么?是考试成绩?心理发展?身体状况?
        如果是考试成绩,是周考试成绩?月考试成绩?学期末考试成绩?
        如果是心理发展,用什么量表测量?还是凭借主观观察?
        如果是身体状况,又要测量哪些项目?
        衡量学生发展的周期是多长?学年?学期?月?周?日?小时?每次作业?

    从数据层面解决上述问题,就必须把有关数据的问题提炼出来,用准确的语言表述,然后考查业务是否能够支持这些问题
数据采集:
    数据收集和前述理解商业问题,两者之间是一个互动关系。研究收集数据的方法,也是对商业问题的再度理解
    
    数据收集还包含着从某个数据集中获得数据的含义。这里所说的数据集,包括但不限于:

        数据库,包括关系型和非关系型
        数据接口(API)
        保存数据的文件,比如 Excel、CSV 文档等
        
    从这些数据集中读取到数据?需要的技能应该是:

        熟练使用 SQL
        熟练使用某种编程语言(本达人课使用的是 Python 语言)
数据清洗 + 特征 工程:
    
    数据采集后,了解这些数据:
    
        对数据进行简单的描述性统计
        对数据实行可视化,直观地了解数据概况
        
    “数据可视化”的技能  +  “数据清洗”和“特征工程”
结果:
    数据之后,根据商业问题的目标,可以从事两个方面的具体工作:
        
            数据分析:

                    应用各种数据分析的方法,最终得到一份分析报告。

                    分析结果,除了用数字表达之外,可视化是不可避免的
            
            机器学习:

                    机器学习是另外一个专门领域,目前正火热中。

                    通过机器学习算法,实现对数据的分类、预测和聚类等操作,在这个过程中,也难免要用“数据可视化”表达某种结论
评估:

    不论是机器学习,还是数据分析,其结果都要进行评估。
    对于机器学习而言,有专门的模型评估方式。即便如此,用可视化的方式把结果表达出来,也是一种重要的手段。
总结:
    “数据科学”的基本概念,并简述了“数据工程”项目的基本流程,
原文地址:https://www.cnblogs.com/shaozheng/p/12889869.html