数据科学VS机器学习

        数据科学是一个范围很广的学科。机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据(被用作训练集)来调整模型或算法的参数。这包含了许多的技术,比如回归、朴素贝叶斯监督聚类。但不是所有的技术都适合机器学习。例如有一种统计和数据科学技术就不适合——无监督聚类,该技术是在没有任何先验知识或训练集的情况下检测 cluster 和 cluster 结构,从而帮助分类算法。这种情况需要人来标记 cluster。一些技术是混合的,比如半监督分类。一些模式检测或密度评估技术适合机器学习。数据科学要比机器学习广泛。数据科学中的数据可能并非来自机器或机器处理(调查数据可能就是手动收集,临床试验涉及到专业类型的小数据),它可能与「学习」没有任何关系。但主要的区别在于数据科学覆盖整个数据处理,并非只是算法的或统计类分支。细说之,数据科学也包括:

  • 数据集成(data integration)
  • 分布式架构(distributed architecture)
  • 自动机器学习(automating machine learning)
  • 数据可视化(data visualization)
  • dashboards 和 BI
  • 数据工程(data engineering)
  • 产品模式中的部署(deployment in production mode)
  • 自动的、数据驱动的决策(automated, data-driven decisions)

当然,在许多公司内数据科学家只专注这些流程中的一个。

 数据科学家类型


   详细地了解数据科学家的类型, 可参考:Six categories of Data Scientists, 对于数据科学与其它分析学科的对比,参见: 16 analytic disciplines compared to data science

   最近(2016年8月)Ajit Jaokar讨论了A型(分析)和B型(建造者)数据科学家的区别:

  • A 型数据科学家:A指Analytics,能够很好地编写操作数据的代码,但并不一定是一个专家。A 型数据科学家可能是一个实验设计、预测、建模、统计推理或统计学方面的事情的专家。在谷歌,A 型数据科学家被称为统计学家定量分析师、决策支持工程开发分析师,也有一些被称为数据科学家。
  • B 型数据科学家:B指Builder, B 型数据科学家和 A 型数据科学家具有相同的背景,但他们还是很强的程序员、甚至经验丰富的软件工程师。B 型数据科学家主要关注在生产环境中使用数据。他们构建能与用户进行交互的模型,通常是提供推荐(产品、可能认识的人、广告、电影、搜索结果等)。

  而对于业务处理优化,作者将其分成了 ABCD 四个方向,其中:

  • A 表示:分析科学(analytics science)
  • B 表示:业务科学(business science)
  • C表示:计算机科学(computer science)
  • D表示:数据科学(data science)

   数据科学可能会涉及到编程或数学实践,但也可能不会涉及到。你可以参考 这篇文章了解 ”高端和低端的数据科学“ 的差异。在一家创业公司,数据科学家通常要做很多类型的工作,其扮演的工作角色可能包括:管理执行者、数据挖掘师、数据工程师或架构师、研究员、统计学家、建模师(做预测建模等等)和开发人员。 

虽然数据科学家常常被看作是经验丰富的 R、Python、SQL、Hadoop 程序员,而且精通统计学,但这只不过是冰山一角而已——人们对于数据科学家的这些看法不过是来自于重在数据科学的部分元素的数据培训项目而已。但正如一位实验室技术人员也可以称自己为物理学家一样,真正的物理学家远不止于此,而且他们的专业领域也是非常多样化的:天文学、数学物理、核物理、力学、电气工程、信号处理(这也是数据科学的一个领域)等等许多。数据科学也是一样,包含的领域有:生物信息学、信息技术、模拟和量化控制、计算金融、流行病学、工业工程、甚至数论

   翻译太费劲,看参考地址下的原文吧

参考:


原文地址:https://www.cnblogs.com/tgzhu/p/7809578.html