初识机器学习-理论篇

1.什么是机器学习?

概念:利用计算机从历史数据中找到规律,并把这些规律用到未来不确定场景的决策。

场景:{①确定性场景②不确定性场景}

(人来干)数据分析+(计算机来干)机器学习

2.数据(历史数据)

3.规律

从数据中找出规律{①数学函数②数学公式}

概率论和数理统计

(先抽样->描述统计->假设检验)

用模型刻画(拟合)规律(维度较少时还能用,多维的不可用)

4.机器学习发展的原动力

经济驱动‘数据变现、用数据代替expert

5.业务系统发展的历史

基于专家经验(头脑风暴。。然后交给程序员写iferlse)

基于统计-分纬度统计(依靠业务报表,数据仓库,olap统计)

机器学习-在线学习(实时调整)

6.机器学习的典型应用

(1)关联规则:“啤酒+尿片”

(2)用户细分精准营销:聚类(动感地带、神州行、全球通)

(3)垃圾邮件:朴素贝叶斯

(4)信用卡欺诈:决策树(银行是否可以贷款给你,即风险识别)

(5)互联网广告:ctr预估【现行逻辑回归】

(6)推荐系统:协同过滤

(7)自然语言处理:情感分析+实体识别+图片识别(深度学习)

    ............更多应用,包括语音识别、自动驾驶、智慧机器人等等

7.机器学习和数据分析的区别

(一)数据特点不同:行为数据 vs 交易数据

                                    海量数据 vs 少量数据

                                    全量分析 vs 采样分析

(二)解决业务问题不同:预测未来 vs 历史发生

(三)技术手段不同:     CLAP vs 数据挖掘

                                    数据驱动 vs 用户驱动

                      自动进行知识发现 vs 交互式分析

 (四)参与者不同:计算机 vs 数据分析师

 8.机器学习算法分类

第一种分类方法:有监督学习{ 分类算法  回归算法 }

                             无监督学习{ 聚类 }

                             半监督学习{ 强化学习 }

第二类分类算法:分类和回归

                             聚类

                             标注

第三种分类方法(重要):生成模型(模棱两可)【训练模型思想上有本质区别】

                                           判别模型(给定判断)

 9.机器学习中常用的算法:

10.机器学习解决问题的框架:

确定目标:业务需求->数据->特征工程

定义模型:定义损失函数->优化算法

模型评估:交叉验证->效果评估

原文地址:https://www.cnblogs.com/cnyulei/p/7745109.html