机器学习讨论组纪要1

机器学习分类

精确学习符号学习：例子：爸爸*爸爸=爷爷。 80 90 年代研究热点。现在基本已经不再研究。

模糊学习归纳，基于数据做统计。因为大数据技术的发展而变得火热。

模糊学习的分类

数据-归纳，训练-模型-对新的数据，得出结论

督导学习无督导学习

督导学习标记

无督导聚类

常见的机器学习的方法

线性回归是最基本的机器学习算法

房屋面积房价一组数据。给出新的房屋面积，预测房价

回归与分类

Regression Classification

逻辑回归(分类) 置信度

线性回归可以通过sigmoid与逻辑回归统一起来。

神经元：每一个神经元就是一个线性回归函数。

神经网络：神经元连在一起就是神经网络

深度学习：神经网络的层数，一般的机器学习的神经网络的层数大概在3 4 层，而深度学习的深度神经元网络可以达到70 80 层，仅模型本身，就可以达到几个G的大小。

神经网络，根基还是线性回归

决策树

概率方法 ：贝叶斯网络？

简单的机器学习case

email 优先级判断问题：

线性可分问题，也就是说很多问题可能不是一个线性回归可以解决的问题：

feature维度越高，越大可能线性可分。

可以采用online逻辑回归算法(PA2)，判断email是否是高优先级的。

一个common的问题：如何针对不同的场景(输入数据的特点)，选择不同的机器学习的算法？

feature生成选取，目前还是依赖于人的直观选择

但是这些选取的feature维度可以使用一些方法进行处理，比如：升维度降维度(防止过度拟合，把相近的feature cluster) 离散化(年龄划分为青年中年老年等)

模型的调优：

训练集验证集测试集

调优的指标：

查准率查全率误分类代价

有了模型，才可以真正进行code层级的机器学习，从而涉及到下面的问题：

编程语言？机器学习平台

常见的平台：Spark MLlib

常见的语言：Scala Java python R

-------------------------- update -----------------------

与王刚的讨论：

现在大数据与机器学习的研究，主要分成了数据挖掘和机器学习两个部分。

现在对人工大脑的研究，主要集中在了深度神经元网络上。