ml in action part 1

1. 分类

前两部分主要探讨监督学习（supervisedieaming ）

目标变量：标称型和数值型

标称型目标变量的结果只在有限目标集中取值，如真与假、动物分类集合{ 爬行类、鱼类、哺乳类、两栖类、植物、真菌 } ；数值型目标变量则可以从无限的数值集合中取值，如 0.100、42.001、〗000.743等

前七章主要研究分类算法

机器学习：就是把无序的数据转换成有用的信息

监督学习：分类和回归，知道预测什么，有目标变量的分类信息

1）机器学习的主要任务就是分类。

测试机器学习算法的效果，通常使用两套独立的样本集：训练数据和测试数据

2）另一项任务是回归，它主要用于预测数值型数据

无监督学习：无类别，无目标值

聚类：将数据集合分成由类似的对象组成的多个类的过程

密度估计：寻找描述数据统计值的过程

1.2 应用程序步骤

1 )收集数据。 制作网络爬虫从网站上抽取数据，公共源等

2 )准备输入数据。数据格式处理

3)分析输入数据，确保没有垃圾数据

4)训练算法，无监督略过

5) 测试算法

6 ) 使用算法

1.3 Python

SciPy和NumPy 等许多科学函数库都实现了向量和矩阵操作

绘图工具Matplotlib协同工作。Matplotlib可以绘制2D、30图形

缺点：性能问题

NumPy, 矩阵处理

randMat = mat(random.rand(4,4))

randMat.I 求逆

安装：

https://pypi.python.org/pypi/setuptools下载setuptools-34.3.0.zip，解压到python目录下Scripts目录中，cd到该目录下，执行python setup.py来安装easy_install,安装完成，执行easy_install.py pip，此时pip应该安装好了，可以把该目录C:python27Scripts也添加到环境变量

python安装目录 python -m pip install numpy

验证：from numpy import *

2. k-邻近算法，kNN

测量不同特征值之间的距离方法进行分类

优点：精度高、对异常值不敏感、无数据输入假定。
缺点：计算复杂度高、空间复杂度高。
适用数据范围：数值型和标称型。

原理：样本集中每个数据都存在标签，即我们知道样本集中每一数据
与所属分类的对应关系。输人没有标签的新数据后，将新数据的每个特征与样本集中数据对应的
特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签

1）电影分类

使用 P y th o n 导入数据，createDataSet
从文本文件中解析数据，classify

2）dating people 分类