scikit-learn学习笔记(1)

从使用的工具说起,win7+vs2015 community+python vs tool+anaconda,免费、易安装且使用方便

本人cs专业,老婆是统计专业,所以合计我也看看统计相关的,因为目前工作主要就是处理数据分析数据,所以想看看machine learning/data mining是不是对工作有帮助

学习资料全在scikit-learn网站上http://scikit-learn.org/stable/

真心钦佩这帮人把这么多数学相关的知识制作成python library跟所有人分享,感谢这些牛人的贡献

1.1. Generalized Linear Models

广义线性模型,线性回归是其最简单的一种

1.1.1 Ordinary Least Squares(OLS)普通最小二乘法

Least Squares最小二乘法,回归分析中的一种标准方法,分OLS和non-linear least squares,因为目前看的都是线性关系所以只用前者

线性回归就是生成一个系数w=(w1, w2, w3,....wn)使Xw和y的方差之和最小,另外regression和classification的区别就是regression是预测连续的数值而classification相反

from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])

reg.coef_

函数fit的两个参数[[0,0],[1,1],[2,2]]和[0,1,2]分别为3组输入和对应的输出,fit所做便是通过这些数值得出一组系数reg.coef_

1.1.1.1 OLS的复杂度

计算复杂度为O(np^2),这里n和p分别为观察记录的数目和变量数量,这里假设n>p

原文地址:https://www.cnblogs.com/16264412xm/p/6392779.html