机器学习

编程练习（一）：线性回归

文件清单

ex1.m
ex1_multi.m
ex1data1.txt - ex1.m 用到的数据组
ex1data2.txt - ex1_multi.m 用到的数据组
submit.m - 提交代码
[*] warmUpExercise.m
[*] plotData.m
[*] computeCost.m
[*] gradientDescent.m
[+] computeCostMulti.m
[+] gradientDescentMulti.m
[+] featureNormalize.m
[+] normalEqn.m

* 为必须要完成的
+ 为可选

1 简单的Octave/MATLAB函数

完成 warmUpExercise.m ，使得 A 为 5x5 单位矩阵，送分的。

A = eye(5);

输出结果：

ans =
Diagonal Matrix
	1 	0 	0 	0 	0
	0 	1 	0 	0 	0
	0 	0 	1 	0 	0
	0 	0 	0 	1 	0
	0 	0 	0 	0 	1

1.1 提交代码

使用 submit

解决不能上传的问题：

Windows

进入练习的 /lib 文件夹中，编辑 submitWithConfiguration.m 修改第66行，然后重启octave

responseBody = urlread(submissionUrl, 'post', params);
% 改为
[code, responseBody] = system(sprintf('echo jsonBody=%s | curl -k -X POST -d @- %s', body, submissionUrl));

OSX Linux

进入练习的 /lib 文件夹中，编辑 submitWithConfiguration.m 修改第66行，然后重启octave

responseBody = urlread(submissionUrl, 'post', params);
% 改为
[code, responseBody] = system(sprintf('echo ''jsonBody=%s'' | curl -k -X POST -d @- %s', body, submissionUrl));

2 单变量线性回归

背景：假设我们现在是个连锁餐厅的老板，已经在很多城市开了连锁店（提供训练组），现在想再开新店，需要通过以前的数据预测新开的店的收益。

ex1data1.txt 提供所需要的训练组，第一列是城市人口，第二列是对应的收益。负值代表着亏损。

ex1.m 已经加载了数据。

2.1 可视化数据

ex1.m 中加载了变量 X 和 y：

data = load('ex1data1.txt'); % read comma separated data
X = data(:, 1); y = data(:, 2);
m = length(y); % number of training examples

接着 plotData 函数将其绘制出来，我们需要完成 plotData.m 进行绘图：

plot(x, y, 'rx', 'MarkerSize', 10); % Plot the data
ylabel('Profit in $10,000s'); % Set the y-axis label
xlabel('Population of City in 10,000s'); % Set the x-axis label

现在运行 ex1.m 就能看到类似图1的图像了：

* 通过看手册学习函数是个很好的方式 help plot 。

2.2 梯度下降

在这一结中我们要通过梯度下降计算出合适的线性回归参数theta。

2.2.1 更新等式

线性回归的目标是将成本函数最小化：

[J( heta) = frac{1}{2m}sum_{i=1}^m (h_{ heta}(x_{i})-y_{i})^{2} ]

其中线性模型的假设 (h_ heta(x)) 为：

[h(x) = heta_{0} + heta_{1}x ]

记住我们的变量是 ( heta) ，通过调整 ( heta) 的值来最小化成本函数。一种方式就是梯度下降，每次迭代都会更新 ( heta) ：

[ heta_{j} := heta_{j} - alphafrac{1}{m}sum_{i=1}^m ((h_{ heta}(x^{(i)})-y^{(i)})x_j^{(i)}) ]

* 与 = 不同，:= 代表着同时更新(simultaneously update)，简单来说就是先将计算的 ( heta) 存入一个临时变量，最后所有 ( heta) 都计算完了一起再赋值回去。

例如：

temp1 = theta1 - （theta1 - 10 * theta2 * x1） ;
temp2 = theta2 - （theta1 - 10 * theta2 * x2） ;
theta1 = temp1 ;
theta2 = temp2 ;

注意，我们使用梯度下降时在矩阵 X 第一列增加了一列 1

X = [ones(m, 1), data(:,1)]; % Add a column of ones to x

原因是成本函数的公式中 ( heta_0) 的系数为1.

2.2.2 工具

X = [ones(m, 1), data(:,1)]; % Add a column of ones to x
theta = zeros(2, 1); % initialize fitting parameters
iterations = 1500;
alpha = 0.01;

初始化 theta ，迭代次数 iteration ，Learning rate alpha 。

2.2.3 计算成本函数

在这一节我们需要根据成本函数完成 computeCost.m，注意 X，y是训练组中的数据矩阵而不是非矢量数(scalar values)。

当正确完成成本函数后，ex1.m 下一步将 theta 初始化为0，运行成功后会输出结果 32.07 。

* 完成后使用 submit 提交代码。

参考代码：

% ====================== YOUR CODE HERE ===================================

J = sum((X*theta-y).^2)/(2*length(y));

% =========================================================================

2.2.4 梯度下降

接下来我们需要完成 gradientDescent.m 。其中循环结构已经写好了，仅需要写每次更新 theta 的函数即可。

编程时要明确的知道，成本函数J是改变 theta 来最小化的，而不是 X 或者 y。

怎么样验证自己的梯度下降工作正常？

可以通过在循环中打印 computeCost 的结果，如果梯度下降工作正常，则打印的结果应该慢慢减少然后无变化。

完成函数后，ex1.m将会使用最后的theta绘制出一条匹配的直线。如图：

最后得到的 ( heta) 我们用来预测人口 35,000 和 70,000 地区的收益。

* 完成后使用 submit 提交代码。

*注意，Octave/MATLAB中 A*B 默认为矩阵乘法，使用 A.*B 可以用逐元素乘法。

参考代码：

% ====================== YOUR CODE HERE ======================

theta = theta - X'*(X*theta-y)/m*alpha;

% ============================================================

2.4 可视化成本函数

为了更好的理解成本函数，在这一节我们将构建一个三维的图形。

ex1.m 中已经写好了这一部分的代码，但是我们需要理解为什么代码这么写。

% initialize J vals to a matrix of 0's
J vals = zeros(length(theta0 vals), length(theta1 vals));
% Fill out J vals
for i = 1:length(theta0 vals)
	for j = 1:length(theta1 vals)
		t = [theta0 vals(i); theta1 vals(j)];
		J_vals(i,j) = computeCost(x, y, t);
	end
end

通过 computeCost 函数，我们计算出对应的值并储存到一个以 theta0 和 theta1 为坐标的矩阵 J_vals 中

通过使用 surf 和 contour 命令，我们可以构建出图形：

这些图像的目的是为了展示 (J( heta)) 随着 ( heta_0) 和 ( heta_1) 的改变的值。（在2D轮廓图中比3D的更直观）。最小点是 ( heta_0) 和 ( heta_1) 的最适点，每一步梯度下降都会更靠近这个点。

我们可以通过旋转看到为什么叫“轮廓图”：

附加练习

3 多元线性回归

在这一节中，我们将会利用多元线性回归预测房子的价格。假设我们要出售我们的房子，现在想知道在房市中能卖一个什么价格。一种方式是收集最近出售的房价数据，构建一个房子价格的模型。

ex1data2.txt中包含了房子价格的训练组。第一列是房子的尺寸（平方英尺），第二列是卧室的数量，第三列是房子的价格。

我们通过 ex1_multi.m 完成本次任务。

3.1 特性一般化(Feature Normalization)

首先我们需要用特性放缩让数据的范围缩小，使得梯度下降计算的更快：

我们的任务是完成 featureNormalize.m：

计算每个特性的平均值(mean)
计算标准差(standard deviations)
特性放缩(feature scaling)

* 我们这里利用的是标准差(standard deviation)，也可以使用差值(max - min)。

* 完成后使用 submit 提交代码。

参考代码：

% ====================== YOUR CODE HERE ======================   

mu = mean(X);
sigma = std(X);
X_norm = (X - mu) ./ sigma;

% ============================================================

3.2 梯度下降

我们之前用梯度下降解决单变量线性回归问题，和多元线性回归问题的唯一区别就是矩阵 X 的特性不止一个，假设函数的公式没有变化。

我们需要完成 computeCostMulti.m 和 gradientDescentMulti.m 完成多元线性回归的成本函数和梯度下降。如果之前的梯度下降适用于多变量，这里也可以使用。

* 确保代码支持多个特性，而且满足向量运算条件。可以使用 size(X, 2) 找出训练组中有多少特性。

* 完成后使用 submit 提交代码。

* 多变量中，成本函数也可以写成向量计算形式：

(J( heta) = frac{1}{2m} (X heta - vec{y})^{T} (X heta - vec{y})）

参考代码：

% ====================== YOUR CODE HERE ======================

theta = theta - X'*(X*theta-y)/m*alpha;

% ============================================================

3.2.1 附加练习：学习速率的选择（Learning rate）

对于不同的训练组，选择合适的学习速率可以使得结果计算的更快更准确。我们可以在 ex1_multi.m 中修改 alpha 值。

实际经验我们可以一步一步的改变值，例如 0.3 -> 0.1 -> 0.03 -> 0.01 等等。

不合适学习速率

过大：导致找不到最适点，Octave/MATLAB会返回一个 NaNs 代表 not a number ，也就是正无穷或者负无穷。

成本函数和迭代次数的图形如下：

（！图片）

过小：导致梯度下降计算耗时严重。

合适的学习速率

接下来，我们需要用训练好的 theta 值来预测 1650 平方英尺 3 个卧室的房子的价格。

注意不要忘记放缩！

参考代码：

% ====================== YOUR CODE HERE ======================
P = [1 (([1650 3] - mu) ./ sigama)];
price = P*theta;
% ============================================================

3.3 一般等式

这一结我们需要完成 normalEqn.m 利用公式：

( heta = (X^T X)^{-1}XT y)

完成之后我们可以预测 1650 平方英尺 3 个卧室的房子的价格。

参考代码：

% ====================== YOUR CODE HERE ======================
price = 1650; % You should change this
price = [1,1650,3]*theta;
% ============================================================