FPGA机器学习之stanford机器学习第二堂1

             首先展示的是一个汽车的自主学习的例子。在这个例子里面,是监督性学习,路面的状况就是样本输入,而驾驶员的方向盘就是样本输出。让汽车学会什么呢??学会图像就是输入,让汽车根据图像的状态,学会方向盘控制。

           视频里面暂时的是,汽车的自动行驶。到14年,今年为止,google的汽车已经上路了,据说,google的汽车是可以完全识别小猫小狗。市场化验证的东西和google实验室里面的成果至少还有3年的差距。可能这个就是目前最高的机器学习现状了。

              整体结构就是上面给训练的数据,输入到学习算法里面,学习好了以后呢?会有一个最后的函数。我们就通过这个函数,先关的输入,去预测输出。这就是学习过程。讲义这里的主要是通过已知的房价和对应的面积样本来学习。最后输入一个面积,能推测出房价。

                                                 Linear Regression 

        首先这里是要线性回归,所以设的函数为线性的:

        θ1----->用theta1表示这里的theta0,theta1,theta2就是要进行学习的可变的权重。x1和x2,分别是面积和卧室数量。

        为了方便书写。我们在这里添加了一个x0,设这个想x0等于1.

这个时候就可以写成这样了。。其实这里的n==2.这样就和上面的方程式一样了。为什么等于后面那一块呢??theta和x都是矩阵,或者说是集合的形式。我还是解释多一点吧。

他做了一个这样的转换。当然了X也是。T转置。

为什么选用了线性函数。其实我们感觉线性函数够用了,可以有效预测和拟合了,才用的线性,其实可以选用其他的更复杂函数的。并不一定用线性的。

这里的y是样本的实际中的价格,h(theta)是计算输出。最后求一个统计偏差J(theta)。1/2是为了方便运算。

     这里就很接近最小二乘法了。就是通过不断的改变theta希望J(theta)达到最小。

如何让J(theta)最小就设计到gradient descent是指梯度下降

                                                                                gradient descent

这个是机器学习视频里面截图下来的。

首先设置随机一个点。这个点就会按照最快的速度下降,最后下降到最低点停下来。从这两个图,就知道,最小点的结果和随机生成的第一个点有很大的关系。有时候就只能是局部最优了。

参数的变换公式:其中标出了梯度和学习率(α)

这一组就是梯度的求法。

从这个公式里面,可以看出没修改一次theta,所有的样本都要计算一次。计算量巨大。

        这种算法被叫做batch   gradient      descent。            这里的a是学习率。太大了会跳过最小值。太小了收敛很慢。

     

       ...........未完待续   视频45分钟。。。。。。。。

微笑本人能力有限,但我努力学习,分享我的技术。一起学习,一起努力吧。

原文地址:https://www.cnblogs.com/maohuawang/p/3807211.html