梯度下降VS随机梯度下降

样本个数m,x为n维向量。
h_theta(x) = theta^t * x
梯度下降需要把m个样本全部带入计算,迭代一次计算量为m*n^2

梯度下降 <wbr>VS <wbr>随机梯度下降

随机梯度下降每次只使用一个样本,迭代一次计算量为n^2,当m很大的时候,随机梯度下降迭代一次的速度要远高于梯度下降

梯度下降 <wbr>VS <wbr>随机梯度下降

原文地址:https://www.cnblogs.com/alexanderkun/p/4025584.html