神经网络(1)--Non-linear hypotheses，为什么我们要学习神经网络这种算法来处理non-linear hypotheses

神经网络(1)--No-linear hypotheses

为什么我们已经有了linear regression与logistic regression算法还要来学习神经网络这个另外的算法呢，让我们来看看几个复杂的no-linear hypotheses

想要对上面图中的trainning data做logistic regression的话，你可以做的是apply logistic regression with a lot of nonlinear features(如上图中的g(θ₀+....),它是一个sigmoid function),如果包括了足够多的多项式的话,然后你可能会得到上图中的那条粉色的hypotheses(完全将positive与negative分开),当只有两个features这种多项式的方法很好,因为你可以把所有关于x1,x2的多项式包括进来。但是在实际生活中，我们可能会遇到远远多于2个features的问题。

如我们还是举卖房子的例子，现在房子的feature有100个，是个分类问题，对房子下个季度能否卖出做预测。

如果将所有的二次项都包括进来的话，将有5000个features(O(n²)),如果将这些features都考虑的话，不是一个好算法因为会出现overfitting的问题并且处理这么多的features计算也很耗时，当然可以考虑只包括这些二次项中的一部分，比如只考虑x₁²,x₂²,x₃²....x₁₀₀²,这样只有100个features了,但是因为没有足够多的features，实际上画出来的图像是类似于椭圆的图像，所以不可以画出像左上图那样的hypotheses。

如果考虑三次项的话，features有大约170000，这是一个很大的数量，不是一个好的处理方式。

对于很多机器学习的问题来说，features都很大，让我们来看一个关于computer vision的问题。假设我们想知道一幅图片是否是一辆车。

为什么computer vision的问题很复杂，因为在我们看来很容易辨别这是一辆车，但是对于计算机来说却很难，因为它看到的和我们是不同的。比如就车把手那一小块地方来说，计算机看到的是一个像素强度值的矩阵(告诉我们每个像素点的brightness)，实际上计算机看到的是这个矩阵，然后告诉我们这是一辆车的门把手。

实际上我们在使用machine learning to build a car detector,我们要处理一个label training set(有一些label 为car的例子，有一些label 不为car的例子)，然后我们把这个training set给我们的learning algorithm去训练，然后你可以用一张新的图片来test,看是否来正确识别出它是否为一辆车。

取两个位置的像素点，然后再下面的图中plots相应的点,用+表示是car,用-表示不是car,随着训练集中的点的plot,我们可以看出这是一个Non-linear hypotheses

如果每幅图片取50*50个像素点，则有2500个像素点，我们的features个数为2500个，则我们的测试x是一个维度为2500的向量,向量里面的元素为每个像素点的值，如果图片是灰度表示的话，值在0-255之间。如果图片是用RGB表示的话，则有7500个features。features为2500时，如果我们用二次项来计算这个No-linear hypotheses,把所有的二次项都包括进来的话，则大约有3 million的features,这个太大了，来完成计算太费时，可能也完不成计算。

所有simple logistic regression together with adding in with maybe 二次项或者三次项的方法----不是一个好的当很大时学习复杂的nonlinear hypotheses的方法，因为你会得到很多features。

神经网络是经验证了的一种更好的处理这种当n很大时的复杂问题的方法(complex nonlinear hypotheses)