学习曲线

Validation Set和Training Set，前者是用来验证的，后者是用来学的。

其实通过代码可以理解一下这两个数据集合：

 1 from sklearn.metrics import mean_squared_error
 2 from sklearn.model_selection import train_test_split
 3 def plot_learning_curves(model, X, y):
 4     X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)
 5     train_errors, val_errors = [], []
 6     for m in range(1, len(X_train)):
 7     　　model.fit(X_train[:m], y_train[:m])
 8     　　y_train_predict = model.predict(X_train[:m])
 9     　　y_val_predict = model.predict(X_val)
10     　　train_errors.append(mean_squared_error(y_train_predict, y_train[:m]))
11     　　val_errors.append(mean_squared_error(y_val_predict, y_val))
12     plt.plot(np.sqrt(train_errors), "r-+", linewidth=2, label="train")
13     plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="val")

通过for语句里面可以看到，y_train_predict其实是predict那个X_train的一个子集，作为y_train_predict则是对这个子集的一个预期，那么在计算MSE的时候，其实也是针对这个子集的计算，所以出现下面这个图的情况，在开始的时候，sample还比较少，所以预测能够很好地匹配，但是伴随着数量的增多，模型无法很好地预期，所以MSE是不断升高，伴随着样本数量的增加，学习模型的完善，错误率将会停留在一个水平上；

对于y_val_predict，你会发现他每一次的predict都是X_val的全集，这代表他是用validation的全集在测试当前学习的模型；所以经历了下面图形中蓝线的过程，模型不完善，所以，你会看到MSE非常高，但是伴随着样本的增加，模型的完善，MSE逐渐趋于一个合理的范围。

通过这张图，我们可以了解到validation set和Trainingset的作用，后者不断增加样本来训练模型；前者是不断的用自己的全集去验证模型；

常见的三种错误：

模型偏差（bias），比如多项式的数据被建模为线性模式；导致的underfit（欠拟合）

变量偏差（Variance），数据的模型有很多维度，这些维度都满足，而且数据量还比较小，这就容易造成overfit（过拟合）

硬性错误（Irreducible Error），这种错误则是由数据的不合法，不统一造成的，唯一的解决办法就是对数据进行清洗。