7.逻辑回归实践

1.逻辑回归是怎么防止过拟合的？为什么正则化可以防止过拟合？（大家用自己的话介绍下）

在训练数据不够多时，或者overtraining时，常常会导致overfitting（过拟合）。其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集，对训练集外的数据却不工作。

防止过拟合的方法有：

1、增加样本数量

2、正则化：当数据稀疏时，使用L1正则化比L2效果要好

3、特征筛选：剔除不必要的特征

4、检查业务逻辑，判断特征的有效性

正则化参数变得很大，参数W很小，z也会相对变小，此时忽略b的影响，z会相对变小，实际上，z的取值范围很小，这个激活函数，也就是曲线函数tanh会相对呈线性，整个神经网络会计算离线性函数近的值，这个线性函数非常简单，并不是一个极复杂的高度非线性函数，不会发生过拟合。

2.用logiftic回归来进行实践操作，数据不限。

使用cancer.csv进行实践：

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression, LogisticRegressionCV
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report


def logic():
    column = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
              'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli',
              'Mitoses', 'Class']

    # 读取数据
    data = pd.read_csv('./cancer.csv', names=column)
    # 替换数据中的问号
    data.replace(to_replace='?', value=np.nan, inplace=True)
    # 然后删除nan所在的行
    data.dropna(how='any', inplace=True)

    x = data.iloc[:, 1:10]
    y = data.loc[:, 'Class']

    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=1)
    sd = StandardScaler()
    x_train = sd.fit_transform(x_train)
    x_test = sd.transform(x_test)

    # lr = LogisticRegression()
    # params = {'solver': ['lbfgs'], 'penalty': ['l2'], 'C': [0.01, 0.1, 1.0, 10.0, 100.0]}
    # gv = GridSearchCV(lr, param_grid=params, cv=4)
    #
    # gv.fit(x_train, y_train)
    # y_pred = gv.predict(x_test)
    #
    # print(gv.best_score_)
    # print(gv.best_params_)
    #
    # print('训练集score：', gv.score(x_train, y_train))
    # print('测试集score：', gv.score(x_test, y_test))

    # 以下是通过上边的网格搜索得出的C值
    c = [0.01, 0.1, 1.0, 10.0, 100.0]
    for i in range(5):
        print('*' * 20, i)
        lr = LogisticRegression(C=c[i], solver='lbfgs', penalty='l2')
        lr.fit(x_train, y_train)
        y_pred = lr.predict(x_test)
        print('训练集score：', lr.score(x_train, y_train))
        print('测试集score：', lr.score(x_test, y_test))
        print(classification_report(y_test, y_pred, labels=[2, 4], target_names=['良性', '恶性']))

if __name__ == '__main__':
    logic()

测试结果：