Python机器学习随笔之非线性分类的logistic回归拟合及正则化2

程序本地地址：ex2data2_regularized.py

编者注：本文采用梯度下降法来求解的logistic回归，关于其思想以及编程原理见本人之前文章《梯度下降法求解线性回归的python实现及其结果可视化》（https://zhuanlan.zhihu.com/p/30562194），在这里不再赘述。

01 非线性决策边界的logistic回归拟合

常规的logistic回归在解决分类问题时，通常是用于线性决策边界的分类（如下图-左图），因为logistic回归可以视为线性回归的一种转化，其回归模型为 (sigmoid函数)：

image.png

式中的z=θTx(i)就是不同x的线性表达式f(x) = g(w0+w1x1+w2x2)。那么，对于线性决策边界的分类，如何用logistic回归预测、拟合呢？这时候就需要将f(x) = g(w0+w1x1+w2x2)的线性函数式转化成多项式：f(x) = g(w0+w1x1+w2x2+w3x12+w4x22+w5x1x2)去拟合（如下图-中图）。

image.png

但是，这种处理方式相比较于线性函数表达式会产生很多的项数，因而其变量（特征）也比较多，如果我们没有足够的数据集（训练集）去约束这个变量过多的模型，那么就会发生过拟合。如上图中的最右边图形，其分类结果完全正确，但这个分类模型似乎太过完美了吧？连交叉部分的类别也划分出来了。过拟合就是表示它的分类只是适合于自己这个测试用例，对需要分类的真实样本（例如测试集）而言，特别是针对新的数据样本，实用性反倒可能会低很多。

02 正则化优化logistic回归过拟合
正则化（Regularized）是解决过拟合问题的一种方法，它将保留所有的特征变量，但是会减小特征变量的数量级（参数数值的大小θ(j)），当我们有很多特征变量时，其中每一个变量都能对预测产生一点影响，每一个变量都是有用的，因此我们不希望把它们删掉，但是我们可以通过正则化方式增加它们的成本cost，来减小我们的函数中的一些项的权重，其意义在于平滑函数曲线，使得预测函数相对简单一些，避免过度复杂函数的过拟合问题。
其处理方法为：对某些θ(j)加入惩罚项：

image.png

在这里λ称作正则化参数，它通过平衡拟合训练的目标和保持参数值较小的目标。从而来保持假设的形式相对简单，来避免过度的拟合。
三、Regularized Logistic Regression实例
（1）假设有这样一个非线性决策边界的分类数据，（数据来自
https://github.com/jdwittenauer/ipython-notebooks/tree/master/data 中的ex2data2.txt）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
path = 'D:pythonml dataex2data2.txt'  #路径要设置为你自己的路径
data2 = pd.read_csv(path, header=None, names=['Test 1', 'Test 2', 'Accepted'])
data2.head()

image.png

（2）其数据可视化为：

positive = data2[data2['Accepted'].isin([1])] #Accepted列中的1设定为positive
negative = data2[data2['Accepted'].isin([0])] #Accepted列中的0设定为positive

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(positive['Test 1'], positive['Test 2'], s=50, c='b', marker='o', label='Accepted')
ax.scatter(negative['Test 1'], negative['Test 2'], s=50, c='r', marker='x', label='Rejected')
ax.legend()
ax.set_xlabel('Test 1 Score')
ax.set_ylabel('Test 2 Score')
plt.show()

image.png

（3）构建多项式特征值
上图的可视化结果可以看到该数据类别是明显的非线性决策边界，对此我们首先构建变量'Test 1', 'Test 2'的多项式特征值，如下：

degree = 5
x1 = data2['Test 1']
x2 = data2['Test 2']

data2.insert(3, 'Ones', 1)

for i in range(1, degree):
    for j in range(0, i):
        data2['F' + str(i) + str(j)] = np.power(x1, i-j) * np.power(x2, j)

data2.drop('Test 1', axis=1, inplace=True) #删除Text1列并进行替换
data2.drop('Test 2', axis=1, inplace=True)  #删除Text2列并进行替换

data2.head()

image.png

其中degree表示多项式的幂数，range(1, degree)表示了从1次到4次，即由data2['F' + str(i) + str(j)] = np.power(x1, i-j) * np.power(x2, j)命令可知，每一列列名的F第一个数代表了x1的幂值，第二个数代表了x2的幂值，如F31则表示x13x2，以此类推。
（4）构建加入惩罚项的cost函数

def sigmoid(z):
    return 1 / (1 + np.exp(-z)) #构建sigmoid函数
def costReg(theta, X, y, learningRate):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y, np.log(sigmoid(X * theta.T)))
    second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T)))
    reg = (learningRate / 2 * len(X)) * np.sum(np.power(theta[:,1:theta.shape[1]], 2))
return np.sum(first - second) / (len(X)) + reg

reg就是惩罚项，构建思路参考正则化优化logistic回归过拟合部分的惩罚项设置规则。
（5）采用梯度下降法求解

def gradientReg(theta, X, y, learningRate):
    theta = np.matrix(theta)  #转化为矩阵
    X = np.matrix(X)
    y = np.matrix(y)
    
    parameters = int(theta.ravel().shape[1]) #计算参数theta的个数
    grad = np.zeros(parameters)
    
    error = sigmoid(X * theta.T) - y
    
    for i in range(parameters):
        term = np.multiply(error, X[:,i])  #两矩阵相乘
        
        if (i == 0):
            grad[i] = np.sum(term) / len(X)  #一般来说第一个参数不需要正则化
        else:
            grad[i] = (np.sum(term) / len(X)) + ((learningRate / len(X)) * theta[:,i]) 
    
return grad

具体的梯度下降法思路可以参考之前本人写的关于梯度下降法求解线性回归的文章，只是在这里加了一个惩罚项的梯度下降求解，其构造思路如下图所示。

image.png

（6）将变量代入进行拟合
基于表格数据构建x、y变量并转化成数组，这部分内容可以参考之前本人写的关于梯度下降法求解线性回归的文章。然后用梯度下降法函数求解并计算cost。

# set X and y (remember from above that we moved the label to column 0)
cols = data2.shape[1]
X2 = data2.iloc[:,1:cols]
y2 = data2.iloc[:,0:1]

# convert to numpy arrays and initalize the parameter array theta
X2 = np.array(X2.values)
y2 = np.array(y2.values)
theta2 = np.zeros(11)
learningRate = 1 #设置学习率
gradientReg(theta2, X2, y2, learningRate)
costReg(theta2, X2, y2, learningRate)

得到的cost值为0.6931471805599454。
值得注意的是，在这里我们并没有在这个函数中执行梯度下降，而是基于梯度下降计算结果加入梯度项来实现的一个渐变步骤，因此，在这里我们还可以调用octave的内建函数fminunc();来获得最优的theta和最小的cost。在Python，我们可以使用SciPy的优化API来完成。

import scipy.optimize as opt
result2 = opt.fmin_tnc(func=costReg, x0=theta2, fprime=gradientReg, args=(X2, y2, learningRate))
result2

（7）计算预测结果精度

def predict(theta, X):
    probability = sigmoid(X * theta.T)
return [1 if x >= 0.5 else 0 for x in probability]
theta_min = np.matrix(result2[0])
predictions = predict(theta_min, X2)
correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a, b) in zip(predictions, y2)]
accuracy = (sum(map(int, correct)) % len(correct))
print 'accuracy = {0}%'.format(accuracy)

首先构建预测值函数，然后将该值与原始类别值0,1比较，计算其正确的精度，结果为91%。

写作不易，特别是技术类的写作，请大家多多支持，关注、点赞、转发等等..
参考文献：

Machine Learning Exercises In Python, Part 1,
http://www.johnwittenauer.net/machine-learning-exercises-in-python-part-1/
（吴恩达笔记 1-3）——损失函数及梯度下降
http://blog.csdn.net/wearge/article/details/77073142?locationNum=9&fps=1
斯坦福机器学习视频笔记 Week3 逻辑回归与正则化 Logistic
https://www.cnblogs.com/yangmang/p/6352118.html
详解机器学习中的“正则化”（Regularization）
http://makaidong.com/baimafujinji/1/5017_10306169.html

作者：博观厚积
链接：https://www.jianshu.com/p/f9adf1621016
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。