逻辑回归

3P-2L

梯度~反向传播~实例~局部~凸函数

一、逻辑回归简介

 一句话概括:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的

 这里面其实包含了5个点 1:逻辑回归的假设,2:逻辑回归的损失函数,3:逻辑回归的求解方法,4:逻辑回归的目的,5:逻辑回归如何分类。这些问题是考核你对逻辑回归的基本了解

  • 逻辑回归的假设:

   逻辑回归的第一个基本假设是假设数据服从伯努利分布。伯努利分布有一个简单的例子是抛硬币,抛中为正面的概率是p,抛中为负面的概率是1-p,逻辑回归需要将线性模型进行一下映射,从而能用于分类

   这里的映射函数或者叫分类器叫做sigmoid函数,通过sigmoid函数分类器,逻辑回归的第二个假设是假设样本为正的概率是:

( P(y=1|x; heta ) = frac{1}{1+e^{-z}} = frac{1}{1+e^{- heta^Tx}} )

  • 逻辑回归的损失函数:

   常用的损失函数有以下几种:

    • 0-1损失函数:

(L(Y,f(X)) = left{egin{matrix}1 & Y eq f(X)\ 0 & Y = f(X)end{matrix} ight.)

 

    • 平方损失函数:

(L(Y,f(X)) = (Y - f(X))^2)

 

    • 绝对损失函数:

(L(Y,f(X)) = | Y - f(X))|)

 

    • 对数损失函数或对数似然损失函数:

(L(Y,P(Y|X)) = -logP(Y|X))

 

   对于逻辑回归模型,使用的是对数损失函数作为代价函数,则本例中,逻辑回归的损失函数为:

(cost(y,p(y|x)) = left{egin{matrix}-logp(y|x) & if(y = 1)\ -log(1-p(y|x))& if(y = 0)end{matrix} ight.)

 

   将上面的两个表达式合并,则得到单个数据点上的log损失为:

(cost(y,p(y|x)) = -ylogp(y|x) - (1-y)log(1-p(y|x)))


   因为y只有两种取值情况,1或0,分别令y=1或y=0,即可得到原来的分段表达式,即两者是等价的。全体样本的损失函数则可表达为:

(cost(y,p(y|x)) = sum_{i=1}^{m} -y_ilogp(y_i|x_i) - (1-y_i)log(1-p(y_i|x_i)))

 

   其中(p(y|x))由前面的逻辑回归模型定义,令:

(p(y|x) = h_ heta(x) = frac{1}{1+e^{- heta^Tx}})

 

   

   则最终的损失函数为:

(cost(y,p(y|x)) = sum_{i=1}^{m} (-y_ilogfrac{1}{1+e^{- heta^Tx}} - (1-y_i)log(1-frac{1}{1+e^{- heta^Tx}})))

   即逻辑回归的损失函数是它的极大似然函数:

 

  •  逻辑回归的求解方法:

   由于该极大似然函数无法直接求解,一般通过对该函数进行梯度下降来不断逼近最优解。因为就梯度下降本身来看的话就有随机梯度下降,批梯度下降,small batch 梯度下降三种方式

  

  • 逻辑回归的目的:

   将数据二分类,提高准确率

  • 逻辑回归如何分类:

   逻辑回归作为回归,如何应用到分类上去?y值确实是一个连续的变量。逻辑回归的做法是划定一个阈值,y值大于这个阈值的是一类,y值小于这个阈值的是另外一类。阈值具体如何调整根据实际情况选择。一般会选择0.5做为阈值来划分。

二、Sigmoid函数

 如果我们使用线性回归来预测y的取值。这样做会导致线性回归的结果取值并不为0或1

 逻辑回归使用一个函数来归一化y值,使y的取值在区间(0,1)内,这个函数称为Logistic函数(logistic function),也称为Sigmoid函数(sigmoid function)。函数公式如下:

( g(z) = frac{1}{1+e^{-z}} )

 函数图像如下:

 该函数导数有一个特性:

 

 经过Sigmoid函数转换后的y值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:

( P(y=1|x; heta ) = h_ heta (x) )

( P(y=0|x; heta ) = 1 - h_ heta (x) )

  对上面的表达式合并一下就是:

( P(y|x; heta ) = (h_ heta (x))^y(1-h_ heta (x))^{1-y} )

 

三、推导过程

 梯度上升

  构建完似然函数,我们最大似然估计,最终推导出θ的迭代更新表达式

  只不过这里用的不是梯度下降,而是梯度上升,因为这里是最大化似然函数不是最小化似然函数。我们假设训练样本相互独立,那么似然函数表达式为:

  同样对似然函数取log,转换为:

 

  转换后的似然函数对θ求偏导,在这里我们以只有一个训练样本的情况为例:

 

  这样我们就得到了梯度上升每次迭代的更新方向,那么(  heta  )的迭代表达式为:

 

四、逻辑回归参数

 逻辑回归的模型调优一般考虑对其正则惩罚项系数进行调整,sigmoid函数的选择,在实际场景中一般是保证一定精确率(Precision)的情况下尽可能提高召回率(Recall rate)

 1)class_weight:类型权重参数,默认None,可以输入"balanced"或者一个字典

  该参数用于标示分类模型中各种类型的权重,可以不输入,即不考虑权重,或者说所有类型的权重一样

  如果选择输入的话,可以选择balanced让类库自己计算类型权重,或者我们自己输入各个类型的权重,比如对于0,1的二元模型,可以定义class_weight={ 0:0.9, 1:0.1 },这样类型0的权重为90%,而类型1的权重为10%

  如果class_weight选择balanced,那么类库会根据训练样本量来计算权重。某种类型样本量越多,则权重越低,样本量越少,则权重越高

  sklearn的官方文档中,当class_weight为balanced时,类权重计算方法如下:

  n_samples / (n_classes * np.bincount(y)),n_samples为样本数,n_classes为类别数量,np.bincount(y)会输出每个类的样本数,例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]

  那么class_weight有什么作用呢?在分类模型中,我们经常会遇到两类问题:

  第一种是误分类的代价很高。比如对合法用户和非法用户进行分类,将非法用户分类为合法用户的代价很高,我们宁愿将合法用户分类为非法用户,这时可以人工再甄别,但是却不愿将非法用户分类为合法用户。这时,我们可以适当提高非法用户的权重

  第二种是样本是高度失衡的,比如我们有合法用户和非法用户的二元样本数据10000条,里面合法用户有9995条,非法用户只有5条,如果我们不考虑权重,则我们可以将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%

  但是却没有任何意义。这时,我们可以选择balanced,让类库自动提高非法用户样本的权重

  提高了某种分类的权重,相比不考虑权重,会有更多的样本分类划分到高权重的类别,从而可以解决上面两类问题

 2)sample_weight:样本权重参数

  由于样本不平衡导致我们的模型预测能力下降。遇到这种情况,我们可以通过调节样本权重来尝试解决这个问题

  调节样本权重的方法有两种,第一种是在class_weight使用balanced。第二种是在调用fit函数时,通过sample_weight来自己调节每个样本权重

  在scikit-learn做逻辑回归时,如果上面两种方法都用到了,那么样本的真正权重是class_weight * sample_weight

 3)penalty:正则化参数:’l1’,’l2’.默认是’l2’

  在调参时如果我们主要的目的只是为了解决过拟合,一般penalty选择L2正则化就够了。但是如果选择L2正则化发现还是过拟合,即预测效果差的时候,就可以考虑L1正则化

  另外,如果模型的特征非常多,我们希望一些不重要的特征系数归零,从而让模型系数稀疏化的话,也可以使用L1正则化

  penalty参数的选择会影响我们损失函数优化算法的选择。即参数solver的选择

 4)C:smaller values specify stronger regularization

五、手撕逻辑回归

 1)数据获取加header

import pandas as pd
import numpy as np
 
#数据没有标题,因此加上参数header
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',
                 header=None)
 
column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size',
                'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell Size',
                'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']
df.columns = column_names

df[df['Sample code number'] == 1057067]

  我们发现有些特征存在空值:

  去掉空值:

df = df.dropna(how='any')
print(df.shape) # 剩下683个样本:(683, 11)
df[df['Sample code number'] == 1057067]

  可以发现已经不存在这个样本了,已经被去掉了:

  分割数据:

import warnings
warnings.filterwarnings('ignore')
 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

#一般1代表恶性,0代表良性(本数据集4恶性,所以将4变成1,将2变成0)
#df['Class'][data['Class'] == 4] = 1
#df['Class'][data['Class'] == 2] = 0
df.loc[ df['Class'] == 4, 'Class' ] = 1
df.loc[ df['Class'] == 2, 'Class' ] = 0

#Sample code number特征对分类没有作用,将数据集75%作为训练集,25%作为测试集
X_train, X_test, y_train, y_test = train_test_split(df[column_names[1:10]], df[column_names[10]],
                                                    test_size = 0.25, random_state = 33)

 
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)

X_train = np.round(X_train, 2)
X_test = np.round(X_test, 2)

y_train = np.array(y_train)
y_test = np.array(y_test
                 )
print(X_train.shape, X_test.shape)  # (512, 9) ,(171, 9) 加和正好是683

  展示一些数据吧:

print(X_train[0:5])
print('
')
print(X_test[0:5])
# 前五条
'''
[[-1.19 -0.69 -0.04 -0.62 -0.53 -0.67 -0.56 -0.59 -0.34]
 [-1.19  0.31 -0.04  2.55  0.37  1.87  0.69  1.09 -0.34]
 [ 0.24 -0.03 -0.72 -0.62 -0.53 -0.67 -0.97 -0.59 -0.34]
 [-1.19 -0.69 -0.72 -0.62 -0.53 -0.67 -0.14 -0.59 -0.34]
 [-1.19 -0.69 -0.72 -0.62 -0.53 -0.67 -0.14 -0.59 -0.34]]


[[ 0.24  0.31  0.65 -0.62  2.18 -0.67 -0.14  1.09 -0.34]
 [-0.47 -0.69 -0.72 -0.62 -0.53 -0.67 -0.56 -0.59 -0.34]
 [ 2.04  1.63  1.67 -0.27  2.18  1.87  0.27  1.77  4.97]
 [-0.12  1.63  0.99  0.44 -0.08  0.18  2.76  1.09 -0.34]
 [ 0.24 -0.36  0.3  -0.62 -0.98 -0.67 -0.97 -0.59 -0.34]]
'''

  你要知道我们的目的就是找到w和b,能够让我们的训练集误差最小,而我们的数据集特征维度是:dim = 9,所以w长度就是9

 2)正向传播

  我们先初始化一个w和b

def initialize_with_zeros(dim):
    w = np.zeros((dim,1))
    b = 0
    return w,b

# 这里dim = 9
'''
[[0.]
 [0.]
 [0.]
 [0.]
 [0.]
 [0.]
 [0.]
 [0.]
 [0.]]
'''

  定义激励函数:

def sigmoid(z):
    a = 1/(1+np.exp(-z))
    return a

  正向传播:

# 这里的X就是我们的训练集,只是形状为:(dim, 512),也就是X_train进行了转置
# 因为机器学习领域,我们所指的向量都是列向量
# X_train.shape = (512, 9),转置后为(9 , 512),每一列就是一个样本的特征向量值

w, b = initialize_with_zeros(9)
X = X_train.T

A = sigmoid(np.dot(w.T,X)+b)
print(A.shape) # (1, 512),得到这个向量,表示每个样本的wx + b的值经过激活函数
print(A)
# 因为初始化w的9个分量都是0,所以激活前值为0,经过激活函数得到0.5

其实这就是逻辑回归的第二个假设:假设该样本为正的概率:

( P(y=1|x; heta ) = frac{1}{1+e^{-z}} = frac{1}{1+e^{- heta^Tx}} )

 

  损失:该轮所有训练样本的平均损失:也就是上面的负对数损失函数

m = X.shape[1] # 样本数目
Y = y_train
cost = -( np.sum( Y*np.log(A) + (1-Y)*np.log(1-A) ) ) / m
cost

'''
0.6931471805599453
'''

   有了该轮的损失,下面我们就是想法通过调整权重w和偏置b,重新计算cost,使得cost能够降低(比当前cost:0.69小)

 

 3)极大似然函数

  上面我们也说过:逻辑回归的损失函数是它的极大似然函数(没毛病吧,老铁!我们只需要求一个最佳的参数w,能够使得所有样本的概率值之积最大)

  可是这么多样本,概率都在0-1之间,相乘后的结果值会很小很小,所以才会取对数,求最大值(梯度下降来求最小值,所以我们可以对目标函数取负值,然后求新的目标函数最小值,就可以使用梯度下降啦

  我们可以参考上面的推导过程:我这里画了一个图,对与一个样本的梯度和所有样本的梯度计算以及如何更新一个权重$w_1$,到如何更新9个权重$w_9$,这里的512是训练样本数量,共9个特征值

  自己计算可以一个样本一个样本来,程序可以利用矩阵运算一下子求出dw和db:

def propagate(w, b, X, Y):
    """
    传参:
    w -- 权重, shape: (dim, 1)
    b -- 偏置项, 一个标量
    X -- 数据集,shape: (dim, m),m为样本数
    Y -- 真实标签,shape: (1,m)

    返回值:
    cost, dw ,db,后两者放在一个字典grads里
    """
    #获取样本数m:
    m = X.shape[1]
    
    # 前向传播 :
    A = sigmoid(np.dot(w.T,X)+b)    # 调用前面写的sigmoid函数    
    cost = -(np.sum(Y*np.log(A)+(1-Y)*np.log(1-A)))/m                 
    
    # 反向传播:
    dZ = A-Y
    dw = (np.dot(X,dZ.T)) / m
    db = (np.sum(dZ)) / m
  
    #返回值:
    grads = {"dw": dw,
             "db": db}
    
    return grads, cost

  有了梯度,我们再根据学习率,来求出每次的步长,来进行梯度上升或者下降(上升或者下降取决于你对损失函数是否添加了符号)

  然后我们经过多轮训练,反复调整权重$w$:

def optimize(w, b, X, Y, num_iterations, learning_rate, print_cost = False):
    #定义一个costs数组,存放每若干次迭代后的cost,从而可以画图看看cost的变化趋势:
    costs = []
    #进行迭代:
    for i in range(num_iterations):
        # 用propagate计算出每次迭代后的cost和梯度:
        grads, cost = propagate(w,b,X,Y)
        dw = grads["dw"]
        db = grads["db"]
        
        # 用上面得到的梯度来更新参数:
        w = w - learning_rate*dw
        b = b - learning_rate*db
        
        # 每100次迭代,保存一个cost看看:
        if i % 100 == 0:
            costs.append(cost)
        
        # 这个可以不在意,我们可以每100次把cost打印出来看看,从而随时掌握模型的进展:
        if print_cost and i % 100 == 0:
            print ("Cost after iteration %i: %f" %(i, cost))
            
    #迭代完毕,将最终的各个参数放进字典,并返回:
    params = {"w": w,
              "b": b}
    grads = {"dw": dw,
             "db": db}
    return params, grads, costs

  最后我们就可以根据训练结果来进行预测啦:

def predict(w,b,X):
    m = X.shape[1]
    Y_prediction = np.zeros((1,m))

    A = sigmoid(np.dot(w.T,X)+b)
    
    for  i in range(m):
        if A[0,i]>0.5:
            Y_prediction[0,i] = 1
        else:
            Y_prediction[0,i] = 0

    return Y_prediction

def logistic_model(X_train,Y_train,X_test,Y_test,learning_rate=0.1,num_iterations=2000,print_cost=False):
    #获特征维度,初始化参数:
    dim = X_train.shape[1]
    W,b = initialize_with_zeros(dim)

    #梯度下降,迭代求出模型参数:
    params,grads,costs = optimize(W,b,X_train.T,Y_train,num_iterations,learning_rate,print_cost)
    W = params['w']
    b = params['b']

    #用学得的参数进行预测:
    prediction_train = predict(W,b,X_train.T)
    prediction_test = predict(W,b,X_test.T)
    
    #计算准确率,分别在训练集和测试集上:
    accuracy_train = 1 - np.mean(np.abs(prediction_train - Y_train))
    accuracy_test = 1 - np.mean(np.abs(prediction_test - Y_test))
    print("Accuracy on train set:",accuracy_train )
    print("Accuracy on test set:",accuracy_test )

   #为了便于分析和检查,我们把得到的所有参数、超参数都存进一个字典返回出来:
    d = {"costs": costs,
         "Y_prediction_test": prediction_test , 
         "Y_prediction_train" : prediction_train , 
         "w" : w, 
         "b" : b,
         "learning_rate" : learning_rate,
         "num_iterations": num_iterations,
         "train_acy":accuracy_train,
         "test_acy":accuracy_test
        }
    return d

d = logistic_model(X_train, np.array(y_train), X_test, np.array(y_test), learning_rate = 0.005, num_iterations = 2000,  print_cost = True)

  这里矩阵运算注意来回转置,其实不必去注意这种转换,个人觉得没有必要去扣这种细节,反正原矩阵相乘不行,那就转置相乘,就到这里吧

原文地址:https://www.cnblogs.com/always-fight/p/9099704.html