【笔记】基尼系数

基尼系数

使用信息熵的方式对决策树进行划分

除了时候信息熵来进行划分，还可以使用另一个指标来进行划分，指标就是基尼系数

基尼系数的式子很简单，取值情况和信息熵一样

假设有两个类别，一个占比x，另一个占比1-x，那么上面的式子就可以变成（抛物线）

可以发现这个是以0.5为对称轴的，即0.5的时候取到了最大值，此时数据的不确定性最大

不难发现基尼系数和信息熵的性质很像

具体实现观察一下基尼系数

（在notebook中）

加载好包，使用鸢尾花数据集，只保留前两个维度的特征

  import numpy as np
  import matplotlib.pyplot as plt
  from sklearn import datasets

  iris = datasets.load_iris()
  X = iris.data[:,2:]
  y = iris.target

使用sklearn中的DecisionTreeClassifier，训练一个决策树的分类器，修改criterion为gini

  from sklearn.tree import DecisionTreeClassifier

  dt_clf = DecisionTreeClassifier(max_depth=2,criterion="gini")
  dt_clf.fit(X,y)

绘制函数，绘制图像

from matplotlib.colors import ListedColormap
def plot_decision_boundary(model, axis):

    x0,x1 = np.meshgrid(  
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1)
    )
    X_new = np.c_[x0.ravel(),x1.ravel()]
    
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    
    custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])

    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

  plot_decision_boundary(dt_clf,axis=[0.5,7.5,0,3])
  plt.scatter(X[y==0,0],X[y==0,1])
  plt.scatter(X[y==1,0],X[y==1,1])
  plt.scatter(X[y==2,0],X[y==2,1])

图像如下（和使用信息熵的结果相同）

然后就开始模拟使用基尼系数的划分操作，和信息熵的操作区别不大（信息熵的操作），将基尼系数的公式修改进去，区别为使用基尼系数的时候res初始值为1.0，然后计算式为减去p的平方，对于try_split这个函数，区别不大，修改了变量名，其他的思想相同

  from collections import Counter
  from math import log

  def split(X,y,d,value):
      index_a = (X[:,d] <= value)
      index_b = (X[:,d] > value)
      return X[index_a],X[index_b],y[index_a],y[index_b]

  def gini(y):
      counter = Counter(y)
      res = 1.0
      for num in counter.values():
          p = num/len(y)
          res -= p ** 2
      return res

  def try_split(X,y):

      best_g = 1e9
      best_d,best_v = -1,-1
      for d in range(X.shape[1]):
          sorted_index = np.argsort(X[:,d])
          for i in range(1,len(X)):
              if X[sorted_index[i-1],d] != X[sorted_index[i],d]:
                  v = (X[sorted_index[i-1],d] + X[sorted_index[i],d]) / 2
                  X_l,X_r,y_l,y_r = split(X,y,d,v)
                  g = gini(y_l) + gini(y_r)
                  if g < best_g:
                      best_g,best_d,best_v = g,d,v
                
      return best_g,best_d,best_v

使用这个函数，将结果打印出来

  best_g,best_d,best_v = try_split(X,y)
  print("best_g = ",best_g)
  print("best_d = ",best_d)
  print("best_v = ",best_v)

结果如下（与图像符合）

存储划分结果以后输出观察一下y1_l和y1_r的情况

  X1_l,X1_r,y1_l,y1_r = split(X,y,best_d,best_v)
  gini(y1_l)
  gini(y1_r)

结果如下

然后再次进行划分，得到结果打印输出出来

  best_g2,best_d2,best_v2 = try_split(X1_r,y1_r)
  print("best_g = ",best_g2)
  print("best_d = ",best_d2)
  print("best_v = ",best_v2)

结果如下

将再次打印的结果存储以后，输出观察一下y2_l和y2_r的情况

  X2_l,X2_r,y2_l,y2_r = split(X1_r,y1_r,best_d2,best_v2)
  gini(y2_l)
  gini(y2_r)

结果如下

以上就是模拟使用基尼系数进行划分的操作

关于信息熵和基尼系数的对比

通过算式可以发现，信息熵的计算比基尼系数要慢一些，更复杂，整体而言，两种方式的效果区别不大，没有特别的优劣之分