【笔记】基尼系数

基尼系数

使用信息熵的方式对决策树进行划分

除了时候信息熵来进行划分,还可以使用另一个指标来进行划分,指标就是基尼系数

基尼系数的式子很简单,取值情况和信息熵一样

假设有两个类别,一个占比x,另一个占比1-x,那么上面的式子就可以变成(抛物线)

可以发现这个是以0.5为对称轴的,即0.5的时候取到了最大值,此时数据的不确定性最大

不难发现基尼系数和信息熵的性质很像

具体实现观察一下基尼系数

(在notebook中)

加载好包,使用鸢尾花数据集,只保留前两个维度的特征

  import numpy as np
  import matplotlib.pyplot as plt
  from sklearn import datasets

  iris = datasets.load_iris()
  X = iris.data[:,2:]
  y = iris.target

使用sklearn中的DecisionTreeClassifier,训练一个决策树的分类器,修改criterion为gini

  from sklearn.tree import DecisionTreeClassifier

  dt_clf = DecisionTreeClassifier(max_depth=2,criterion="gini")
  dt_clf.fit(X,y)

绘制函数,绘制图像

from matplotlib.colors import ListedColormap
def plot_decision_boundary(model, axis):

    x0,x1 = np.meshgrid(  
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1)
    )
    X_new = np.c_[x0.ravel(),x1.ravel()]
    
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    
    custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])

    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

  plot_decision_boundary(dt_clf,axis=[0.5,7.5,0,3])
  plt.scatter(X[y==0,0],X[y==0,1])
  plt.scatter(X[y==1,0],X[y==1,1])
  plt.scatter(X[y==2,0],X[y==2,1])

图像如下(和使用信息熵的结果相同)

然后就开始模拟使用基尼系数的划分操作,和信息熵的操作区别不大(信息熵的操作),将基尼系数的公式修改进去,区别为使用基尼系数的时候res初始值为1.0,然后计算式为减去p的平方,对于try_split这个函数,区别不大,修改了变量名,其他的思想相同

  from collections import Counter
  from math import log

  def split(X,y,d,value):
      index_a = (X[:,d] <= value)
      index_b = (X[:,d] > value)
      return X[index_a],X[index_b],y[index_a],y[index_b]

  def gini(y):
      counter = Counter(y)
      res = 1.0
      for num in counter.values():
          p = num/len(y)
          res -= p ** 2
      return res

  def try_split(X,y):

      best_g = 1e9
      best_d,best_v = -1,-1
      for d in range(X.shape[1]):
          sorted_index = np.argsort(X[:,d])
          for i in range(1,len(X)):
              if X[sorted_index[i-1],d] != X[sorted_index[i],d]:
                  v = (X[sorted_index[i-1],d] + X[sorted_index[i],d]) / 2
                  X_l,X_r,y_l,y_r = split(X,y,d,v)
                  g = gini(y_l) + gini(y_r)
                  if g < best_g:
                      best_g,best_d,best_v = g,d,v
                
      return best_g,best_d,best_v

使用这个函数,将结果打印出来

  best_g,best_d,best_v = try_split(X,y)
  print("best_g = ",best_g)
  print("best_d = ",best_d)
  print("best_v = ",best_v)

结果如下(与图像符合)

存储划分结果以后输出观察一下y1_l和y1_r的情况

  X1_l,X1_r,y1_l,y1_r = split(X,y,best_d,best_v)
  gini(y1_l)
  gini(y1_r)

结果如下

然后再次进行划分,得到结果打印输出出来

  best_g2,best_d2,best_v2 = try_split(X1_r,y1_r)
  print("best_g = ",best_g2)
  print("best_d = ",best_d2)
  print("best_v = ",best_v2)

结果如下

将再次打印的结果存储以后,输出观察一下y2_l和y2_r的情况

  X2_l,X2_r,y2_l,y2_r = split(X1_r,y1_r,best_d2,best_v2)
  gini(y2_l)
  gini(y2_r)

结果如下

以上就是模拟使用基尼系数进行划分的操作

关于信息熵和基尼系数的对比

通过算式可以发现,信息熵的计算比基尼系数要慢一些,更复杂,整体而言,两种方式的效果区别不大,没有特别的优劣之分

原文地址:https://www.cnblogs.com/jokingremarks/p/14341947.html