如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题

如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题

考虑一个极端情况,某个属性(特征)的取值很多,以至于每一个取值对应的类别只有一个。这样根据$$H(D) - H(D|A)$$可以得知后面的那一项的值为0。这样得到信息增益会很大。C4.5算法加了一个惩罚项$$H_A(D) = -sum_{i=1}^ndfrac{|D_i|}{|D|}log_2dfrac{|D_i|}{|D|}$$,如果(D_i)越小,那么该惩罚项的值就越大。这样便解决了ID3算法的问题。

原文地址:https://www.cnblogs.com/crackpotisback/p/8717414.html