最大概率法分词中词频惩处因子的作用探究

在最大概率法分词的程序中，因为每一个词出现的次数分布很不均匀。并且我们要计算每一个词出现的概率，对于出现次数比較少的词概率就很小，求句子中词的概率之积的时候，须要将好多很小的数作乘法，可能会将超出计算机所能表示的数的最小范围。为了便于计算。经常要将每一个词的概率求对数后在进行计算，可是因为对概率求对数后变为负值，因此要求相应的相反数。所以一个词出现的次数越多，最后求得相应的值越小。我们将这个值称为这个单词的代价。单词出现的次数越多。该单词的代价越低。否则代价越高。

第一部分公式推导

        如果：单词S出现的频数为s，词典中全部单词出现的总数为M，则单词S的代价为：
                cost(S) = - log（s/M）                                                          （公式1）
        为了不至于词的频数悬殊过大，我们对全部的词都乘以一个惩处因子k，使词的频数同步的扩张或缩小，观察k的取值对于分词准确率的影响。因此。公式（1）就变为：
                cost(S) = - log（ks/M）                                                        （公式2）

        如今来分析分词的过程：
        假设对于一个汉字串（比如：年前），能够分为一个词（即：年前），也能够分为两个词（即：年/前），如今来分析什么情况下会分为两个词。在上面的样例中。假定用A、B、C分别代表例如以下内容：A为“年”，B为“前”，C为“年前”。

而且“年”和“前”出现的概率极低，“年前”出现概率较高。那么，上面的样例中。汉字串有没有可能被切分为两个词呢？如前所述，终于分词算法会选择一种费用最低的切分方式。

假设该字串要分为两个词。则必需要满足：
                cost(A) + cost(B) < cost(C)                                                   （公式3）
        当中A和B为拆分后的字串。C为未拆分的字串。若用a、b、c分别代表A、B、C的频数，将公式2代入公式3，则有：
                - log(ka/M) – log(kb/M) < - log(kc/M)                                    （公式4）
        将公式4展开：
                - [ log(k) + log(a) – log(M) ] + - [ log(k) + log(b) – log(M) ] < - [ log(k) + log(c) – log(M) ]
        整理：
                log(M) – log(a) – log(b) – log(k) < - log(c)
        即：
      log(Mc/abk) < 0
        也就是：
                Mc < abk
        亦即：
                abk > Mc                                                                                  （公式5）

        从公式5能够看出。在a、b、c和M的大小固定的情况下，仅仅要k的值大于某一个数，公式5就成立，从而公式4和公式3成立。也就是说，当k的值大于一个确定的值的时候。汉字串会被拆为A/B两部分。

        更复杂一点，对于以下的样例：“２日出生于”，仅仅考虑当中的四个汉字。能够有以下两种切分方式：“日/出生/于”和“日出/生于”。假设要切分为三个词，必须满足例如以下的公式：
- log(ka/M) – log(kb/M) – log(kc/M) < - log(kp/M) – log(kq/M)          （公式6）
        展开，整理得：
                abck > Mpq                                                                             （公式7）

        从公式7能够看出，即便是a、b、c远远低于于p、q的频数。仅仅要k的取值合适。总会有公式7成立，继而公式6成立。

因此上面的样例是有可能切分为三个词的。

        观察公式7，将公式两边都乘以k*k。得到：
                abckkk > Mpqkk                                                                      （公式8）
      ak*bk*ck > M*pk*qk                                                                （公式9）

你看出了什么规律？当对全部的单词的频数都乘以一个固定值的时候。频数较少的词也有可能是整体费用较低的。

更一般的情况，将公式9延伸到很多其它的词，说明了什么？

结论：

（1）随着k值增大。程序有将句子切分为很多其它的较短的词的倾向。

即使这些较短的词出现的频率并不多。可是词的长度短意味着能够切出的词的数量多。

因为k的存在，每一个词都会获得一定比例的权重加成，积少成多。众多的词的累积效应终于会超过出现次数较多可是较长的词。通俗来说就是。双拳难敌四手，哈哈。

（2）随着k值减小，程序有将句子切分为更少的较长的词的倾向。理由通上。

第二部分实例验证

对语料选取200个句子进行測试，分别取惩处系数k为表中所列数字。測试结果例如以下：

序号	系数	准确率	召回率	交集型歧义	未登录词语	组合型歧义	总数	标准切分数目	切分得到数目	切分正确数目
1	0.1	95.26%	98.98%	10	255	44	309	5377	5587	5322
2	0.3	95.28%	99.03%	9	255	42	306	5377	5589	5325
3	0.5	95.30%	99.07%	8	255	42	305	5377	5590	5327
4	0.8	95.30%	99.07%	8	255	42	305	5377	5590	5327
5	1	95.28%	99.07%	9	255	41	305	5377	5591	5327
6	5	95.21%	99.33%	6	263	30	299	5377	5610	5341
7	10	94.85%	99.42%	6	284	25	315	5377	5636	5346

1.对上表的内容进行验证：

        （1）当k的值为0.1、0.3、0.5、0.8和1.0时。有例如以下切分错误。当k的值为5.0和10.0时，错误消失。
                  组合型歧义：半年    正确切分：半/年    错误切分：半年
                  组合型歧义：身为    正确切分：身/为    错误切分：身为

        （2）当k的值为0.1时，有例如以下切分错误。当k的值为0.3、0.5、0.8、1.0、5.0和10.0时，错误消失。
                  组合型歧义：不是    正确切分：不/是    错误切分：不是

        （3）当k的值为0.1、0.3时，有例如以下切分错误。当k的值为0.5、0.8、1.0、5.0和10.0时，错误消失。
                  交集型歧义：地表如今    正确切分：地/表现/在    错误切分：地表/如今

        2.对上表内容的分析：
        （1）组合型歧义
        通过分析发现，出错的组合型歧义都是类似于以下的形式，应该是将词语切开而实际上没有切开，通过增大k值。使一些类似的错误得到解决。但仍然有大部分没有解决。理论上来讲。仅仅要k增大到一定程度，这些错误都能够解决，可是同一时候还有可能有其它的副作用，得不偿失。
        组合型歧义：半年    正确切分：半/年    错误切分：半年

        （2）未登录词语
        出错的未登录词语都是例如以下的形式，不该切分而进行了切分。是因为随着k值的增大，把词语切为单字的代价已经小于保留为词语的代价了。加之这些词本身的频数又不太大。因此受k值的影响特别明显。上表中当k=5和k=10时未登录词急剧添加就是这个原因。
        未登录词语：罗织    正确切分：罗织    错误切分：罗/织

        （3）交集型歧义
        某些特殊的交集型歧义是能够通过改变k值来解决的，比方上面的样例（正确和错误切分方式词的数目不一样）。可是多数的交集型歧义形式为例如以下（正确和错误切分方式词的数目一样）：
        交集型歧义：彩笔画    正确切分：彩笔/画    错误切分：彩/笔画

如果有例如以下公式：

cost(A) + cost(B) < cost(C) + cost(D)

      - log(ka/M) – log(kb/M) < - log(kc/M) - log(kd/M)
        终于化简为：
                a + b > c + d                                                                   （公式10）

观察公式10，该公式和k值无关，因此不能通过改变k值的方式来消除这种交集型歧义。