Soft-Masked BERT

Soft-Masked BERT

《Spelling Error Correction with Soft-Masked BERT》

最近在研究中文校对相关的东西，自然免不了先阅读前人大作，今天读的是2020ACL的soft-Masked。该文是做中文拼写纠错（CSC），换言之是实现映射函数F: X —> Y，其中len(X)=len(Y).

算法整体还是使用比较主流的Detection+Correction的两级结构，其中Detection使用Bi-GRU，Correction使用作者改进后的soft-masked bert，算法整体结构如下：

　　

Detection

首先，模型的输入是n个中文字符X=(x1，x2，..... ，xn)经过embeddings得到的E = (e1，e2，....，en),该embeding是word embeding+position embeding+segment embeding，经过Bi-GRU得到各个字符错误的概率G = (g1，g2，....，gn)，其中g在0-1之间，越靠近1表示该字符错误的概率越大，其损失函数为：

　　

soft-masked

作者认为只hard-mask了15%字符的Bert不完全具备纠错的能力（至于为啥不具备，作者也没讲清楚，我觉得这里有些牵强），所以作者提出了soft-mask，大致的思路就是利用Detection输出的得分来引导Bert输入的mask，使得得分高(错误概率高)的地方更大概率被mask，公式如下：

　　

Correction

Correction的输入是经过soft-masked的embeding，输出的是生成的字符，损失函数是：

　　

Loss

模型没有分阶段训练，而是直接end-to-end，使用Bert的per-trained模型，损失函数由Detection和Correction线性组合，如下：其中为超参数，后面作者做了关于该参数的消融实验。

　　

Experiment

作者做了两组实验，第一组使用SIGHAN实验：首先用500万数据(来自新闻app，替换其中的15%字符，其中%80为同音字替换，20%为随机替换)进行第一遍fine-tuned，再利用SIGHAN数据上进行fine-tuned。News Title（作者提出的数据集，包含15,730 texts）实验：只在500玩训练数据上进行fine-tuned。实验结果如下：

　　

读者总结

该方法还是比较主流的二阶段方法，先查错再纠错，作者的写作功底很好，方法讲的比较清楚。但是因为需要输入输出对齐，这导致实际使用价值不高，同时，简单的把查错结果利用mask手段加入到纠错输入上，总感觉有点儿隔靴搔痒，同时作者认为传统的hard-mask不适用于CSC领域，这个没搞明白为什么不适用。
参考文献

https://arxiv.org/abs/2005.07421

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/peng-yuan/p/15412346.html