数学之美学习

第一章

通信的原理和信息传播的模型

         模型:信源-信道-接收者

 原理:编码和解码

聚类:概念的归类。

第二章

         没啥可说的,跳过

第三章

         马尔科夫假设:每当一种情况发生的时候,就假设任意一个词出现的概率之和它前面的词有关。

      高阶语言模型

         马尔科夫模型之中,假设任意一个词出现的概率之和它前面的N-1个词有关。实际应用之中至多是N=3。

对数据量较小的数据的处理:

         假设在语料库之中出现r次的词有个,当r(单词在网页之中出现的频度)较小的时候,统计不可靠。因此出现r次的那些词在计算它们的概率的时候要使用一个更小一点的次数,

 

 

语料的选取

         训练语料和模型应用的领域应该有较高的相似度。数据量尽可能的大。尤其是高阶模型,更需要更多的数据。有时,需要对噪声进行处理,在成本不高的情况下,需要过滤训练数据。

原文地址:https://www.cnblogs.com/chengxuyuanxiaowang/p/4507471.html