自然语言处理-----机器学习术语学习

机器学习有关术语

模型：模型是用来指导机器自动学习出另一个算法的“元算法”。

特征：将事物的特点转化的数值。

特征提取：将事物的特点转化为数值类型的特征，然后让算法根据数据自动得到特征之间的权重。权重又称模型参数。

特征模板：通过程序定义一套模板提取特征，把所有可能的特征全部覆盖。

特征工程：如何挑选特征，如何设计特征模板。

数据集：用来得到模型参数的数据集合。

使用数据集要考虑什么？

1.数据集的规模。

2.数据集标注的质量。

3.数据集的授权。

监督学习：结果可以标准答案作比较，然后根据误差纠正模型的错误。

当机器经过反复的学习，反复的将误差减小，此时这一过程称为迭代。

这种在有标签的数据集上迭代学习的过程称为训练。

无监督学习：该方法不需要标注数据。一般用于聚类和降维两种方法。

无监督学习的缺点：

1.模型无法捕捉到用户的标准，最终预测的结果往往与用户心目中的理想答案相去甚远。

2.准确率比有监督学习低十几个或几十个百分点。

负样本：Negative training data

不在关系库中且没有明确关系的样本

前沿课题

半监督学习：训练多个模型，对同一个实例进行预测，得到多个结果。如果结果多数一致。便将结果和实例放在一起作为新的训练样本。

强化学习：一边预测，一边根据环境的反馈规划下次决策。

迁移学习： 通过参数共享，层共享，实现多任务

语料库的建设：

1.规范制定：语言学专家分析并制定出一套标注规范。

2.人员培训：大型语料库往往需要多人协同标注，需要标注员对规范的理解达成一致。

3.标注软件：brat支持词性标注、命名实体识别和句法分析等任务。支持多人标注功能，拖曳式操作。