自然语言处理-----机器学习术语学习

机器学习有关术语

模型:模型是用来指导机器自动学习出另一个算法的“元算法”。

特征:将事物的特点转化的数值。

特征提取:将事物的特点转化为数值类型的特征,然后让算法根据数据自动得到特征之间的权重。权重又称模型参数。

特征模板:通过程序定义一套模板提取特征,把所有可能的特征全部覆盖。

特征工程:如何挑选特征,如何设计特征模板。

数据集:用来得到模型参数的数据集合。

使用数据集要考虑什么?

1.数据集的规模。

2.数据集标注的质量。

3.数据集的授权。

监督学习:结果可以标准答案作比较,然后根据误差纠正模型的错误。

当机器经过反复的学习,反复的将误差减小,此时这一过程称为迭代

这种在有标签的数据集上迭代学习的过程称为训练。

无监督学习:该方法不需要标注数据。一般用于聚类降维两种方法。

无监督学习的缺点:

1.模型无法捕捉到用户的标准,最终预测的结果往往与用户心目中的理想答案相去甚远。

2.准确率比有监督学习低十几个或几十个百分点。

负样本:Negative training data

不在关系库中且没有明确关系的样本

前沿课题

半监督学习:训练多个模型,对同一个实例进行预测,得到多个结果。如果结果多数一致。便将结果和实例放在一起作为新的训练样本。

强化学习:一边预测,一边根据环境的反馈规划下次决策。

迁移学习:  通过参数共享,层共享,实现多任务

语料库的建设:

1.规范制定:语言学专家分析并制定出一套标注规范。

2.人员培训:大型语料库往往需要多人协同标注,需要标注员对规范的理解达成一致。

3.标注软件:brat支持词性标注、命名实体识别和句法分析等任务。支持多人标注功能,拖曳式操作。

 

原文地址:https://www.cnblogs.com/liuguangshou123/p/13288946.html