[自然语言处理] 文本向量化技术

前期准备

使用文本向量化的前提是要对文章进行分词,分词可以参考前一篇文章。然后将分好的词进行向量化处理,以便计算机能够识别文本。常见的文本向量化技术有词频统计技术、TF-IDF技术等。

词频统计技术

词频统计技术是很直观的,文本被分词之后。 用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。然后给每个维度使用词频当作权值。词频统计技术默认出现频率越高的词权重越大。

举例说明:

原文:

      句子A:我喜欢看电视,不喜欢看电影。

      句子B:我不喜欢看电视,也不喜欢看电影。

分词结果:

      句子A:我/喜欢//电视,不/喜欢//电影。

      句子B:我//喜欢//电视,也//喜欢//电影。

列出维度:我,喜欢,看,电视,电影,不,也.

统计词频:

      句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0

      句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1

转换为向量:

      句子A[1, 2, 2, 1, 1, 1, 0]

      句子B[1, 2, 2, 1, 1, 2, 1]

可以看出:词频统计技术直观、简单。但是有明显的缺陷:中文中有的词汇,如:“我”,“的”出现频率很高,因此会赋予较高的权值,但是这些词汇本身无意义。因此若要使用词频统计技术,必须要引入停用词将这些无意义的词汇进行过滤。

TF-IDF技术

TF-IDF技术就是为了克服词频统计技术的缺陷而产生的,它引入了“逆文档频率”概念,它衡量了一个词的常见程度,TF-IDF的假设是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出,那么它很可能就反映了这篇文章的特性,因此要提高它的权值。
TF-IDF技术的需要维护一个语料库或文件集用于计算每个词的出现频率,频率越高的逆文档频率越小。语料库可以是整个铁路规章制度的集合,也可以是某个规章制度的全文。实践证明,TF-IDF在分词的时候,也需要剔除掉明显的停用词,这样效果会比较好。

例如对于铁路规章制度而言,文本中“列车”一次的词频必然会非常高,但是在其语料库中出现的频率会非常高,因此其权重反而会降低。

原文地址:https://www.cnblogs.com/chengyuanqi/p/7363909.html