[自然语言处理] 文本向量化技术

前期准备

使用文本向量化的前提是要对文章进行分词，分词可以参考前一篇文章。然后将分好的词进行向量化处理，以便计算机能够识别文本。常见的文本向量化技术有词频统计技术、TF-IDF技术等。

词频统计技术

词频统计技术是很直观的，文本被分词之后。用每一个词作为维度key，有单词对应的位置为1，其他为0，向量长度和词典大小相同。然后给每个维度使用词频当作权值。词频统计技术默认出现频率越高的词权重越大。

举例说明：

原文：

　　句子A：我喜欢看电视，不喜欢看电影。

　　句子B：我不喜欢看电视，也不喜欢看电影。

分词结果：

　　句子A：我/喜欢/看/电视，不/喜欢/看/电影。

　　句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

列出维度：我，喜欢，看，电视，电影，不，也.

统计词频：

　　句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。

　　句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

转换为向量：

　　句子A：[1, 2, 2, 1, 1, 1, 0]

　　句子B：[1, 2, 2, 1, 1, 2, 1]

可以看出：词频统计技术直观、简单。但是有明显的缺陷：中文中有的词汇，如：“我”，“的”出现频率很高，因此会赋予较高的权值，但是这些词汇本身无意义。因此若要使用词频统计技术，必须要引入停用词将这些无意义的词汇进行过滤。

TF-IDF技术

TF-IDF技术就是为了克服词频统计技术的缺陷而产生的，它引入了“逆文档频率”概念，它衡量了一个词的常见程度，TF-IDF的假设是：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出，那么它很可能就反映了这篇文章的特性，因此要提高它的权值。
TF-IDF技术的需要维护一个语料库或文件集用于计算每个词的出现频率，频率越高的逆文档频率越小。语料库可以是整个铁路规章制度的集合，也可以是某个规章制度的全文。实践证明，TF-IDF在分词的时候，也需要剔除掉明显的停用词，这样效果会比较好。

例如对于铁路规章制度而言，文本中“列车”一次的词频必然会非常高，但是在其语料库中出现的频率会非常高，因此其权重反而会降低。