LSA

 

它是topic models的一种方法,这一堆docs是这个topic,那一堆docs是另一个topic,同一个topic的docs大概率含有与这个topic相关的词,比如这个topic是动物,那么这些docs很可能出现猫猫狗狗。

步骤:

  • 词项归一化

  • 生成词项—文本矩阵W

  • 对W做SVD分解img

  • X矩阵是词项与词的topics的

  • B矩阵是词的topics与文章的topics

  • Y是文章的topics与文章的

原文地址:https://www.cnblogs.com/war1111/p/14224408.html