如何计算两个文档的相似度

一、TF-IDF、余弦相似度、向量空间模型

（1）使用TF-IDF算法，找出两篇文章的关键词；

（2）每篇文章各取出若干个关键词（比如20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了避免文章长度的差异，可以使用相对词频）；

（3）生成两篇文章各自的词频向量；

（4）计算两个向量的余弦相似度，值越大就表示越相似。

二、SVD和LSI

LSA(潜在语义分析)的基本思路：LSA希望通过降低传统向量空间的维度来去除空间中的“噪音”，而降维可以通过SVD实现，因此首先对Term-Document矩阵进行SVD分解，然后降维并构造语义空间。

(奇异值分解详解：http://blog.csdn.net/wangzhiqing3/article/details/7446444#comments)

三、LDA