LSI note

Latent semantic indexing是一项基于SVD分解的语义级别的文本索引技术。

具体步骤如下:

一、创建矩阵

X 的行为词,列为文档,X[ i, j ]为第i个词在第j篇文档之中出现的次数。对X进行SVD分解。得到

clip_image002

T和D都是正交向量,S是奇异值的对角阵。

clip_image004

得到T和D之后,就可以对原坐标进行变换,将较大奇异值所对应的特征向量保留下来。使T’和D’对原坐标进行变换,得到语义空间的坐标。提供三种比较,

1. 词与词之间的比较

clip_image006

2. 文档与文档之间的比较

clip_image008

3. 词与文档之间的比较

clip_image010

二、检索

例如,我们新输入一串关键词(在这里我们看作是小型的文档)。我们的目标是找出与我们输入的关键词语义相近的一系列文档。对关键词建立矩阵Xq

clip_image012

然后,Dq就可以像D的行向量一样,用来乘以S1/2或者S,来和TS1/2或者DS的行做cos比较了。

参考照料为:indexing by latent semantic analysis 1990

原文地址:https://www.cnblogs.com/hengli/p/2519234.html