局部敏感哈希Locality Sensitive Hashing(LSH)之随机投影法

1. 概述

LSH是由文献[1]提出的一种用于高效求解最近邻搜索问题的Hash算法。LSH算法的基本思想是利用一个hash函数把集合中的元素映射成hash值，使得相似度越高的元素hash值相等的概率也越高。LSH算法使用的关键是针对某一种相似度计算方法，找到一个具有以上描述特性的hash函数。LSH所要求的hash函数的准确数学定义比较复杂，以下给出一种通俗的定义方式：

对于集合S，集合内元素间相似度的计算公式为sim(*,*)。如果存在一个hash函数h(*)满足以下条件：存在一个相似度s到概率p的单调递增映射关系，使得S中的任意两个满足sim(a,b)>=s的元素a和b，h(a)=h(b)的概率大于等于p。那么h(*)就是该集合的一个LSH算法hash函数。

一般来说在最近邻搜索中，元素间的关系可以用相似度或者距离来衡量。如果用距离来衡量，那么距离一般与相似度之间存在单调递减的关系。以上描述如果使用距离来替代相似度需要在单调关系上做适当修改。

根据元素相似度计算方式的不同，LSH有许多不同的hash算法。两种比较常见的hash算法是随机投影法和min-hash算法。本文即将介绍的随机投影法适用于集合元素可以表示成向量的形式，并且相似度计算是基于向量之间夹角的应用场景，如余弦相似度。min-hash法在参考文献[2]中有相关介绍。

2 随机投影法(Random projection)

假设集合S中的每个元素都是一个n维的向量：

，集合中两个元素

对于以上元素集合S的随机投影法hash函数h(*)可以定义为如下：

在n维空间中随机选取一个非零向量

根据以上定义，假设向量

以上所描述的h(*)函数虽然符合LSH算法的要求，但是实用性不高。因为该hash函数只产生了两个hash值，没有达到hash函数将元素分散到多个分组的目的。为了增加不同hash值的个数，可以多次生成独立的函数h(*)，只有当两个元素的多个h(*)值都相等时才算拥有相同的hash值。根据该思路可以定义如下的hash函数H(*)：

以H(*)为hash函数的话，两个相似度为s的元素具有相同hash值的概率公式为

3 随机投影法在最近邻搜索中的应用

3.1 最近邻搜索

最近邻搜索可以简单的定义为：对于m个元素的集合T，为一个待查询元素q找到集合中相似度最高的k个元素。

最近邻搜索最简单的实现方法为：计算q与集合T中每一个元素的相似度，使用一个具有k个元素的大顶堆（优先队列）保存相似度计算结果（相似度值为key）。这种实现方法每一次查询都要遍历整个集合T来计算相似度，当m很大并且查询的频率很高的时候这种暴力搜索的方法无法满足性能要求。

当最近邻搜索的近邻要求并不是那么严格的时候，即允许top k近邻的召回率不一定为1（但是越高越好），那么可以考虑借助于LSH算法。

3.2 随机投影法提高执行速度

这里我们介绍当集合T的元素和查询元素q为同维度向量(维度为n)，并且元素相似度计算方法为余弦相似度时，使用随机投影法来提高最近邻搜索的执行速度。具体的实现方法为：

预处理阶段：使用hash函数H(*)计算集合T中所有元素的hash值，将集合T分成一个个分组，每个分组内的元素hash值均相等。用合适的数据结构保存这些hash值到分组的映射关系（如HashMap）。

查询阶段：计算查询元素q的hash值H(q)，取集合T中所有hash值为H(q)的分组，以该分组内的所有元素作为候选集合，在候选该集合内使用简单的最近邻搜索方法寻找最相似的k个元素。

该方法的执行效率取决于H(*)的hash值个数

根据以上分析H(*)中b的取值越大算法的执行速度的提升越多，并且是指数级别的提升。但是，在这种情况下H(*)函数下的概率公式p(s)，实际上表示与查询元素q的相似度为s的元素的召回率。当b的取值越大时，top k元素的召回率必然会下降。因此算法执行速度的提升需要召回率的下降作为代价。例如：当b等于10时，如果要保证某个元素的召回率不小于0.9，那么该元素与查询元素q的相似度必须不小于0.9999998。

3.3 提高召回率改进

为了在保证召回率的前提下尽可能提高算法的执行效率，一般可以进行如下改进：

预处理阶段：生成t个独立的hash函数

查询阶段：对于每一个hash函数

以上改进使得集合中元素与查询元素q的t个hash值中，只要任意一个相等，那么该集合元素就会被加入到候选集中。那么，相似度为s的元素的召回率为

在执行效率上，预处理阶段由于需要计算t个hash函数的值，所以执行时间上升为t倍。查询阶段，如果单纯考虑候选集合大小对执行效率的影响，在最坏的情况下，t个hash值获得的列表均不相同，候选集集合大小的期望值为

下图是召回率公式

3.4 参数选取

根据以上分析，H(*)函数的参数b越大查询效率越高，但是召回率越低；参数t越大查询效率越低但是召回率越高。因此选择适当参数b和t来折中查询效率与召回率之间的矛盾是应用好随机投影法的关键。下面提供一种在实际应用中选取b和t的参考方法。

根据实际应用的需要确定一对(s,p)，表示相似度大于等于s的元素，召回率的最低要求为p。然后将召回率公式表示成b-t之间的函数关系

3.5 关于最近邻文本搜索

在最近邻文本搜索中，一般待检索的文本或查询文本，都已被解析成一系列带有权重的关键词，然后通过余弦相似度公式计算两个文本之间的相似度。这种应用场景下的最近邻搜索与以上所提到的最近邻搜索问题相比存在以下两个特点：

如果把每个文本的带权重关键词表都看作是一个向量元素的话，每个关键词都是向量的一个维度，关键词权重为该维度的值。理论上可能关键词的个数并不确定（所有单词的组合都可能是一个关键词），因此该向量元素的维数实际上是不确定的。
由于关键词权重肯定是大于零的，所以向量元素的每一个维度的值都是非负的。

对于第一个特点，我们需要选取一个包含n个关键词的关键词集合，在进行文本相似度计算时只考虑属于该集合的关键词。也就是说，每一个文本都视为是一个n维度的向量，关键词权重体现为对应维度的值。该关键词集合可以有很多种生成办法，比如可以是网站上具有一定搜索频率的关键词集合，总的来说该关键词集合应当能够涵盖所有有意义并且具有一定使用频率的关键词。通常n的取值会比较大，如几十万到几百万，由于在使用随机投影算法时，每一个生成的随机向量维度都为n，这种情况下需要特别考虑利用这些高维随机向量对执行效率造成的影响，在确定b、t参数时需要考虑到这方面的影响。

对于第二个特点，由于向量元素各维度值都非负，那么这些元素在高维空间中只会出现在特定的区域中。比如当n为3时，只会出现在第一象限中。一个直观的感觉是在生成随机向量的时候，会不会生成大量的无用切割平面（与第一个象限空间不相交，使得所有元素都位于切割平面的同侧）。这些切割平面对应的H(*)函数hash值中的二进制位恒定为1或者0，对于提高算法执行速度没有帮助。以下说明这种担心是没有必要的：

切割平面与第一象限空间不相交等价于其法向量的每一个维度值都有相同的符号（都为正或者负），否则总能在第一象限空间中找到两个向量与法向量的乘积符号不同，也就是在切割平面的两侧。那么，随机生成的n维向量所有维度值都同号的概率为

参考文献

[1] P. Indyk and R. Motwani. Approximate Nearest Neighbor:Towards Removing the Curse of Dimensionality. In Proc. of the 30th Annual ACM Symposium on Theory of Computing, 1998, pp. 604–613.

[2] Google News Personalization: Scalable Online Collaborative Filtering

from: http://www.strongczq.com/2012/04/locality-sensitive-hashinglsh%E4%B9%8B%E9%9A%8F%E6%9C%BA%E6%8A%95%E5%BD%B1%E6%B3%95.html