[IR课程笔记]概率检索模型

几个符号意义:

     R:相关文档集

       NR:不相关文档集

       q:用户查询

       dj:文档j

1/0风险情况

     PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序。

      贝叶斯最优决策原理,基于最小损失风险作出决策,返回相关的可能性大于不相关的可能性的文档:

       基于检索代价的概率排序原理:

    

       crrP(R|D) + crnP(NR|D) < cnrP(R|D) + cnnP(NR|D)

如何计算概率

       文档d可以表示为向量(d1,d2,...,dn

       pi = P(di=1|R)       1-pi =  P(di=0|R)

       qi = P(di=1|NR)     1-q=  P(di=0|NR)

   

            对这个式子取对数:

如何得到初始的R和NR

        pi=c     ,        c通常取0.5

           qi=ni/N          ni表示有di出现的文档的个数,N表示整个文档集数量。

improve it:

          对一个查询q,根据初始的R和NR,可以得到前k个返回结果。然后把这k个结果加入R集中。此时,概率计算方法为:

          

            pi = P(di | R) = si / t

         qi = P(di | NR) = (ni - si) / (N - t)

         si表示的是t个文档中包含di的个数

平滑

          pi  =  (si+0.5)/(t+1)

          qi  =  ((ni - si+0.5) / (N - t+1))

加权

           

            将上式的di换成wi.di表示词语di出现则为1,不出现则为0

             

           BM25加权方法

原文地址:https://www.cnblogs.com/leeshum/p/4889886.html