搜索引擎 中 排序学习 的小思考

问题:

 

排序是搜索引擎的一个核心问题,早年的排序设计主要是使用排序模型,目前更多的是使用机器学习。排序模型的发展可以分为两个阶段,第一个阶段是基于词频和位置统计的排序模型,如布尔模型、向量空间模型等;第二个阶段是基于链接分析的排序模型,如PageRank模型等。然而排序模型在实际应用过程中存在如下问题:

1.模型参数的调整不方便,当模型需要调整的参数数量很大的时候,传统的排序模型不能很好的处理。

2.模型的整合不方便,每个模型都有各自的优缺点,如何将他们整合成更优秀的排序模型。

3.排序模型的过拟合问题。

这些问题其实是所有建模过程都会碰到的问题,通过机器学习处理这些问题可以更加的方便,这个过程也称为排序学习,排序学习是目前的研究热点之一。在排序学习中,起初人们使用较多的是有监督学习,由于数据集的标注需要耗费大量的时间和人力,那么如何更有效地利用未经过标注的数据成为业界日益关心的问题,已经有很多工作利用半监督学习的方法使用未标注的数据提高排序模型的性能,还有一部分学者在研究利用用户行为特征来调整模型。

我想说的就是后者
 
小思考:
使用 有展现搜索结果的点击率,点击次数 作为 对结果数据进行自动标注的重要参考
然后使用机器学习对模型进行改进。
 
我不是专门研究这个的,但我想知道,目前像Google,Baidu是否已经采用了类似这种方法
如果谁知道,可否说详细点,谢谢。
 
参考《走进搜索引擎》潘雪峰
原文地址:https://www.cnblogs.com/2010Freeze/p/3358567.html