3.4 网页分析算法

在搜索引擎中,爬虫爬取了对应的网页之后,会将网页存储到服务器的原始数据库中,之后
搜索引擎会对这些网页进行分析并确定各网页的重要性,即会影响用户的检索的排名结果。
对于这些重要性的确定及排名结果的确定需要算法来解决,所以先来了解一下算法。

搜索引擎的网页分析算法主要分为3类:基于用户行为的网页分析算法、基于网络拓扑的
网页分析算法、基于网页内容的网页分析算法。接下来我们分别对这些算法进行讲解。

搜索引擎的网页分析算法主要分为3类:基于用户行为的网页分析算法、基于网络拓扑的网页
网页分析算法、基于网页内容的网页分析算法。

1 基于用户行为的网页分析算法

这种算法中,会依据用户对这些网页的访问行为,对这些网页进行评价,比如,依据用户对
该网页的访问频率、用户对网页的访问时长、用户的单击率等信息对网页进行综合评价。

2 基于网络拓扑的网页分析算法

基于网络拓扑的网页分析算法是依靠网页的链接关系、结构关系、已知网页或数据等对网页
进行分析的一种算法,所谓拓扑,简单来说即结构关系的意思。基于网络拓扑的网页分析
算法,同样主要可以细分为3种类型:基于网页粒度的分析算法、基于网页块粒度的分析算
法、基于网站粒度的分析算法。

PageRank算法是一种比较典型的基于网页粒度的分析算法。它是谷歌搜索引擎的核心算法,
简单来说,它会根据网页之间的链接关系对网页的权重进行计算,并可以依靠这些计算出来
的权重,对网页进行排名。具体的算法细节有很多,在下也不懂。除了PageRank算法之外,
HITS算法也是一种常见的基于网页粒度的分析算法。

基于网页块粒度的分析算法,也是依靠网页间链接关系进行计算的,但计算规则有所不同。
我们知道,在一个网页中通常会包含多个超链接,但一般其指向的外部链接中并不是所有的
链接都与网站主题相关,或者说,这些外部链接对该网页的重要程度是不一样的,所以若要
基于网页块粒度进行分析,则需要对一个网页中的这些外部链接划分层次,不同层次的外部
链接对于该网页来说,其重要程度不同。这种算法的分析效率和准确率,会比传统的算法好
一些。

基于网页粒度的分析算法,也与pagerank算法类似。而基于网站粒度进行分析,相应的,会
使用siterank算法。即此时我们会划分站点的层次和等级,而不再具体的计算站点下的各个
网页的等级。所以其相对于基于网页粒度的算法来说,则更加简单高效,但是会带来一些缺
点,比如精确度不如基于网页粒度的分析算法精确。


3 基于网页内容的网页分析算法
在基于网页内容的网页分析算法中,会依据网页的数据、文本等网页内容特征,对网页进行相
应的评价。

高手们如果有算法的具体介绍的文章,孩请分享,谢谢爬爬!

原文地址:https://www.cnblogs.com/papapython/p/7461983.html