从搜索的角度看互联网

互联网可以看成一个超级大的“图”,而每个页面可以看作是一个“节点”,页面中的链接可以看成是图的“有向边”。因此,能够通过国的遍历的方式对互联网这个超级大“图”进行访问。图的遍历通常可分为宽度优先遍历和深度优先遍历。

       指定的网址可以作为种子链接。下面来确定链接的子节点:

    每个链接对应一个HTML页面或者其他文件(word、execl、pdf、jpg等)

    只有HTML页面有相应的“子节点”,这些“子节点”就是HTML页面上对应的超链接。这些子节点本身又是一个链接。

    对于非HTML文档,比如Eecel文件等,不能从中提取超链接。因此,可以看作是图的“终端”节点。

原文地址:https://www.cnblogs.com/xcxinghai/p/3283907.html