搜索引擎的系统结构

        一直以来对搜索引擎很有兴趣,但杂事繁多,不能定下心来好好学学这方面。现在正值毕业阶段,有家公司正好想做搜索引擎,顿时挑起了我的兴趣,很想用ASP.NET自己实现一个。如果有志同道合的朋友请加我MSN:xbfu@asiatom.com(原留QQ因糊涂而被骗),大家多交流交流。
        在网上查了不少搜索引擎的资料,发现搜索引擎还真的是牵涉到不少技术,纷繁复杂。看了一些后,对关于搜索引擎体系结构方面的东西做个整理。
        搜索引擎大体上可分为三类:全文检索搜索引擎、目录搜索引擎和元搜索引擎。具体不介绍了,主要是全文检索搜索引擎,它可称是严格意义上的搜索引擎。我主要还是学习这种类型的搜索引擎。
全文检索搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。
        具体地说这个过程是这样的。"网络蜘蛛"(一个能自动从互联网上收集网页,并沿URL"爬行"的程序)从互联网上抓取网页,把网页送入"网页数据库",从网页中"提取URL",把URL送入"URL数据库","蜘蛛控制"得到网页的URL,控制"网络蜘蛛"抓取其它网页,反复循环直到把所有的网页抓取完成。系统从"网页数据库"中得到文本信息,送入"文本索引"模块建立索引,形成"索引数据库"。同时进行"链接信息提取",把链接信息(包括锚文本、链接本身等信息)送入"链接数据库",为"网页评级"提供依据。"用户"通过提交查询请求给"查询服务器",服务器在"索引数据库"中进行相关网页的查找,同时"网页评级"把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过"查询服务器"按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给"用户"。
        以上这些可以让我们了解一个搜索引擎的整体结构了,接下来是动手时间了哦
        2005年12月16日14:33:08
原文地址:https://www.cnblogs.com/fxb248/p/298497.html