国内外FTP搜索引擎的分析与比较

摘要 当针对HTML网页信息的搜索引擎红红火火的时候,另一种搜索引擎也越来越受到人们的欢迎,它就是基于Web的FTP文件搜索引擎。尽管目前相对WWW搜 索引擎而言,FTP搜索引擎数目不多,技术上也不很成熟,但它的用户量正在上升,越来越受到重视。本文统计研究了当前国际和国内著名的FTP搜索引擎,从 功能、数量、速度等方面进行了分析与比较,描述了FTP搜索引擎的现状并探讨FTP搜索引擎的发展趋势。

关键字 FTP搜索引擎 天网搜索 信息查找 文件搜索

1、 引言

在 因特网上存在着、流动着各种各样的信息,例如email信息、BBS信息、OICQ信息、被HTTP服务器管理的HTML网页,还有被FTP服务器管理的 各种类型的文件。后者是本文关心的对象,它们的典型代表是各种学术和技术文件、计算机软件、多媒体数据。多数FTP服务器都开辟有一个公共访问区,称为" 匿名FTP",对公众提供免费的文件信息服务。FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表,对用户提供文件信息的查询服务。由于FTP搜 索引擎是专门针对各种文件的,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件使用FTP搜索引擎将更加方便直接。

最 早的FTP搜索引擎是基于文本显示的Archie。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。该数据库中包括 大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。可以通过远程登录到Archie主机来使 用Archie服务器,用Archie作为登录名。一旦登录成功,一个Archie程序将自动执行,这时一次输入一条命令,告诉Archie想查寻的内 容,Archie将检索自己的数据库并显示检索的结果。如果用户对自己想要的东西并不太清楚,Archie还提供"whatis"服务项目,该服务提供成 千上万个程序、数据文件和文档的简短说明。

WWW的出现改变了Archie在文件搜索方面的统治地位,在美 观、方便的WWW页面上搜索ftp文件成为用户的自然需求,即人们需要有一种基于Web的FTP搜索引擎。在功能上,基于Web的ftp搜索引擎与 Archie基本一样,都是对用户提交的查询匹配串找到可以下载的ftp站点链接。但基于Web的ftp搜索引擎也有很多特色的功能,比如天网ftp搜索 引擎的文件分类功能就大大便利了用户查找文件的过程,提高了查准率。基于Web的ftp搜索引擎也采用了很多WWW搜索引擎的策略,比如使用Spider 自动收集数据,采用倒排索引,智能换页链接技术以及大型ftp搜索引擎必须采用的分布收集和服务技术。

天网 FTP搜索引擎是北京大学计算机系网络与分布式系统实验室开发的一个产品,目前已经在http://bingle.pku.edu.cn上提供服务,搜集 文件数据量超过一千万,每日用户访问超过40万次,是目前国内规模最大的FTP搜索引擎,也是国际FTP搜索引擎中的佼佼者(试在Google查 询"ftp搜索引擎"!)。以下我们将天网FTP搜索引擎与多个著名的国内外FTP搜索引擎进行分析比较,从而得到全球FTP搜索引擎的现状并探讨其发展 趋势。

2、著名的国际国内FTP搜索引擎

目前国内外ftp搜索引擎已有不少,我们研究了许多FTP搜索引擎,列出下列比较典型和著名的FTP搜索引擎作为本文的讨论对象:

国外著名的FTP搜索引擎:

http://www.philes.com号称全球最大的FTP搜索引擎

http://www.alltheweb.comfastsearch.com的产品,用户有 http://www.lycos.comhttp://www.ftpsearch.net

http://www.filesearching.comChertovy Kulichki Inc的产品

http://www.souborak.cominternauci.pl的产品

http://www.ftpfind.comwww.echo.fr的产品

http://ftpsearch.laplink.com一个很多年没有更新数据的大型FTP搜索引擎

http://parker.vslib.cz作者是Technical University of Liberec Czech Republic的Jiri A. Randus,是国内大部分小型FTP搜索引擎系统的原型。

国内著名的FTP搜索引擎:

北大天网中英文FTP搜索引擎 http://bingle.pku.edu.cn

Nosey Parker家族(以下讨论中我们将取清华9#作为Nosey Parker的代表):

清华9#搜索引擎 http://166.111.136.3

南京理工"一网打尽"搜索引擎 http://bbs.njust.edu.cn/parker

南京理工"轻松搜之" 搜索引擎 http://sesa.nju.edu.cn/cgi-bin/parker/search

百合谷搜索http://clilac.fmmu.edu.cn/

清华ZIXIA搜索http://search.zixia.net/Parker

幻想FTP搜索 http://parker.5470.net.cn

交大思源搜索 http://search.xjtu.edu.cn

全军基因诊断技术研究所FTP引擎http://search.igd.edu.cn

梦轩FTP搜索http://scutftp.yeah.net

中科大天狼中英文搜索引擎 http://search.ustc.edu.cn/

网络指南针 http://compass10.compass.edu.cn

华南理工木棉中英文搜索引擎 http://search.cnkapok.com

FTP星空搜索http://sheenk.com/ftpsearch/search.html

3、搜集文件条目数据量的比较

一个搜索引擎是否大型,就在于其维护的信息量是否足够。据统计,全球匿名FTP服务提供的文件条目已经超过数亿,而中国国内的匿名FTP服务也提供了几千 万的文件。由于很多搜索引擎并没有显式的说明自己的数据库究竟包含了多少个文件条目的信息,我们采用两个通用查询来估测搜索引擎的数据量,一个是子串查询 Winzip,代表Windows平台常见的文件,另一个是子串查询Linux,代表非Windows平台文件。

Ftp搜索引擎数据量的比较:

搜索引擎名称 文件条目总数 站点数量 子串查询Winzip 子串查询Linux
天网FTP搜索引擎 13,000,000 46065 1943 32,479
www.philes.com 209,698,206 没有统计 2249 超过24,000
www.alltheweb.com 没有统计 没有统计 1700 68,000
www.filesearching.com 76,039,149 没有统计 超过2000 超过2,000
www.souborak.com 18,216,064 2388 超过1000 超过1,000
www.ftpfind.com 没有统计 没有统计 3200 超过20,000
ftpsearch.laplink.com 37,813,040 2,683 898 超过10,000
清华9# Nosey Parker 没有统计 没有统计 250 22,875
中科大天狼搜索 没有统计 没有统计 63 8,280
网络指南针 没有统计 没有统计 39 9,965
华南木棉搜索 没有统计 没有统计 209 136,076
星空搜索 没有统计 没有统计 2274 60,027

从 以上统计信息可以看出,国外大型FTP搜索引擎数据链一般都达到千万条目以上,而国内FTP搜索引擎中,只有北大天网搜索、清华9#、华南木棉、星空搜索 可能达到了这个量级,其中又以天网搜索星空搜索文件数量最大,而华南木棉包含了HTTP和FTP两个协议的文件,因而文件数目也很大。

4、FTP搜索引擎功能选项比较

搜索引擎是否吸引用户,光看数据量是不够的,因为即使在同样的数据量下,各个搜索引擎可以实现的数据挖掘结果各有区别,而这个就很大程度上影响了用户找到需要的文件。

早期的Archie就已经提供了很多搜索功能和选项,后来的FTP搜索引擎很大程度上都是模仿了Archie,这些功能或选项包括:

a、 支持*,?等与或操作符
b、 支持多种查询模式,如是否大小写区分,是否子串匹配或精确查询等
c、 支持文件时间、文件大小、最后修改时间等过滤选项
d、 支持多页面显示查询结果,常见的换页方式有索引式和下一页式

这些功能或选项是各种文件查询系统应该支持的基本功能,我们称之为Ftp搜索引擎的基本功能选项。

当今的Ftp搜索引擎技术在发展,其功能也日新月异。我们考查许多Ftp搜索引擎,列出下列区别于基本功能选项的新功能,这些功能选项以其简单方便成为一些Ftp搜索引擎的亮点,我们称之为"新兴功能选项":

a、 支持指定站点的站内文件查询
b、 支持结果排序,例如按时间、大小、站点等的排序
c、 查询结果中的再查询
d、 支持分类目录,例如提供许多常用的查询供用户选择
e、 支持查询系统的文件分类,指在一个扩展名集内的查询,如查电影
f、 提供FTP站点在线与否的状况显示
g、 支持在线的站点登记
h、 FTP站点快照

Ftp搜索引擎的基本功能选项比较:

搜索引擎名称 支持* ? 操作 多种查询模式 时间大小过滤 结果换页方式
天网FTP搜索引擎 Index
www.philes.com Index
www.alltheweb.com NextPage
www.filesearching.com NextPage
www.souborak.com Index
www.ftpfind.com NextPage
ftpsearch.laplink.com
清华9# Nosey Parker NextPage
中科大天狼搜索
网络指南针 NextPage
华南木棉搜索 NextPage
星空搜索 使用前后缀 Index

由 上表可以看出,绝大部分Ftp搜索引擎都支持我们所指的"基本功能选项",其中支持 * ?操作和结果换页是最为必要的,Ftp搜索引擎都应该支持这些功能。而多种查询模式和时间大小过滤并不是特别需要,因为对于普通用户而言,有最基本的功能 选项就足够了,而且文件名大小写以及其时间大小并不是特别确定的,不同的软件提供者可能在同一软件的名字和修改时间上有些改动,用户用目视的方式可能可以 得到更多的有效结果。结果换页方式有两种,一种是索引式,用户可以在结果页面里任意挑选一页显示,另一种是下一页式,用户只能一页一页的向后翻才可以看到 后续的结果。大部分WWW搜索引擎都是使用了索引式换页,因为当查询结果有很多时,一页一页往下翻可能使得用户无法跳出同一类不精确的查询结果,而索引式 换页还可以支持用户随机地挑选查询结果,比如用户查询*.rm,然后随机的挑一些电影看。因此我们认为索引式的结果换页是一种更为先进更为方便的方式。从 上表可以看出,天网FTP搜索引擎支持了大部分基本功能选项,结果换页采用索引方式,因而使用起来是比较方便的。

Ftp搜索引擎的新兴功能选项比较(1):

搜索引擎名称 站内查询 结果排序 结果中查询 分类目录
天网FTP搜索引擎
www.philes.com
www.alltheweb.com
www.filesearching.com
www.souborak.com
www.ftpfind.com
ftpsearch.laplink.com
清华9# Nosey Parker
中科大天狼搜索
网络指南针
华南木棉搜索
星空搜索

Ftp搜索引擎的新兴功能选项比较(2):

搜索引擎名称 站内查询 结果排序 结果中查询 分类目录
天网FTP搜索引擎
www.philes.com
www.alltheweb.com
www.filesearching.com
www.souborak.com
www.ftpfind.com
ftpsearch.laplink.com
清华9# Nosey Parker
中科大天狼搜索
网络指南针
华南木棉搜索
星空搜索

从 上表可以看出,站内查询、结果排序、文件分类和在线站点登记已经受到许多FTP搜索引擎的重视,而结果中查询、分类目录、站点在线状况分析和站点快照等只 有很少Ftp搜索引擎实现了,例如天网Ftp搜索的结果中查询和分类目录其他Ftp搜索引擎都没有实现。在这些新兴功能选项里,我们参考许多用户的反馈和 我们对天网Ftp搜索查询日志的分析,认为"文件分类"和"站点在线状况"是目前用户最为希望能够使用的,同时在查询结果页面里面的结果排序是一种更为有 效的结果排序。

5、FTP搜索引擎速度比较:

Ftp 搜索引擎的速度是十分重要的,因为搜索引擎本身的目的就是提高用户查找信息的速度。搜索引擎的速度与系统底层的实现密切相关,一般而言,如果一个搜索引擎 底层的查询是使用通用数据库提供的查询算法,则其查询速度会慢很多,而如果采用WWW搜索引擎常用的倒排表索引归并算法,则可以达到在毫秒级完成千万文件 条目的查询任务。由于我们无法得到大部分Ftp搜索引擎底层究竟是使用了什么查询算法和系统,我们只能从外部来考查它的查询速度,也就是搜索引擎自己显示 的它所费的查询时间。

我们用以下特别查询来判断搜索引擎的速度:

1、查*.txt 代表正常的扩展名查询
2、查ab*cd 代表*操作,是一个比较费时的查询
3、查winzip??.exe 代表?操作,是一个比较费时的查询
4、查windows 代表正常的子串查询

我们同时统计了查询的结果数目,如果系统没有提供它所费的查询时间,我们则仅仅统计它的查询结果。下表表项分别是(查询费时、结果数目),>表示超过搜索引擎的最大结果显示数。

搜索引擎名称 *.txt Ab*cd Winzip??.exe windows
天网FTP搜索引擎 234ms 46万 172ms 1414 422ms 816 125ms 10456
www.philes.com 1030ms >4800 637ms 0 707ms 1415 1124ms >4800
www.alltheweb.com 无统计 65000 无统计8500 无统计1000 无统计51000
www.filesearching.com 无统计 >1000 无统计 15 无统计 >1000 无统计 >1000
www.souborak.com 1.453sec >1000 2.115sec 461 0.045sec >1000 1.637sec 406
www.ftpfind.com 2.082 sec26000 不支持* 不支持? 1.826 sec 3600
ftpsearch.laplink.com 拒绝查询 拒绝查询 拒绝查询 49.722sec 5996
清华9# Nosey Parker 无统计 拒绝查询 无统计 55 无统计
中科大天狼搜索 171.732 sec 27365 0.26sec 0 0.09 sec 17 1.975sec 1401
网络指南针 无统计33487 无统计 0 无统计 0 无统计 1229
华南木棉搜索 无统计41585 无统计 0 无统计31 无统计40782
星空搜索 拒绝查询 不支持* 不支持? 无统计 13003

从上表可以看出,在提供了查询费时统计的所有Ftp搜索引擎里,北大天网Ftp搜索引擎达到了毫秒级的查询速度,且总体而言是最快的。很多搜索引擎并没有提供查询费时的统计,我们只能假设这些搜索引擎在搜索速度上都是相等的,都属于中上速度的搜索引擎。

5、总结

从 上面各个比较可以看出,天网FTP搜索无论在功能、速度、数据量上都是名列前茅的FTP搜索引擎,它的结果中查询功能(是所有已知FTP搜索引擎中唯一支 持结果中查询的),分类目录功能(在Google的中文分类目录搜索引擎里北大天网排名第四,超过了国内著名的WWW搜索引擎百渡搜索以及新浪分类目 录),文件分类查询和在结果页面里面的结果排序都是极有特色的,而最为重要的是,天网FTP搜索强大的查询命令解析功能使得各种输入都尽可能为用户找到查 询结果,使得用户使用搜索引擎更为方便,不受限制。

但是,与Philes.com相比,天网FTP搜索的数据量太少,这个可能是国内FTP站点大部分都是个人站点造成的。Philes.com也是一个很成功的FTP搜索引擎,它支持各种与或操作的查询,而且查询速度十分快,但是功能方面比较简单,只有简单查询。

AlltheWeb.com源自于原来的FastFtpSearch,是fastsearch.com多年来的重要产品,因而无论在数据量和功能上很强, 而且由于它的商业开发比较早,也是少有的几个提供商业应用服务的FTP搜索引擎,lycos.com是它的一个主要客户。但是AlltheWeb没有支持 很多新兴的FTP搜索引擎功能,不能说不是一大缺陷。

Filesearching.com和souborak.com都是非美国的FTP搜索引擎,其中filesearching.com以其大数据量和通用与或操作查询赢得较好评价,而souborak.com则相对比较差。

在国外的FTP搜索引擎中,ftpfind.com是功能最为领先的,它支持了包括站点快照和文件分类等新兴功能,而且其数据量非常大,但速度相对比较慢,还是秒级的查询速度。

Ftpsearch.laplink.com是老FTP搜索引擎,它的数据已经3年没有更新,仅仅因为它曾经存在的名气和大的数据量我们依然分析评测了这个站点。

国内的FTP搜索引擎里,除了天网搜索,最值得推荐的就是星空搜索。星空搜索以其大的数据量和特色功能如站点快照、站点在线状况等著称,但是它对查询串的解析功能太差,不能支持与或操作,造成很多常用查询无法得到查询结果。

Nosey Parker家族作为最常见的FTP搜索引擎而著名,清华酒井的FTP搜索数据量也很大,但是NoseyParker速度并不快,而且不支持各种新兴功 能,它的下一页换页方式不是很方便。值得注意的是NoseyParker家族里面的"梦轩FTP搜索"已经对NoseyParker进行了很大的改进,增 加了许多新兴功能,使用起来还是很方便的。

与天网搜索同属于教育界科研项目的有华南木棉搜索引擎、网络指南针以及比较新的中科大天狼搜索引擎。

这些搜索引擎中以华南木棉使用起来最为方便,它支持文件分类和排序以及传统FTP搜索引擎支持的各种与或操作符,但是它的数据量比较小,很大部分的文件信息来自于互联网网页而不是FTP,查询时命中率并不是想象中的那么高。

网络指南针和中科大天狼都没有支持新兴功能,但网络指南针用起来比中科大天狼方便,因为天狼搜索由于其不支持结果换页使得可用性大大降低。但是天狼搜索查询高速度却很高,达到了毫秒级,估计是使用了比较好的索引算法。

根据以上各种统计数据,我们按五星制给各个Ftp搜索引擎在数据量、功能、速度和综合上各给一个评分。评分的目的是找出目前互联网上比较好用的Ftp搜索引擎以作为用户选择FTP文件搜索引擎时的参考。

搜索引擎名称 文件数目 功能 速度 综合
天网FTP搜索引擎 ☆★★★★ ★★★★★ ★★★★★ ★★★★★
www.philes.com ★★★★★ ☆☆☆★★ ☆★★★★ ★★★★★
www.alltheweb.com ★★★★★ ☆☆★★★ ☆☆☆☆☆ ★★★★★
www.filesearching.com ★★★★★ ☆☆☆★★ ☆☆☆☆☆ ☆★★★★
www.souborak.com ☆★★★★ ☆☆☆☆★ ☆☆★★★ ☆☆★★★
www.ftpfind.com ★★★★★ ☆★★★★ ☆☆★★★ ★★★★★
ftpsearch.laplink.com ☆★★★★ ☆☆☆★★ ☆☆☆☆☆ ☆☆★★★
清华9# Nosey Parker ☆☆★★★ ☆☆★★★ ☆☆☆☆☆ ☆☆★★★
中科大天狼搜索 ☆☆☆★★ ☆☆☆☆★ ☆★★★★ ☆☆☆★★
网络指南针 ☆☆☆★★ ☆☆★★★ ☆☆☆☆☆ ☆☆☆★★
华南木棉搜索 ☆☆★★★ ☆★★★★ ☆☆☆☆☆ ☆★★★★
星空搜索 ☆★★★★ ☆★★★★ ☆☆☆☆☆ ☆★★★★

注:以上灰的说明数据无法统计。

陈华 李晓明 北京大学计算机科学技术系

点击 : 原文地址连接

原文地址:https://www.cnblogs.com/exclm/p/1451070.html