发布我的倒排索引 C/C++ ChinaUnix.net

] 发布我的倒排索引 [复制链接]
0 0

redor
redor 当前离线
空间积分
0
信誉积分
277
UID
66168
阅读权限
30
积分
1565
帖子
1058
精华
11
可用积分
1567
专家积分
0
在线时间
714 小时
注册时间
2003-07-19
最后登录
2013-03-11

家境小康
家境小康, 积分 1565, 距离下一级还需 435 积分
帖子
1058
主题
123
精华
11
可用积分
1567
专家积分
0
在线时间
714 小时
注册时间
2003-07-19
最后登录
2013-03-11

串门
好友
博客
消息
论坛徽章:
0
电梯直达
1楼 [收藏(0)] [报告]
发表于 2008-07-03 16:01:15 |只看该作者 |倒序浏览
下载地址 http://libibase.googlecode.com/

主要功能:
  解析HTML
  中文分词(反向最大匹配,用trie实现)
  生成正向文档(我自己定义的格式,暂时是这样)
  生成倒排索引(分块存储,bytecode压缩算法, 正文和快照采用zlib压缩)
  提交查询串检索(只实现了向量空间模型, 动态摘要还没完成)
  目前只有一个命令行测试工具hibase
  包内自带10w中文词库(doc目录下,gzip格式, 使用的时候需要解开)
  使用方法可以看README

接下来就是测试和优化,因为写的时候宏比较多,所以编译还是有点慢....呵呵

要一块学习的可以加我的MSN/GTAIL : sounos@gmail.com

顺便贴一个使用实例:
我用wget下了chinaunix的首页到/data/html目录下 /data/dict下是我的词典
./hibase --basedir=/tmp --dict=/data/dict/dict.txt --add --doc=/data/html/index.html --url=http://www.chinaunix.net/ --date="Thu, 03 Jul 2008 10:12:18 GMT" --charset="gbk" --query --request="chinaunix" --topN=1000
parsing document[[url]http://www.chinaunix.net/[/url]] time used:16825 microseconds
adding document[[url]http://www.chinaunix.net/[/url]] time used:47955 microseconds
parse query time used:36
read hits[1] posting time used:1897
Caculated 1 documents time used:22
read 1 documents content time used:1404
(0) title[ChinaUnix.net = 全球最大的Linux/Unix应用与开发者社区 = IT人的网上家园]
summary[(null)]
url[[url]http://www.chinaunix.net/[/url]]
size[84892]date[Thu, 03 Jul 2008 10:12:18 GMT]
search [chinaunix] time used:3502
复制代码

发布我的倒排索引 C/C++ ChinaUnix.net

] 发布我的倒排索引 [复制链接] 0 0

] 发布我的倒排索引 [复制链接]
0 0