如何在mmseg3添加词库

 

一、了解几个文件

ll /usr/local/mmseg/etc/
mmseg.ini 
uni.lib   编译后的词库,给sphinx 用的
unigram.txt   原词库给人看的, 在这里面人工添加自己的词库

二、添加词条,格式如下

vim /usr/local/mmseg/etc/unigram.txt

邯郸王队  1    //[词条] [词频率]
x:1    //占位项(x:1即可)
工信处  1
x:1
女干事  1
x:1

注意:这里一定要是 分隔,把词库文件下载下来,然后查看所有字符就知道了,直接vi的话不能copy,要手工输入Tab键

三、重新编译

编译词库:

/usr/local/mmseg/bin/mmseg -u unigram.txt         生成这个 unigram.txt.uni 文件,把这个文件重命名为uni.lib,给sphinx 用的即可
mv unigram.txt.uni  uni.lib
chmod +x /usr/local/mmseg/etc/uni.lib 

// 可以不重启,保险起见还是重启下吧 /usr/local/coreseek/bin/searchd --stop 关掉searchd /usr/local/coreseek/bin/searchd 启动searchd /usr/local/coreseek/bin/indexer --all --rotate 生成索引 检查是否生效 /usr/local/coreseek/bin/search 工信处女干事邯郸王队 words: 1. '工信处': 0 documents, 0 hits 2. '女干事': 0 documents, 0 hits 3. '邯郸王队': 0 documents, 0 hits 说明词库生效了
原文地址:https://www.cnblogs.com/cshaptx4869/p/10402141.html