训练分词模型

1. 训练的文件
segmentor_train.txt

文件内容,用空格分隔词

中国 进出口 银行 与 中国 银行 加强 合作
新华社 北京 十二月 二十六日 电 ( 记者 周根良 )

今日 三 大 股指 均 小幅 低开,随后 沪深指数 在 权重板块 集体 拉升 的 带动 下 小幅 上涨,但 创业板 却 出现 持续性 的 下跌。
午后 权重 跳水 导致 沪深指数 也 出现 一波杀跌,创业板 表现 却 迥异,盘中 没有 一波 拉升,今日 一度 大跌 3%。

从 盘面 上 看,今日 权重 板块 依然 独领风骚,银行,券商,地产 大幅 上涨,但 保险板块 今日 表现 不佳,保险股 涨幅 平淡。
今日 国信证券(002736),西部证券(002673)双双涨停,海通证券(600837),国元证券(000728),中信证券(600030)也有 不俗 表现。银行股 方面,仅有 一直 中信银行 (601998) 涨停。

上证指数   涨跌幅

 
2. 运行类edu.stanford.nlp.ie.crf.CRFClassifier

Eclipse Run设置


训练模型的参数
-prop chinese_models/edu/stanford/nlp/models/segmenter/chinese/ctb.prop
-serDictionary chinese_models/edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
-sighanCorporaDict chinese_models/edu/stanford/nlp/models/segmenter/chinese/
-trainFile segmentor_train.txt
-serializeTo chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

参数说明
prop: ctb.prop, ctb表示Chinese Penn Treebank, 宾州中文词库
serDictionary: ??
sighanCorporaDict: ??
trainFile: 你自己的训练预料文件
serializeTo: 模型存储位置
需要大于1g内存: Xmx1g


3. 生成的模型文件在以下目录
chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

4. 运行分词测试用例
edu.stanford.nlp.lxf.segmentor/SegDemo.java

原文地址:https://www.cnblogs.com/xzpp/p/4722630.html