Faster-rnnlm代码分析1

Gdb ./rnnlm

r -rnnlm model-good.faster -train thread.title.good.train.txt -valid thread.title.good.valid.txt -hidden 5- -direct-order 3 -direct 200 -bptt 4 -bptt-block 10 -threads 1

[root@cq01-forum-rstree01.cq01.baidu.com faster-rnnlm]# more thread.title.good.train.txt

唉稳凉菜干货批发稳左成个月都

咦丢图跑

毕竟新人

我想去旅行

昨天玩个满深渊人马才踩了 55

这状态还不如温网

新型投资项目

晒早饭就酱

渣土哥真是太放肆了

推荐就是有这样的

白素贞水漫文水城

我知道那些夏天就像你一样回不

渑池至洛阳最早的车几点哪里坐到洛阳几点

宏观方面大的流动性格局虽无明显变化但眼下地方政府债务限

电工行业竞争大锦力电器有优势

兄弟啊影技 1 班 q 群是多少

你们家乡话叫什么

深深的孤独感与挫败感感觉个人

一起去旅游吧

谁知道四会那里有修打火机的

[root@cq01-forum-rstree01.cq01.baidu.com faster-rnnlm]# pwd

/home/users/chenghuige/other/faster-rnnlm.debug/faster-rnnlm

统计词频建立vocabulary

void Vocabulary::BuildFromCorpus(const std::string& fpath, bool show_progress)

首先添加一个 </s>

AddWord(kEOSTag); 只是编号0

然后逐个添加每行

每行处理的时候按照IsSpace切分

inline bool IsSpace(char c) {

return c == ' ' || c == ' ' || c == ' ' || c == ' ';

然后其实就是对每个词类似 Identifer.h那样顺序编号，没出现的词叫做oov 编号 -1

除了编号之外同时统计频次

最后按照频次排序从大到小同时更新编号也就是频次最大的这里 </s> 编号为0

(gdb) p words_

$20 = std::vector of length 176788, capacity 262144 = {{freq = 900000, word = 0x6ae1c0 "</s>"}, {

freq = 258246, word = 0x6aef20 "265304"}, {freq = 126910, word = 0x6aeff0 "301313"}, {

freq = 101904, word = 0x6aedc0 "316322"}, {freq = 67328, word = 0x6aeee0 "323320"}, {

freq = 62290, word = 0x6aec10 "270366"}, {freq = 60866, word = 0x6afb20 "322273"}, {

[root@cq01-forum-rstree01.cq01.baidu.com faster-rnnlm]# wc -l thread.title.good.train.txt

900000 thread.title.good.train.txt

gdb) p cfg

$2 = {layer_size = 5, layer_count = 1, maxent_hash_size = 199947228, maxent_order = 3, use_nce = false, nce_lnz = 9, reverse_sentence = false, layer_type = "sigmoid"}

构建网格结构

main_nnet = new NNet(vocab, cfg, use_cuda, use_cuda_memory_efficient);

构造函数调用Init 在这里

embeddings.resize(vocab.size(), cfg.layer_size);

//(word_num, hidden_size) 二维数组

rec_layer = CreateLayer(cfg.layer_type, cfg.layer_size, cfg.layer_count);

//隐层建立一个layer 默认layer_type是sigmoid

maxent_layer.Init(cfg.maxent_hash_size);

//最大熵 @TODO

softmax_layer = HSTree::CreateHuffmanTree(vocab, cfg.layer_size);

//输出层 softmax 采用huffman树