毕设开发手记(二)

      继removeDatabase()警告C++ 传指针还是传引用的困惑Qt槽可否使用默认参数诡异的ESC关闭事件以及Qt元类型注册门等一系列波折后,我的corpus creator终于释出了第一个release版!上来就进行各种界面测试,然后来了个8000语料库创建。在贴log前,我先磨叽会儿。corpus creator使用的是经典的生产者-消费者多线程模型,其中共享100个单位的环形缓冲区,使用类似于管程的同步机制。它采用键绑定机制(把数据源绑定到语料库中存放语料的表的键上),从而提供了良好的弹性。各窗口各操作可重入……

来贴一下热乎的运行时log,是从GUI的状态框中复制粘贴出来的:

01:49:56 >> 正在搜索语料文件,请稍候…
01:49:57 >> 语料文件搜索完毕,共找到 8000 个语料文件!
01:49:57 >> 语料文件处理中…
01:49:57 >> ICTCLAS 分词器初始化成功!
01:49:58 >> 提交数据失败!
01:49:59 >> 提交数据失败!
01:50:00 >> 提交数据失败!
==>中间略去N个失败……
01:52:09 >> 提交数据失败!
01:52:10 >> 提交数据失败!
01:52:12 >> 语料文件处理完毕,等待写入完毕…
01:52:12 >> 处理了 7808 个语料文件!
01:52:12 >> 语料写入完毕!

提交失败主要是因为该语料分词 + 句子成分标注后过长,超出了键类型长度。然后用SQL检查了创建结果,的却是入库7808个语料,并且抽查语料均分词正常!

      corpus creator运行时,内存消耗在140M左右波动。采用本机未经优化MySql数据库,创建时传输率450+KB/S。速度还是很令人满意的,8000的语料库2、3分钟就创建完毕了。先高兴地睡觉去~

原文地址:https://www.cnblogs.com/codingmylife/p/1724603.html