129工作总结

今天的工作效率好低啊，究其原因，主要是目标不是很明确，总是在做些无用功。不过经过和wx的讨论，思路渐渐的明朗起来，目前主要的工作是这样的：

1、将UW-CSE的五个数据集归结成一个总的数据集all.db，用这个总的db训练出一个mln；

2、同理，将WEBKB的四个数据集归结成all.db，训练出WEBKB的mln；

3、利用前两步得到的结果，向imdb数据集做结构迁移。注意，imdb中有五个数据集，需要依次以其中的一个作为测试集，其他的组合起来作为训练集，训练出目标域imdb的mln；

4、利用目标域的mln和测试集进行Infer测试，得到每个谓词的出现概率；

5、计算每个谓词的CLL和AUC。

经过上述五个步骤，就可以完整的得到一个baseline。现在存在的问题是在源域上训练mln需要非常长的时间，我担心到最后时这将成为效率瓶颈。

今天用perl写计算CLL的小程序，发现Larry简直就是神人，我想什么事情他全都知道！我只要按照我的想法就能写出正确的程序！

今天做的另外一项工作是，完成了从webkb.2到imdb.2的迁移，现在正在跑infer，现在小数据集上将整个流程跑通，然后就可以应用到大数据集上了。

12-10工作安排：

预计今天晚上应该能跑出所有的从webkb.2到imdb.2的Infer结果，明天早上来了就可以计算CLL和AUC了。

给电脑除尘

看一下助教的教材，后天就要当助教了。