论文记录

2019-4-24

论文进行的四个模块：

模块一：编码方面

使用较为容易实现方式，并且可以将其应用于真实数据集；

之前的编码方式在用户的属性和阈值较大时，其通信代价太大，希望能够降低；

我们目前能够想到的是二进制编码，和哈达玛编码，

但是需要理论依据证明这种编码方式通信代价低，或者做位或运算可以加快CPU的运行速度。

模块二：频繁项集挖掘算法

频繁项集挖掘算法分为很多种，比如Apriori、FP-Tree、前缀树等、我们希望能够全部实现，

选择一种最优的方式挖掘，在实验方面可以将其都实现来进行对比；

每一种算法都有其各自的优势，在这方面还是需要多读论文。

模块三、实验方面

如何将真实数据集进行扰动，然后再对其进行频繁项集挖掘，在通过实验标准进行衡量；

实验标准的衡量不仅包括F-Measure，还应该包括相对误差，这样可以丰富实验；

也要选择多个真实数据集；如何使其进行系统化实现画图，得到最终的结果。

模块四、写论文

第一篇论文存在很多的不足和需要改进的地方，我们需要引言、相关工作、以及问题的定义，还有对频繁项集的一些错误理解都需要修改。

2019-4-25

Learning Binary Codes for High-Dimensional Data Using Bilinear Projections

一、论文引用

论文的目标是在大数据集中，将转化这些属性到二进制编码来提高检索和分类；文中关心的维数是成千上百维

二、双线性二进制编码