IMBD数据集处理

该数据集是GNN使用的测试网络之一。[1]使用了该数据集,它的来源参考文献为[2]。

 一、数据格式

  • 训练数据和测试数据
  • 影评和标签(0表示负面评论,1表示正面评论),影评单词用数字表示,表示为一个数组。

二、准备数据

  • 影评有长有短,所以将 用pad_sequences 函数他们标准化为统一长度

三、构建模型

四、隐藏单元

五、损失函数和优化器

  • 该问题属于二元分类问题,使用 binary_crossentropy 损失函数

六、创建验证集

七、训练模型

  • 用有 512 个样本的小批次训练模型 40 个周期。

八、评估模型

  • 模型返回两个值,损失函数和准确率,loss和acc。

九、将结果可视化

  • 要防止过拟合。

https://blog.csdn.net/wendaoliutou/article/details/93046369

[1]Xu K, Hu W, Leskovec J, et al. How powerful are graph neural networks?[J]. arXiv preprint arXiv:1810.00826, 2018.

[2]Yanardag P, Vishwanathan S V N. Deep graph kernels[C]//Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining. 2015: 1365-1374.

原文地址:https://www.cnblogs.com/zh-clara/p/14756848.html