Rethinking Table Recognition using Graph Neural Networks

摘要:CNN用来视觉特征提取;图网络用来处理结构问题;由于缺少大量的数据,作者建立了一个合成数据集的数据库。

关键词:表格识别,结果分析;图神经网络,文档模型;图模型;数据库

源码地址;https://github.com/shahrukhqasim/TIES-2.0

主要逻辑:(1)图模型(图的构造):把每个单词看作是一个结点,构造无向图,然后分别求行和列的极大团

     (2)思想方法:a.CNN提取特征 b.interaction(我也不知道具体应该翻译成啥):将CNN提取出的特征输入到interaction model,该输出为用于分类的代表性的特征。c.运行时结点对抽样:使用Monte Carlo抽样。统一抽样后数据向第0类倾斜严重,所以使用分布函数是分布均匀。d.分类:对每个单词对进行分类

原文地址:https://www.cnblogs.com/ann-liu/p/11791764.html