【工程处理技巧一篇】基于半规则数据的命名实体消歧识别【未完】

作者:finallyly 出处:博客园(转载请注明作者和出处)

    看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法。其实不然,本篇博客旨在分享笔者在处理那些繁杂、冗踏、低端甚至于极其TMDTMD无聊的体力工作中的一点见解。

   先说一下工作材料和需求和难点。

工作材料:20W以上冗余的数据库。字段信息是(作者和工作单位)。

工作需求:区分哪些同名的作者是一个人,哪些同名的作者不是一个人。

入手思路:从工作单位字段来区分。如果工作单位字段里的内容完全相同,那么就为同一个人。

工作难点:工作单位字段写的不够规范,比如有的单位字符串只写到大学如“沈阳大学”,有的单位字符串却具体到了院系甚至于研究所。 即便是描述详细的单位字符串写法细节上也有很多区别。比如“东北大学,信息与通信工程学院”,“东北大学信息与通信工程学院”,“东北大学 信息与通信工程学院”,“东北大学信通院",“中国科学与技术大学计算机系”,“中国科大计算机系”,“中国科技大学计算机技术系”。。。。。。等等。

  众所周知,计算机所擅长的工作是“匹配”,不会像人那样具备理解自然语言,自动消歧的能力。即便是人工智能,也是在某种程度上依赖于知识库和知识库的“数据结构”,然后利用某种高效的搜索算法去匹配答案。

原文地址:https://www.cnblogs.com/finallyliuyu/p/1970310.html