浅谈知识图谱

1. 什么是知识图谱

知识图谱(Knowledge Graph, 简称KG)是以图模型的方式组织知识,每一条知识都以"点-边-点"的方式组织,可以等价表示为"主-谓-宾"结构

  • 知识图谱的“图谱”不是图像,而是图模型。
  • 知识图谱不仅仅关注知识如何用图表达,还需要关注图谱如何获取(知识抽取)、融合(知识融合)、更新、推理(知识推理)等问题

2. 知识图谱的技术体系

知识图谱的技术体系主要有知识抽取、本体构建、知识表示、知识融合、知识众包、知识推理、知识链接,以下介绍本体构建、知识抽取、知识融合

2.1 本体建模

什么是本体?

本体是抽象的数据模型,“本体”和“实体”的关系可以类比为开发中的“类”和“方法”

本体是动态变化的:不存在静态的本体

本体建模比较灵活:概念、属性和关系有时无法确定唯一标准

举例:我是女人,是算法工程师,本体可以是人,可以是职业。

2.2 知识抽取

知识抽取包括实体抽取、关系抽取、事件抽取

  • 实体抽取也就是命名实体识别,包括实体的检测(find)和分类(classify)

实体抽取在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等

主要应用:

  • 命名实体作为索引和超链接
  • 情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类
  • 关系抽取(Relation Extraction)的准备步骤
  • 问答(QA) 系统,大多数答案都是命名实体
  • 关系抽取通常我们说的三元组(triple) 抽取,从文本中抽取出两个或者多个实体之间的语义关系

举例:王健林谈儿子王思聪:我希望他稳重一点

关系:父子(王健林,王思聪)

  • 事件抽取相当于一种多元关系的抽取

  事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

2.3 知识融合

知识融合指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。

知识融合的难点:

(1)自动化的语义匹配难以达到高精度

  • 字符串匹配可能会导致错误,而且漏掉相似实体
  • 同义词典构建比较耗时
  • 机器学习(深度学习)方法需要大量标注数据
  • 数据动态性导致匹配效果不佳

(2)知识融合需要考虑数据的冲突处理

  • 属性值冲突
  • 逻辑冲突

3. 知识图谱目前存在的问题

(1)技术研发周期长

  • 知识图谱技术栈比较长,要完全掌握需要长期积累
  • 知识图谱每个技术都有很多参考文献,技术选项难

(2)人力成本高

  • 知识图谱人才比较稀缺,特别是NLP人才、数据库人才和知识推理人才
  • 人工智能人才普遍工资比较高,直接影响图谱开发成本
  • 图谱开发需要大量数据标注,缺失高效标注工具

(3)知识图谱资源缺乏

公开的知识图谱大都为百科图谱,且关系稀疏

领域图谱开放资源稀缺,构建成本高

原文地址:https://www.cnblogs.com/cymx66688/p/10965098.html