浅谈知识图谱

1. 什么是知识图谱

知识图谱(Knowledge Graph, 简称KG)是以图模型的方式组织知识，每一条知识都以"点-边-点"的方式组织，可以等价表示为"主-谓-宾"结构

知识图谱的“图谱”不是图像，而是图模型。
知识图谱不仅仅关注知识如何用图表达，还需要关注图谱如何获取(知识抽取)、融合(知识融合)、更新、推理(知识推理)等问题

2. 知识图谱的技术体系

知识图谱的技术体系主要有知识抽取、本体构建、知识表示、知识融合、知识众包、知识推理、知识链接，以下介绍本体构建、知识抽取、知识融合

2.1 本体建模

什么是本体？

本体是抽象的数据模型，“本体”和“实体”的关系可以类比为开发中的“类”和“方法”

本体是动态变化的：不存在静态的本体

本体建模比较灵活：概念、属性和关系有时无法确定唯一标准

举例：我是女人，是算法工程师，本体可以是人，可以是职业。

2.2 知识抽取

知识抽取包括实体抽取、关系抽取、事件抽取

实体抽取也就是命名实体识别，包括实体的检测（find）和分类（classify）

实体抽取在信息抽取中扮演着重要角色，主要抽取的是文本中的原子信息元素，如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等

主要应用：

命名实体作为索引和超链接
情感分析的准备步骤，在情感分析的文本中需要识别公司和产品，才能进一步为情感词归类
关系抽取（Relation Extraction）的准备步骤
问答(QA) 系统，大多数答案都是命名实体

关系抽取通常我们说的三元组（triple）抽取，从文本中抽取出两个或者多个实体之间的语义关系

举例：王健林谈儿子王思聪：我希望他稳重一点

关系：父子（王健林，王思聪）

事件抽取相当于一种多元关系的抽取

　　事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件，并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中，触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型，是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务，判断句子中任意一对触发词和实体之间的角色关系。

2.3 知识融合

知识融合指在不同数据集中找出同一个实体的描述记录，主要目的是对不同数据源中的实体信息进行整合，形成更加全面的实体信息。

知识融合的难点：

（1）自动化的语义匹配难以达到高精度

字符串匹配可能会导致错误，而且漏掉相似实体
同义词典构建比较耗时
机器学习(深度学习)方法需要大量标注数据
数据动态性导致匹配效果不佳

（2）知识融合需要考虑数据的冲突处理

属性值冲突
逻辑冲突

3. 知识图谱目前存在的问题

（1）技术研发周期长

知识图谱技术栈比较长，要完全掌握需要长期积累
知识图谱每个技术都有很多参考文献，技术选项难

（2）人力成本高

知识图谱人才比较稀缺，特别是NLP人才、数据库人才和知识推理人才
人工智能人才普遍工资比较高，直接影响图谱开发成本
图谱开发需要大量数据标注，缺失高效标注工具

（3）知识图谱资源缺乏

公开的知识图谱大都为百科图谱，且关系稀疏

领域图谱开放资源稀缺，构建成本高