语义web基础知识学习

最近找了一本书，《语义web技术基础》----Pascal Hitzler等编著的。因为最近在看关于自然语言处理的一些东西，就顺带翻了一下，做一点学习笔记，方便以后查看。

本书的作者 Pascal Hitzler在美国莱特州立大学的课程(课程有点老，2012年的)

Knowledge Representation for the Semantic Web

的PPT链接：http://www.semantic-web-book.org/page/KR4SW-12

介绍本体的维基百科页面：https://zh.wikipedia.org/wiki/%E6%9C%AC%E4%BD%93_(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6)

1.三个主题（便于理解语义网络）：

　　建立模型：寻求用抽象的术语来描述一个复杂的世界，以得到对一个复杂现实的更容易的理解；

　　用知识计算：尝试建立推理机，这样可以从编码知识中得出有意义结论；

　　交换信息：在计算机间传递复杂信息资源，从而允许我们从全局规模对知识分布、互连、保持一致；

2.建立模型：

　　与建立模型密切相关的就是“本体”这个术语。分为计算机领域的和哲学领域的。书中从哲学领域讲起，柏拉图到亚里士多德，到林奈的分类法，都是为了对自然对象建立更好的理解。

从而自然而然的引入了现代的建模。比如经典的建模语言:UML.

3.用知识计算：主要讲的是用已有的知识，数据进行推理，得到新的结果；

4.语义万维网：语义万维网是万维网的发明人TimBerners-Lee倡导的下一代万维网，旨在赋予万维网上信息资源以一种标识，在资源之间建立起机器可处理的各类语义联系，并致力于开发“以计算机可处理形式表示信息含义的语言”。

我的理解就是，互联网上不再是大量的html网页，而是各种标记良好、结构良好的资源的集合，根据你的搜索进行语义的推理，返回给你需要的知识。

5.本体：

　　维基百科页面：https://zh.wikipedia.org/wiki/%E6%9C%AC%E4%BD%93_(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6)

　　与语义网密不可分的一个概念就是本体。这里是在维基百科上找到的定义和信息：

　　本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达（formal representation）。本体是人们以自己兴趣领域的知识为素材，运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理，亦可用于定义该领域（也就是对该领域进行建模）。

　　作为一种关于现实世界或其中某个组成部分的知识表达形式，本体目前的应用领域包括（但不仅限于）：人工智能、语义网、软件工程、生物医学信息学、图书馆学以及信息架构。

　　个人理解，本体就是对特定领域的知识的一个描述，这种描述结构良好，有各种实体和实体之间的关系。方便计算机理解和处理，根据这些描述，计算机可以进行推理，得出一些新的知识。

6.本体语言：

　　本体一般都是采用本体语言来编制的。本体语言，又称为“本体论语言”，是一种用于编制本体的形式化语言。

　　比如：OWL，RIF。。。

7.RDF：资源描述框架

　　是描述结构信息的一种形式化语言，目标是让应用程序在web上可以交互数据同事保留他们原有的含义。与HTML,XML不同的是，RDF不是想要正确的显示文本，而是允许进一步处理和重新组合其中包含的信息。所以RDF经常被看做是语义万维网的基本表示格式。

　　一个RDF 文档描述了一个有向图，而不是像XML一样的层次良好的树形结构。以为RDF不是以为了结构化的文档而设计的，而是为了描述对象之间的关系而设计的。另外，RDF方便将各个来源的对象信息进行整合。

　　RDF用统一资源标识符URI为名称来区分各种资源（对象），RDF图中的节点和边都用URI标识。书中花了大量的笔墨描写RDF URI的各种格式细节，个人觉得作为了解整体的框架不需要第一遍就看的这么详细，而且这些格式可能随着时间有一些改动直接看网上最新的就好了。

8.将RDF序列化成XML：

　　三元组：主语谓语宾语；

　　用图形的方式描述RDF分方便，但是不方便存储，所以用三元组的形式，序列化为xml存储；

　　序列化：将复杂的数据结构线性化为字符串的方法；

9.OWL:网络本体语言 web ontology language

　　原因： RDF(s)适合UI与简单本体的建模，并且允许隐含知识的推导，但是表达能力非常有限，不能表示复杂的知识，有一些复杂的问题不能对其进行建模；

为了对于更加复杂的知识进行建模，引入了更有表达能力的基于形式逻辑的表示语言 OWL；

　　每一个OWL文档都是一个RDF文档；

10.阅读作者课程PPT：

　　1）现在互联网上内容相当多，人类可以进行推理得到很多知识，但是机器不行，一些特殊的问题在网上都可以找到证据支持，但是缺少的是机器的推理能力，所以很难得到我们想要的答案；

　　简单的推理例子：D.C. is a capital

　　　　　　　　　　Every capital is a city

　　　　　　　　　　Hence: D.C. is a city

　　2）网上内容相当多，但是数据的结构、内容都比较糟糕；

　　3）Meaning (semantics) provided via logic and deduction algorithms (automated reasoning).语义通过逻辑和自动推理表示；

　　4）The core of an ontology is usually a taxonomy: – classes of things, arranged in a hierarchy

　　5）Partonomy vs. Taxonomy 分体法和分类法：Ohio is part of USA, grandfather is a father;

　　6）对于RDF的解释：RDF is a data model

　　 – originally for describing metadata for web pages, but has grown beyond that 最开始为了描述网页元数据而出现

　　 – structured information 结构化的信息

　　 – universal, machine-readable data exchange format 普遍的，机器可读的一种交换格式

　　 – main syntax uses XML for serialization 用XML的语法来序列化

11.XML的相关语法结构：

　　待续。。。。。。2017.4.10

每天分享一点计算机和软件工程考研的知识点到微信公众号： cs2kaoyan 希望能对一些朋友有帮助~