机构名的识别

自然语言处理中,一般都要经过分词、标注、句法分析、语义分析等过程。在分词和标注的过程中,一般靠词库来识别一些词及其词性。但是,有些比较特殊的词在词库里面不一定有,这些词中最典型的就是人名、地名、机构名。所以我们在这次毕业设计里面要研究的一个问题就是如何识别人名、地名和机构名。我的任务就是设计一个程序来识别机构名。

根据一般自然语言处理的过程,分词和标注是在最前面完成的两道程序。现在考虑到人名、地名和机构名的识别,那么就要在这个结构中插入这些东西。那么在什么地方插入这些东西呢?一般来说,我们可以在分词的过程中加入人名和地名的识别,因为人名和地名的结构一般都比较简单,所以没有必要在标注之后再来处理。但是机构名就有些不一样。举个例子来说,“上海交通大学”是一个机构名,那么我们就要这样看:“上海”是一个地名,“交通”是一个部门的名字。根据“上海交通大学”的来历,它的前身是“交通部南洋公学”,那么这个“交通”就是“交通部”的意思。但是“交通部”本身也是一个机构名,那么我们就会发现里面“交通”是一种社会活动。最后的两个字“大学”是这个机构的性质。从这个例子来看,首先我们一般把机构名的识别放在分词和标注之后,因为机构名一般来说,里面都是几个完整的词组成的。并且,在机构名的结尾,一般都有一个指示性的表示机构性质的词。这个词可以作为识别机构名依据。但是机构名也有特殊的地方。一个是简称。比如说“上海交通大学”可以简称为“上海交大”或者“上交大”,甚至在某些特定场合下就是“交大”。这样就无法很容易地用机构性质词来识别一个机构的名字。另一个是把机构名中机构的主名单独使用,比如说“上海申银万国证券公司”在经常说的时候可以说“申银万国”怎么怎么。这种情况我看比较像人名的识别,不过只有“名”而无“姓”。还有一个特例就是,分词的难题,比如说“上海大学生素质”里面“上海大学”四个字就不能作为一个机构名,但是“上海大学学生”里面“上海大学”四个字就可以作为一个机构名。总之,要解决这些问题。这次的研究就要针对这些问题进行。

标注的过程中有一个概率模型,就是一个词标注为一个词性,以及相邻的几个词标注为一组词性的概率在语料库里面可以提取出来,然后我们就可以根据这个来判断每个词最可能的词性是什么。在做机构名识别的时候,我们也可以从语料库里面来提取一些我们所想要的概率来作为判断机构名是否成立的依据。所以,在研究过程中语料库的使用是一个很重要的问题。我们应该充分利用语料库来进行这方面的分析,因为实际情况中机构名是千变万化的,我们要从这千变万化的语料中找到机构名成立的条件,才有通用性。

为什么“复旦大学”就可以简称为“复旦”而“上海交通大学”却不可以简称为“交通”呢?这是因为“交通”是一个通用名词,而“复旦”则是一个专有名词。我们进行机构名识别的时候,也要有一个动态的词表,来记录这些新发现的专有名词,这样就可以识别单独的“复旦”也是一个机构名。但是我们也要设法让“交大”也被认为是一个机构名。但是这个就没有识别“复旦”那么容易了。我们就要从语言的结构本身来看这个问题,“交”就是“交通”的第一个字,而“大”则是“大学”的第一个字。一般我们都可以用这种方法来构造简称。

孔祥龙[1]在他的论文中提到,组织机构名的构成一般还是有规则的。由这个事实我们可以考虑采用统计规则的方法来处理机构名识别的问题。另外,除了机构名本身的规律之外,还有一些可以通过上下文来确定。上下文可以用来确定一些比较难判断的问题。某些情况下,我们人都难以判断一些短语是不是机构名,但是通过上下文,我们就能够看出这个短语是不是机构名。还有,孔祥龙的论文中提到,有些带有机构性质词语的地方未必就是机构名,这些地方比如说“大型集团”这个短语,里面没有一个集团的名称,只是提到是大型的集团(一个或多个),所以它不是一个机构名。如果我们可以把这些都识别出来,那么机构名的识别成功率应该还是可观的。

简称的问题,我前面已经说过一些,基本上可以用类似处理人名的方法来处理。处理人名的时候有可能会看前后文之间的关系,是不是有反复出现的串等等。有时候还要关注那些比较“向上”的词,因为这是人们起名时的思维习惯。但是还有一些比较特殊的简称的问题,比如说:外国公司名音译的简称,它的特点是一般没有连起来的词,而是一个一个的字,而且这些字多数是音译专用的。还有一些著名企业的名称在日常生活中说到的时候也经常使用简称,这些可以使用词表。

具体处理机构名的识别问题,还可以参考一些文献,包括《基于HMM的中国组织机构名自动识别》[2]等。这些文献中提出了一些见解和方法,可以对设计这样的系统有所帮助。《中文机构名称的识别与分析》[3]里面在开头一部分对机构名的语法构成进行了分析和解释。《自动分词中未登录问题的一揽子解决方案》[4]这篇文章对设计未登录机构名的识别问题也会有启示。

参考文献:

[1]    孔祥龙:《统计和规则相结合的专有名词识别》

[2]    郑家恒、张辉:《基于HMM的中国组织机构名自动识别》

[3]    张小衡、王玲玲:《中文机构名称的识别与分析》

[4]    陈小荷:《自动分词中未登录问题的一揽子解决方案》

原文地址:https://www.cnblogs.com/dayouluo/p/76815.html