中文分词国内现状

 

 

一、什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中全部的字连起来才干描写叙述一个意思。比如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机能够非常简单通过空格知道“student”是一个单词,可是不能非常easy明确「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。

中文分词是其它中文信息处理的基础,搜索引擎仅仅是中文分词的一个应用。其它的比方机器翻译(MT)、语音合成、自己主动分类、自己主动摘要、自己主动校对等等,都须要用到分词。

眼下研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,差点儿没有了。

Google的中文分词技术採用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术眼下被觉得是国内最好的中文分词技术,其分词精确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率非常低。

二、 ICTCLAS中国科学院计算技术研究所

中文词法分析是中文信息处理的基础与关键。

中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。

主要功能包含:

中文分词;词性标注;命名实体识别;新词识别;

同一时候支持用户词典。

 

我们先后精心打造五年,内核升级6次,眼下已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6

因为 ICTCLAS 是由 C 语言写成的,如今主流的开发工具用起来不太方便,于是有一些热心的程序猿把 ICTCLAS 改为 Java 和 C# 等其它语言。

(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

(2)AutoSplit,还有一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载

(3)小叮咚中文分词,以前有下载页面,如今找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本号,介绍页面: http://www.donews.net/accesine

三、海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们可以共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此公布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8

四、其它

(1)CSW中文智能分词组件

执行环境:Windows NT、2000、XP 或更高,能够在 ASP,VB 等微软的开发语言中调用。

简单介绍: CSW中文智能分词DLL组件,可将一段文本自己主动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面: http://www.vgoogle.net/

(2) C# 写的中文分词组件

据作者介绍,一个 DLL 文件,能够做中英文分词组件。全然C#托管代码编写,独立开发。

下载页面: http://www.rainsts.net/article.asp?id=48

原文地址:https://www.cnblogs.com/mfrbuaa/p/4057221.html