读《统计自然语言处理》有笔记——序及绪论

1、自然语言处理是一门集语言学、数学、计算机科学、认知科学于一体的综合性交叉学科。

2、自然语言处理主要有两种方法,基于规则的方法和基于统计的方法;

基于统计的方法,属于哲学中的经验主义,主要采用归纳法;

基于规则的方法,属于哲学中的理性主义,主要采用演绎法;

3、培根主张理性主义与经验主义相结合。

4、语言障碍是制约21世纪社会全球化的一个重要因素。

5、自然语言处理NLP也称为自然语言理解NLU。

6、图灵测试——计算机被误认为是人的几率就是智能程度。

7、部分研究方向:

机器翻译(Machine Translation,MT):一种语言到另一种语言;

自动文摘(automatic summarizing/abstracting):提炼出原文档的主要内容;

信息检索(information retrieval,IR):从海量文档中找到符合用户要求的相关文档,面向多语言的信息检索叫做跨语言信息检索(cross-language IR);

文档分类(document categorization/classification,也称文本分类,信息分类):把大量的文档按照一定的标准进行自动归类;

问答系统(question-answering system):计算机对人提出的问题进行理解、推理、分析,在有关的知识资源中自动求解答案并回答。与其他技术构成人机对话系统(human-computer dialogue system);

文字编辑和自动校对:对文字的拼写、用词、语法、格式等检查、校对、编排;

信息过滤:自动过滤那些满足特定要求条件的文档,主要用于信息安全和防护;

文字识别:对印刷体或手写体文字进行自动识别,将其转换成计算机可以处理的电子文本。其主要内容属于字符图像识别;

语音识别:把语音信号转换成书面形式;

文语转换:将文本转换成语音,又叫语音合成;

说话人识别/验证:对一个人说话的言语样本进行声学分析,推断说话人的身份;

8、自然语言形态学、语法学、语义学、语用学:

形态学:研究词的内部结构,包括屈折变化和构词法;

语法学:研究句子结构成分之间的关系,中心就是为什么一句话可以这么说,也可以那么说。

语义学:研究语言各级单位的意义以及语义与语音、语法、修辞、文字、语境、哲学思想、社会环境、个人修养的关系等等,中心就是:这个语言单位到底说了什么。

语用学:涉及方面较多,中心就是:为什么在特定的上下文中要说这句话。

9、面临的问题:

【1】歧义消解问题:无论在词法层次、句法层次、语义层次、语用层次,无论哪类语言单位,其歧义性始终都是困扰人们实现应用目标的根本问题;

例句1:put the block in the box on the table.可以是理解为:

(1)       put the block [in the box on the table]

(2)       put [the block in the box] on the table

实际上,英文中歧义结构分析结果的数量是随着借此短语数目的增加呈指数上升的,其歧义组合的复杂程度随着借此短语个数的增加不断加深,这个歧义结构的组合数成为开塔兰数(Catalan numbers,记作Cn),如果句子中存在n个介词短语,那么Cn可以表示为:

 

汉语尽管不像英语那样由于多个介词结构成分而导致大量歧义,但是汉语中也普遍存在有歧义现象。

例句2:喜欢乡下的孩子。

例句3:关于鲁迅的著作。

这都是句法歧义,而词汇的词类歧义、词义歧义、句子的语义歧义也同样是NPL中普遍存在的现象。

例句4:我的头像牛逼吗?

例句5:今天中午吃食堂。

例句6:“火烧圆明园”与“驴肉火烧”。

例句7:打鼓、打架、打球、打电话、打毛衣、打伞、一打铅笔、自打今天起。。。

例句8:

他说:“她这个人真有意思funny。”

她说:“他这个人也怪有意思的funny。”

人们以为他俩有了意思wish,就让他向她意思意思express。

他急了:“我根本没那个意思thought!”

她也生气了:“你们这么说是什么意思intention?!”

有人觉得这个段子很有意思funny,但是也有人觉得这个段子并没有意思sense。

    当然,像这个段子中这么复杂的用词方法,在实际生活中几乎没有人使用。这个段子的目的呢,只是说明自然语言中的歧义是普遍存在的现象,并不是说一个自然语言处理系统必须具备如此复杂的歧义消解能力才能算得上是真正实用的系统。

【2】未知语言现象处理:随着社会的发展,新的词汇、新的词义、新的用法、新的句子用法都在不断出现。

例如9:元芳,你怎么看?

例如10:灌水、盖楼、沙发、童鞋、盆友、驴友。

10、实践证明,除了语音识别和机器翻译以外,很多自然语言处理的研究任务,包括汉语自动分词和词性标注、文字识别、拼音法汉字输入等,都可以用噪声信道模型来描述和实现。

11、研究现状

(1)很多技术已经达到或者基本达到实用程度;例如,文字输入、编辑、排版,文字识别,电子词典,语音合成;

(2)许多新的研究方向不断出现;受实际应用驱动,将NLP技术与其他相关技术融合,用于研究和开发更多实用的技术。例如,网络内容管理,网络信息监控,有害信息过滤等,这些技术不仅与NLP技术密切相关,还设计图像处理、情感计算、网络技术等多种技术。此外、还有语音自动翻译、语音自动文摘、语音检索、基于图像内容及文字说明的图像理解技术研究;

(3)许多理论问题尚未得到根本性解决,整个NLP领域也尚未建立起一套完整、系统的理论框架体系;很多方法已经得到实际应用,比如上下文无关问法、HMM、噪声信道模型等;很多重要问题也尚未彻底、有效的解决,例如语义的形式化与计算问题、句法分析问题、指代歧义消解问题、汉语自动分词中的未登录词识别问题等;

字节跳动内推

找我内推: 字节跳动各种岗位
作者: ZH奶酪(张贺)
邮箱: cheesezh@qq.com
出处: http://www.cnblogs.com/CheeseZH/
* 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

原文地址:https://www.cnblogs.com/CheeseZH/p/2732468.html