NLP杂点

1.停用词 stop words: 在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词。

停用词都是人工输入、或者由一个停用词表导入。

2.jieba是目前最好的 Python 中文分词组件，它主要有以下 3 种特性：

支持 3 种分词模式：

3.正则化表达式

4.分词的基本概念与生成词向量矩阵

5.NLP系列学习：文本分词

常见的基于词典的分词算法分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。

常见的基于统计的机器学习算法分为以下几种：HMM、CRF、SVM、深度学习等算法。

常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。

随着深度学习的兴起，也出现了基于神经网络的分词器。

6.word2vec词向量

word2vec是从大量文本中以无监督学习的方式学习语义知识的模型，其本质就是通过学习文本来用词向量的方式表征词的语义信息，通过嵌入空间将语义上相似的单词映射到距离相近的地方。即将单词从原先所属的空间映射到新的多维空间中。

常见的word2vec词向量有两种模式，CBOW(continuous bag of words)和skip-gram，CBOW是根据目标单词所在原始语句的上下文来推测目标单词本身，而skip-gram则是利用该目标单词推测原始语句信息即它的上下文。