文本表示模型

词袋模型、TF-IDF

词袋模型（BOW，Bag of Word），整段文本为一个向量，向量每一维度表示一个单词，每个数值对应这个词的重要程度。忽略顺序信息。

最简单的词袋模型就是统计每个词出现的次数，作为特征值。

常用 TF-IDF（term frequency–inverse document frequency）计算词袋模型的向量。

TF 是词频，TF(t, d) 表示单词 t 在文档 d 中出现的频率。IDF(t) 是逆文档频率，衡量单词 t 对语义的重要程度。包含 t 的文章数越多，说明它越通用，对语义贡献小。

TF-IDF(t, d) = TF(t, d) × IDF(t)

词嵌入、word2vec

词嵌入（word embedding）为每个单词构造一组特征，语义近似的词汇被映射为相邻的数据点。

常用 word2vec 构成词向量模型，有 CBOW 和 Skip-Gram 两种浅层神经网络模型。

CBOW 模型通过上下文预测当前词的概率，Skip-Gram 通过当前词预测上下文词的概率。

在两个模型中，输入的单词使用 one-hot 编码，假设有n个单词，输入的维度就是 n。

隐藏层中使用k个神经元，输入层到隐含层的权重矩阵 w 的维度为 n×k。训练完，选取 w 作为n个词的k维向量表示，最终得到的词向量维度是 k。

基于哈夫曼树的 CBOW 模型：CBOW 的输出层对应一颗 Huffman 树，是根据词频建立的，叶子结点为语料库中的词。非叶子结点相当于一个 lr，二分类决策输出1或0，分别代表分到左边或者是右边，lr的目标就让走正确条路径的可能性最大。

主题模型：pLSA、LDA

再说。