nlp 第五节课 语言技术-词表达 word2Vec

https://www.bilibili.com/video/BV1kE411G7qo?p=5

1. Word Representation:

   one-hot vector :

  1)稀疏

  2) 每一个词向量之间都是垂直,没法算相似度

 

2. Semantic Similarity 

  语义 similarity, 用上下文来表示一个词

  1) Count-Based Methods

  滑动窗口

  语料库 corpus

  

   

   

   2) TF - IDF

  TF = 词 i 在文本 j 中出现次数 / 文本 j 中总词数

  IDF =  log (所有文档数量/包含词 i 的文档数量)

  

  3)embedding 

  

   

3. Neuron Network

  1) LR 一个神经元

  

   

  

  

  

   压缩,加密解密

   

  2)Back Propagation

  

 

 

 

   

4. Word2Vec

  CBOW continuous bag of words:  输入很多词向量,求平均V

  skip-gram: 输入center word,变成词向量,

  

原文地址:https://www.cnblogs.com/ChevisZhang/p/13574922.html