深度学习_05

自然语言处理

  • NLP常见任务
    自动摘要 - seq2seq
    指代消解 - 小明放学了, 妈妈去接他, 这个他就是小明
    机器翻译 - 统计机器语言的模型SMT
    词性标注 - heat(v.) water(n.)
    分词 (中文, 日文等) - 大水沟/很/难/过
    主题识别
    文本分类
  • NLP处理方法
    通过参数去描绘这个分布
  • 词编码需要保持词的相似性
    语义的近似性

    空间分布的相似性
  • 空间向量的子结构
  • 在计算机中表示一个词
    wordnet组成一个字典
  • 离散表示, One-Hot 表示

    离散表示:Bag of Words

    词权重
    TF-IDF 词在文档中的重要程度log(1+N/n)
    Binary weighting 短文本相似性
  • 语言模型
  • 离散表示的问题
  • 分布式表示

  • 共现矩阵
    用于主题模型


原文地址:https://www.cnblogs.com/jly1/p/12153293.html