NLP工具汇总

NLP工具汇总

NLTK

  • 主要用来处理英文
  • 命名实体识别
  • 词性还原(英文)

Stanford NLP

  • 主要用来处理英文
  • 命名实体识别

Trankit

  • 依存句法分析

word2vec

  • 一种的词向量表的表示方式
  • Word2vec 是代码项目的名字,只是计算词嵌入(word embedding)的一个工具

BERT

  • 中英文皆可,主要用来计算词向量,作为一个Word2Vec的替代者,根据上下文改变向量表示,解决了多义词的表示问题
  • 查找相似词语
  • 提取文本中的实体(需要给定一个模板)
  • 问答中的实体对齐

ALBERT

  • 在海量中文语料上进行了预训练,模型的参数更少,效果更好。

pyltp

  • pyltp 是 LTP 的 Python 封装,主要用于中文
  • 分句
  • 分词
  • 词性标注
  • 命名实体识别
  • 语义角色标注(浅层语义分析的一种方式,与谓语的关系)
  • 依存句法分析(语法)

Gensim

  • TF-IDF(词的重要性,词语消歧)
  • LSA
  • LDA
  • word2vec

jieba

  • 分词(分词更专业,可添加不切分的词)

LTP(同pyltp )

  • 词性标注
  • 句法分析

pkuseg

  • 分词(北大中文)
    • 可以自由地选择不同的模型
      • 新闻领域
      • 网络领域
      • 医药领域
      • 旅游领域
      • 混合领域
记录学习的点点滴滴
原文地址:https://www.cnblogs.com/yangzilaing/p/14713191.html