NLP 概览


关于NLP

NLP:Natural Language Processing 自然语言处理。

目的:计算机能‘懂得’人类对它‘说’的话,然后去执行一些指定的任务。


NLP任务分类

  • 序列标注问题

    • 命名实体
    • 品牌词识别
    • 拼写检查
    • 中文分词(词性标注)
    • 句法分析
    • 新词发现
    • 同义词查找&替换
    • 关键词提取&搜索
  • 分类问题

    • 情感分析
    • 行业分类
    • 意图识别
    • 垃圾邮件分类
  • 改写问题

    • query扩展
    • 改写
    • 纠错
    • 翻译
  • 生成问题

    • 自动写稿
    • 自动写诗
    • 文本摘要
    • 聊天机器人
    • 自动问答

NLP的难点:

  • 情境多样
  • 语言歧义

相关技术&工具包

  • NLTK
  • spaCy 后起之秀
  • GATE
  • Mallet
  • Open NLP
  • UIMA
  • Stanford CoreNLP
  • Genism
  • CRF++,序列标注经典工具
  • Stanford CoreNLP
  • textblob
  • syntaxnet
  • seq2seq

其他知识基础

  • 算法和数据结构

  • 机器学习理论

  • hadoop 或 spark

  • Fasttext:facebook短文本分类

  • gensim

  • glovec

  • word2vec

  • 泰勒公式

  • 输入法怎么组织词表?

  • lda原理

  • kmeans的mapreduce实现

  • lr模型参数估计

  • boosting的过程

  • cnn文本分类的过程

  • 字典树分词函数

  • hadoop大小表

  • lstm编辑距离

  • 最长公共子串

  • 手推最大熵

  • xgboost,lightgbm,libsvm,liblinear,weka


相关书籍


相关资料


招聘:http://www.nlpjob.com


原文地址:https://www.cnblogs.com/fldev/p/14370928.html