中文分词模块--jieba笔记

里面主要罗列一些常用方法

#!/usr/bin/env python
#-*- coding:utf-8 -*-


import jieba

jieba.load_userdict("mydict.txt")  #导入自己的词典
jieba.add_word('西城校区')  #添加词进入词典
jieba.del_word('去了')     #在词典中删除一个词
jieba.suggest_freq('台中', True)  #可调节单个词语的词频,使其能(或不能)被分出来
#注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。

seg_list = jieba.cut("今天有关云计算的会议很好,所以我去了西城校区的北京建筑大学还有山东台中的人们", HMM=False)  #默认是精确搜索模式,
#seg_list = jieba.cut("今天有关云计算的会议很好,所以我去了西城校区的北京建筑大学",call_all=True)  #全文搜索模式
#seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print "/".join(seg_list)

总的来说很容易上手,大家可以通过pip install jieba来进行安装

原文地址:https://www.cnblogs.com/fuzzier/p/6518206.html