Python_ jiba、snownlp中文分词、pypinyin中文转拼音

 1 import jieba    #导入jieba模块
 2 x = '分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。'
 3 jieba.cut(x)    #使用默认词库进行分词
 4 print(list(jieba.cut(x)))
 5 # ['分词', '的', '准确度', '直接', '影响', '了', '后续', '文本处理', '和', '挖掘', '算法', '的', '最终', '效果', '。']
 6 print(list(jieba.cut('纸杯')))
 7 # ['纸杯']
 8 print(list(jieba.cut('花纸杯')))
 9 # ['花', '纸杯']
10 jieba.add_word('花纸杯')
11 print(list(jieba.cut('花纸杯')))
12 
13 
14 import snownlp  #导入snownlp
15 print(snownlp.SnowNLP('学而时习之,不亦说乎').words)
16 # ['学而', '时习', '之', ',', '不亦', '说乎']
17 print(snownlp.SnowNLP(x).words)
18 # ['分词', '的', '准确度', '直接', '影响', '了', '后续', '文本', '处理', '和', '挖掘', '算法', '的', '最终', '效果', '。']
19 
20 
21 from pypinyin import lazy_pinyin,pinyin
22 print(lazy_pinyin('江西赣州')) #返回拼音
23 # ['jiang', 'xi', 'gan', 'zhou']
24 print(lazy_pinyin('江西赣州',1))    #带声调的拼音
25 # ['jiāng', 'xī', 'gàn', 'zhōu']
26 print(lazy_pinyin('江西赣州',2))    #另一种拼音风格
27 # ['jia1ng', 'xi1', 'ga4n', 'zho1u']
28 print(lazy_pinyin('江西赣州',3))    #只返回拼音首字母
29 # ['j', 'x', 'g', 'zh']
30 print(lazy_pinyin('重要',1))    #能够根据词组智能识别多音字
31 # ['zhòng', 'yào']
32 print(lazy_pinyin('重阳',1))
33 # ['chóng', 'yáng']
34 print(pinyin('江西')) #返回拼音
35 # [['jiāng'], ['xī']]
36 print(pinyin('重阳节',heteronym=True)) #返回多音字的所有读音
37 # [['zhòng', 'chóng', 'tóng'], ['yáng'], ['jié', 'jiē']]
38 import jieba
39 x='中英文混合test123456'
40 print(lazy_pinyin(x))  #自动调用已安装的pypinyin扩展分词功能
41 # ['zhong', 'ying', 'wen', 'hun', 'he', 'test123456']
42 print(list(jieba.cut(x))) #自动调用jieba扩展分词功能
43 # ['中英文', '混合', 'test123456']
44 x='江西的桃子真好吃'
45 print(sorted(x,key=lambda ch:lazy_pinyin(ch))) #按拼音对汉字进行排序
46 # ['吃', '的', '好', '江', '桃', '西', '真', '子']
原文地址:https://www.cnblogs.com/cmnz/p/6963850.html