1 import jieba #导入jieba模块 2 x = '分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。' 3 jieba.cut(x) #使用默认词库进行分词 4 print(list(jieba.cut(x))) 5 # ['分词', '的', '准确度', '直接', '影响', '了', '后续', '文本处理', '和', '挖掘', '算法', '的', '最终', '效果', '。'] 6 print(list(jieba.cut('纸杯'))) 7 # ['纸杯'] 8 print(list(jieba.cut('花纸杯'))) 9 # ['花', '纸杯'] 10 jieba.add_word('花纸杯') 11 print(list(jieba.cut('花纸杯'))) 12 13 14 import snownlp #导入snownlp 15 print(snownlp.SnowNLP('学而时习之,不亦说乎').words) 16 # ['学而', '时习', '之', ',', '不亦', '说乎'] 17 print(snownlp.SnowNLP(x).words) 18 # ['分词', '的', '准确度', '直接', '影响', '了', '后续', '文本', '处理', '和', '挖掘', '算法', '的', '最终', '效果', '。'] 19 20 21 from pypinyin import lazy_pinyin,pinyin 22 print(lazy_pinyin('江西赣州')) #返回拼音 23 # ['jiang', 'xi', 'gan', 'zhou'] 24 print(lazy_pinyin('江西赣州',1)) #带声调的拼音 25 # ['jiāng', 'xī', 'gàn', 'zhōu'] 26 print(lazy_pinyin('江西赣州',2)) #另一种拼音风格 27 # ['jia1ng', 'xi1', 'ga4n', 'zho1u'] 28 print(lazy_pinyin('江西赣州',3)) #只返回拼音首字母 29 # ['j', 'x', 'g', 'zh'] 30 print(lazy_pinyin('重要',1)) #能够根据词组智能识别多音字 31 # ['zhòng', 'yào'] 32 print(lazy_pinyin('重阳',1)) 33 # ['chóng', 'yáng'] 34 print(pinyin('江西')) #返回拼音 35 # [['jiāng'], ['xī']] 36 print(pinyin('重阳节',heteronym=True)) #返回多音字的所有读音 37 # [['zhòng', 'chóng', 'tóng'], ['yáng'], ['jié', 'jiē']] 38 import jieba 39 x='中英文混合test123456' 40 print(lazy_pinyin(x)) #自动调用已安装的pypinyin扩展分词功能 41 # ['zhong', 'ying', 'wen', 'hun', 'he', 'test123456'] 42 print(list(jieba.cut(x))) #自动调用jieba扩展分词功能 43 # ['中英文', '混合', 'test123456'] 44 x='江西的桃子真好吃' 45 print(sorted(x,key=lambda ch:lazy_pinyin(ch))) #按拼音对汉字进行排序 46 # ['吃', '的', '好', '江', '桃', '西', '真', '子']