结巴分词的应用
import jieba #强制添加一个单词 jieba.add_word("挂了") a="太上皇创业创到一半就挂了" #标准形式,把词语弄出来 print( jieba.cut(a) ) #把所有的可能都列举出来 print(jieba.cut_for_search(a))
gensim是一个语料库
gensim稀疏矩阵相似度(0比1多),密集矩阵相似度(1比0多)
import jieba from gensim import corpora from gensim import models from gensim import similarities lst = ['你今年几岁了', '你今年多大了', '祖国祖国我们爱你'] # 语料库,我们说的话要到这里面匹配 all_doc_list = [] for doc in lst: doc_list = list(jieba.cut_for_search(doc)) all_doc_list.append(doc_list) #实际上词带里面装的是一些向量 dictionary = corpora.Dictionary(all_doc_list) # 制作词袋 # print('词袋有什么==>', dictionary) #corpus里面装的是语料库中所有的分词的向量 corpus = [dictionary.doc2bow(doc) for doc in all_doc_list] # doc2bow词袋里的词组成[(0,1),(2,6)]形式的 # print(corpus) # 将你说的话先做成分词列表,然后做成语料库 #doc_text_vec 里面装的是我说的话分词后的向量 word = '祖国我爱你' doc_test_list = (list(jieba.cut_for_search(word))) doc_test_vec = dictionary.doc2bow(doc_test_list) # print(doc_test_vec) # 将语料库使用lsi模型训练 #就是将corpus语料库做一个训练,只能是数字向量的形式,比如 '祖国祖国我们爱你' 祖国出现了两次(1,2),我出现了1次(2,1),这里向量的x表示 #的是分词所对应的下标,y表示的是出现的次数 lsi = models.LsiModel(corpus) # print('corpus的训练结果>>>', lsi[corpus]) #这里就相当于给语料库中的数据加条件,将所有的语句计算出一个数。 index = similarities.SparseMatrixSimilarity(lsi[corpus], num_features=len(dictionary.keys())) # print(index, type(index)) # 将 语料库doc_test_vec 在 语料库corpus的训练结果 中的 向量表示 与 语料库corpus的 向量表示 做矩阵相似度计算 sim = index[lsi[doc_test_vec]] # print("sim", sim, type(sim)) # 对下标和相似度结果进行一个排序,拿出相似度最高的结果 res = sorted(enumerate(sim), key=lambda item: -item[1]) print(res) text = lst[res[0][0]] # 找到lst中与数据最匹配的索引位置 print(word, text)
pypinyin的应用