jieba.analyse jieba.textrank 简单用法

#coding:utf-8
import jieba.analyse

#基于 TF-IDF(term frequency–inverse document frequency) 算法的关键词抽取
print('*****案例一********')
txt='该项目采用盆栽与田间试验相结合的研究方法,揭示了冀南矿粮复合区矿井水的不同灌溉方式对冬小麦和夏玉米轮作体系中粮食产量与品质的影响,探明了矿井水直接用于灌溉抑制冬小麦和夏玉米作物的光合作用,导致作物减产,降低作物的籽粒品质;发现了矿井水与清水1:1的混灌或轮灌比清水灌溉更能促进作物生长,提高作物的产量和品质。探明了不同矿井水灌溉方式下,土壤盐分和重金属累积迁移规律,结合当地降水-土壤-矿井水-作物系统特征,优化出了高效安全的矿井水灌溉制度。根据矿井水高效安全灌溉的参数体系,设计研发出智能节水灌溉控制系统,实现了对上述参数的在线检测和智能化控制,为矿井水高效安全灌溉提供了经济适用的装备支撑。该成果可在我国北方矿区冬小麦和夏玉米轮作区推广应用,能够取得较好的经济效益、环境效益和社会效益,应用前景广阔。'
key=jieba.analyse.extract_tags(txt,topK=3)
print(key)

print('*****案例二********')
content='该课题在搜集柴胡种质资源基础上,开展了生物学特性、分子标记及栽培技术等方面的研究,形成的主要创新性结果如下:(1)通过AFLP、ISSR分子标记和ITS序列分析,明确了11个柴胡种源之间的亲缘关系;综合大田出苗率、抗根腐病能力、柴胡皂苷含量等8个指标,利用主成分分析法筛选出适植华北地区优质柴胡种源5个。(2)研究提出了柴胡栽培关键技术:促进种子萌发的处理为0.5g/L的硫酸锰浸种24h;适宜播期为3月中下旬;适宜播种量为3kg/亩;施肥比例为一年收获N25:P18:K18,二年收获N25:P6:K12;适宜采收期在7月中下旬~8月下旬,制种期为早熟品种八月中上旬、晚熟品种九月中上旬;在此基础上集成形成了柴胡规范化栽培技术体系并形成技术规程。建立了柴胡根腐病病菌检测方法,鉴定出柴胡根腐病病原菌为茄腐镰刀菌(Fusarium solani Will.)。采用“高校+公司+基地+农户”的模式,示范推广柴胡规范化栽培技术面积较大。该研究成果具有新颖性,先进性及实用性。经济效益、社会效益明显,具有良好的生产应用前景'
# 第一个参数:待提取关键词的文本
# 第二个参数:返回关键词的数量,重要性从高到低排序
# 第三个参数:是否同时返回每个关键词的权重
# 第四个参数:词性过滤,为空表示不过滤,若提供则仅返回符合词性要求的关键词,allowPOS('ns', 'n', 'vn', 'v') 地名、名词、动名词、动词
keywords=jieba.analyse.extract_tags(content,topK=5,withWeight=True,allowPOS=())
#访问提取结果
for item in keywords:
    print(item[0],item[1])

#基于 TextRank 算法的关键词抽取
print('*****案例三********')
# 同样是四个参数,但allowPOS默认为('ns', 'n', 'vn', 'v')
# 即仅提取地名、名词、动名词、动词
keywords = jieba.analyse.textrank(content, topK=5, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))
# 访问提取结果
for item in keywords:
    # 分别为关键词和相应的权重
    print(item[0], item[1])
原文地址:https://www.cnblogs.com/1061321925wu/p/12518541.html