pyhon简单比较文本相似度的方法

1.安装

命令:sudo apt-get install python-Levenshtein

2.主要使用

import Levenshtein

similarRate = Levenshtein.ratio('第一章 刺杀','第1章 刺杀')

print similarRate 

3.其它常见使用

1. Levenshtein.hamming(str1, str2)

注:要求str1和str2必须长度一致。是描述两个等长字串之间 对应位置上不同字符的个数。如

2. Levenshtein.distance(str1, str2)

注:描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换 。如

原文地址:https://www.cnblogs.com/lingwang3/p/6612908.html