基本介绍 Levenshtein距离是一种计算两个字符串间的差异程度的字符串度量(string metric).我们可以认为Levenshtein距离就是从一个字符串修改到另一个字符串时,其中编辑单个字符(比如修改.插入.删除)所需要的最少次数.俄罗斯科学家Vladimir Levenshtein于1965年提出了这一概念. 简单例子 从字符串“kitten”修改为字符串“sitting”只需3次单字符编辑操作,如下: sitten ( k -> s ) sittin ( e -> i ) s…
使用Levenshtein计算相似度距离,装下模块,调用下函数就好. 拿idf还得自己去算权重,而且不一定准确度高,一般做idf还得做词性归一化,把动词形容词什么全部转成名词,很麻烦. Levenshtein.distance(str1,str2) 计算编辑距离(也称Levenshtein距离).是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入.删除.替换.如 例如将eeba转变成abac: ① eba(删除第一个e) ② aba(将剩下的e替换成a) ③ abac(在末尾插…