简单易用的字符串模糊匹配库Fuzzywuzzy

阅读目录

FuzzyWuzzy 简介

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法计算两个序列之间的差异。

Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

项目地址：https://github.com/seatgeek/fuzzywuzzy

环境依赖

Python 2.7 以上
difflib
python-Levenshtein（可选, 在字符串匹配时可提供4-10x 的加速, 但在某些特定情况下可能会导致不同的结果）

支持的测试工具

pycodestyle
hypothesis
pytest

安装

使用 PIP 通过 PyPI 安装

    pip install fuzzywuzzy

or the following to install python-Levenshtein too

    pip install fuzzywuzzy[speedup]

使用 PIP 通过 Github 安装

    pip install git+git://github.com/seatgeek/fuzzywuzzy.git@0.17.0#egg=fuzzywuzzy

或者添加你的 requirements.txt 文件 (然后运行 pip install -r requirements.txt)

    git+ssh://git@github.com/seatgeek/fuzzywuzzy.git@0.17.0#egg=fuzzywuzzy

使用 GIT 手工安装

    git clone git://github.com/seatgeek/fuzzywuzzy.git fuzzywuzzy

    cd fuzzywuzzy

    python setup.py install

用法

全匹配

fuzz.ratio()对位置敏感：

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.ratio("this is a test", "this is a test!"))

运行结果：

C:\Pycham\anaconda\lib\site-packages\fuzzywuzzy\fuzz.py:11: UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning

  warnings.warn('Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning')

97

1.报错显示我们需要安装python-Levenshtein库

2.当我安装python-Levenshtein时又报错：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"

3.提示让我安装Microsoft Visual C++ Build Tools，第一种方法安装Microsoft Visual C++ Build Tools，我总不能为了安装一个库去安装一个编译器吧，第二种方法去https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站下找到对应版本的python-Levenshtein并下载。cp对应python版本号，amd后面对应计算机位数。

4.安装

非完全匹配（Partial Ratio）

fuzz.partial_ratio()对位置敏感：

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.partial_ratio("this is a test", "this is a test!"))

运行结果：

忽略顺序匹配（Token Sort Ratio）

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear"))

print(fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear"))

运行结果：

91

100

fuzz._process_and_sort(s, force_ascii, full_process=True)

对字符串s排序。force_ascii:True 或者False。为True表示转换为ascii码。如果full_process为True，则会将字符串s转换为小写，去掉除字母和数字之外的字符（发现不能去掉-字符），剩下的字符串以空格分开，然后排序。如果为False，则直接对字符串s排序。

fuzz._token_sort(s1, s2, partial=True, force_ascii=True, full_process=True)

给出字符串 s1, s2的相似度。首先经过 fuzz._process_and_sort（）函数处理。partial为True时，再经过fuzz.partial_ratio（）函数。partial为False时，再经过fuzz.ratio（）函数。

so:

fuzz._token_sort(s1, s2, partial=True, force_ascii=True, full_process=True)

partial为True时：

fuzz.partial_token_sort_ratio(s1, s2, force_ascii=True, full_process=True)

partial为False时：

fuzz.token_sort_ratio(s1, s2, force_ascii=True, full_process=True)

去重子集匹配（Token Set Ratio）

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear"))

print(fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear"))

运行结果：

84

100

so:

fuzz._token_set(s1, s2, partial=True, force_ascii=True, full_process=True)

partial为False时，就是 fuzz.token_set_ratio（）函数。

fuzz.token_set_ratio(s1, s2, force_ascii=True, full_process=True)

当partial为True时，就是 fuzz.partial_token_set_ratio（）函数。

fuzz.partial_token_set_ratio(s1, s2, force_ascii=True, full_process=True)

Process

用来返回模糊匹配的字符串和相似度。

    >>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]

    >>> process.extract("new york jets", choices, limit=2)

        [('New York Jets', 100), ('New York Giants', 78)]

    >>> process.extractOne("cowboys", choices)

        ("Dallas Cowboys", 90)

你可以传入附加参数到 extractOne 方法来设置使用特定的匹配模式。一个典型的用法是来匹配文件路径:

已知移植

FuzzyWuzzy 已经被移植到其他语言环境，我们已知的有：

Java: xpresso's fuzzywuzzy implementation
Java: fuzzywuzzy (java port)
Rust: fuzzyrusty (Rust port)
JavaScript: fuzzball.js (JavaScript port)
C++: Tmplt/fuzzywuzzy
C#: fuzzysharp (.Net port)
Go: go-fuzzywuzz (Go port)

Refer

https://www.jianshu.com/p/ed22a82b45d1

https://blog.csdn.net/sunyao_123/article/details/76942809

简单易用的字符串模糊匹配库Fuzzywuzzy的更多相关文章

C++实现的字符串模糊匹配
C++基本没有正则表达式功能,当然像Boost里提供了正则.本文来源于博客园园友的一篇文章,请看: C/C++ 字符串模糊匹配很早之前就看过这篇文章,原作者的需求很明确.代码实现也很好. 之所以又写 ...
python 字符串模糊匹配 Fuzzywuzzy
Python提供fuzzywuzzy模块,不仅可用于计算两个字符串之间的相似度,而且还提供排序接口能从大量候选集中找到最相似的句子. (1)安装 pip install fuzzywuzzy (2)接 ...
python模糊匹配之fuzzywuzzy
fuzzywyzzy 是python下一个模糊匹配的模块.首先要安装fuzzywuzzy 示例: from fuzzywuzzy import fuzz from fuzzywuzzy import ...
mybatis字符串模糊匹配
1. 参数中直接加入%%,注意不需要加两个单引号,加了就会出错,因为系统会自动为字符串类型加上两个单引号 <select id="selectPersons" result ...
.NET ->> 分享一个字符串模糊匹配指数的方法
链接: http://www.tsjensen.com/blog/post/2011/05/27/Four+Functions+For+Finding+Fuzzy+String+Matches+In+ ...
SDAutoLayout:比masonry更简单易用的自动布局库
SDAutoLayout:一行代码搞定自动布局!支持Cell和Tableview高度自适应,Label和ScrollView内容自适应,致力于做最简单易用的AutoLayout库. [SDAutoLa ...
HDU 2585 Hotel（字符串的模糊匹配+递归）
Problem Description Last year summer Max traveled to California for his vacation. He had a great tim ...
文本框模糊匹配（纯html+jquery简单实现）
一.项目中需要用到此功能,使用过EasyUI中的Combobox,网上也搜过相应的解决办法,对于我的项目来说都不太合适,因为我还是喜欢比较纯粹的东西,就自己动手写了一个,比较简单,但还算能用,我的项目 ...
mysql 两张表字段模糊匹配--字符串拼接函数
concat(A,B,C,...) 拼接字符串例如concat('123','***','345') =>123***345 SELECT concat( substr(t1.CODE, ...

随机推荐

Python 的with关键字
Python 的with关键字看别人的代码时,with关键字经常会出现,博主决定梳理一下with以及python中上下文(context)的概念 1. 上下文管理器概念 Context Manage ...
http1.1管线话 vs htttp2.0 多路复用
图中第一种请求方式,就是单次发送request请求,收到response后再进行下一次请求,显示是很低效的. 于是http1.1提出了管线化(pipelining)技术,就是如图中第二中请求方式,一次 ...
浏览器端-W3School-HTML：HTML DOM rows 集合
ylbtech-浏览器端-W3School-HTML:HTML DOM rows 集合 1.返回顶部 1. HTML DOM rows 集合 HTML DOM Table 对象定义和用法 rows ...
Ironic 裸金属管理服务的底层技术支撑
目录文章目录目录底层技术支撑 DHCP NBP TFTP IPMI PXE & iPXE Cloud Init Linux 操作系统启动引导过程底层技术支撑 PXE:预启动执行环境,支 ...
JAVA处理链表经典问题
定义链表节点Node class Node { private int Data;// 数据域 private Node Next;// 指针域 public Node(int Data) { // ...
[转] Maven更新父子模块的版本号, mvn versions:set
[From]https://www.cnblogs.com/ilovexiao/p/5663761.html 前置条件: 1.安装有吃饭的家伙JAVA和MAVEN. 首先,需要有一个packaging ...
bootstrap文件上传C#实现
https://www.cnblogs.com/landeanfen/p/5007400.html
go语言20小时从入门到精通（六、工程管理）
在实际的开发工作中,直接调用编译器进行编译和链接的场景是少而又少,因为在工程中不会简单到只有一个源代码文件,且源文件之间会有相互的依赖关系.如果这样一个文件一个文件逐步编译,那不亚于一场灾难. Go语 ...
【学习笔记】python3中yaml文件使用
1.yaml -> 字典:用yaml.load()或yaml.safe_load(YAML字符串或文件句柄),如yaml中有中文,可以使用.encode('utf-8')或打开文件时指定enco ...
jvm学习笔记：一、类的加载、连接、初始化
在JAVA代码中,类型的加载.连接与初始化过程都是程序运行期间完成的. 类型的加载:将已经存在的class从硬盘加载到内存. 类型的连接:将类与类之间的关系确定好. 类型的初始化:类型静态的变量进行 ...

简单易用的字符串模糊匹配库Fuzzywuzzy

阅读目录

FuzzyWuzzy 简介

环境依赖

安装

使用 PIP 通过 PyPI 安装

使用 PIP 通过 Github 安装

使用 GIT 手工安装

用法

全匹配

非完全匹配（Partial Ratio）

忽略顺序匹配（Token Sort Ratio）

去重子集匹配（Token Set Ratio）

Process

已知移植

简单易用的字符串模糊匹配库Fuzzywuzzy的更多相关文章

随机推荐

热门专题