Python 连接MongoDB并比较两个字符串相似度的简单示例
本文介绍一个示例:使用 pymongo 连接 MongoDB,查询MongoDB中的 字符串 记录,并比较字符串之间的相似度。
一,Python连接MongoDB
大致步骤:创建MongoClient---> 获取 DataBase --->获取Collection,代码如下:
client = MongoClient(host="127.0.0.1", port=10001)
db = client['database_name']
db.authenticate(name="user_name", password="password")
coll = db.get_collection("collection_name")
二,Python MongoDB 查询
以uid为条件进行查询。由于 collection_name 中定义了多个字段,这里只想返回 chat 字段的内容,并且不返回 _id 字段内容。故查询条件如下:(find方法的第一个参数指定查询的条件,第二个参数指定 待 返回的 字段)
coll.find({"uid": 123456789}, {"_id": 0, "chat": 1})
MongoDB查询返回的每一条记录都是一个 dict:{"chat":"这是一条发言内容"},再将之转化成 chats列表(list) 存储每一条发言内容:
list_chat = list(coll.find({"uid": 123456789}, {"_id": 0, "chat": 1}))
chats = [d['chat'] for d in list_chat]
三,Python比较两个字符串的相似度
给定一个列表(list),列表中的每个元素都是一个字符串,计算列表中相邻两个元素的相似度。
#查找chats 列表 里面 相邻 字符串 之间的 相似度
def compute_similar():
chats = uid_chats()
for index in range(len(chats) - 1):
ratios = similar_ratio(chats[index], chats[index+1])
print(ratios)
具体的字符串相似度计算,由SequenceMatcher实现,它忽略了字符串中存在空格的情况。
#lambda 表达式表示忽略 “ ”(空格),空格不参与相似度地计算
SequenceMatcher(lambda x:x==" ", strA, strB).ratio()
四,判断 "nick"字段是否包含 emoji字符
打开Anaconda,安装 emoji 处理包
pip install emoji --upgrade
代码如下:
from pymongo import MongoClient
import emoji client = MongoClient(host="127.0.0.2", port=10001)
db = client['db_name']
db.authenticate(name="user_name", password="xxxx")
coll = db.get_collection("coll_name") def extract_emojis(str_chat):
return ' '.join(c for c in str_chat if c in emoji.UNICODE_EMOJI) def uid_chats(uid):
list_chat = list(coll.find({"uid": uid}, {"_id": 0, "nick": 1}))
chats = [d['nick'] for d in list_chat]
print(chats)
return chats if __name__ == "__main__":
chatList = uid_chats(123456789)
for chat in chatList:
result = extract_emojis(chat)
print(result)
五,完整代码
系统环境 pycharm2016.3 Anaconda3 Python3.6
from pymongo import MongoClient
from difflib import SequenceMatcher client = MongoClient(host="127.0.0.1", port=10001)
db = client['database_name']
db.authenticate(name="user_name", password="password") coll = db.get_collection("collection_name") def uid_chats():
list_chat = list(coll.find({"uid": 123456789}, {"_id": 0, "chat": 1}))
chats = [d['chat'] for d in list_chat]
print(chats)
return chats def similar_ratio(strA, strB):
return SequenceMatcher(lambda x:x==" ", strA, strB).ratio() #查找list里面相邻字符串之间的相似度
def compute_similar():
chats = uid_chats()
for index in range(len(chats) - 1):
ratios = similar_ratio(chats[index], chats[index+1])
print(ratios) if __name__ == "__main__":
compute_similar()
原文:http://www.cnblogs.com/hapjin/p/7895027.html
Python 连接MongoDB并比较两个字符串相似度的简单示例的更多相关文章
- 爬虫入门【8】Python连接MongoDB的用法简介
MongoDB的连接和数据存取 MongoDB是一种跨平台,面向文档的NoSQL数据库,提供高性能,高可用性并且易于扩展. 包含数据库,集合,文档等几个重要概念. 我们在这里不介绍MongoDB的特点 ...
- python学习--python 连接SQLServer数据库(两种方法)
1. python 学习.安装教程参照: http://www.runoob.com/python/python-tutorial.html 2. 集成开发环境 JetBrains PyCharm C ...
- Python连接MongoDB数据库并执行操作
原文:https://blog.51cto.com/1767340368/2092813 环境设置: [root@mongodb ~]# cat /etc/redhat-release CentOS ...
- 左手Mongodb右手Redis 通过python连接mongodb
首先需要安装第三方包pymongo pip install pymongodb """ 通过python连接mongodb数据库 首先需要初始化数据库连接 "& ...
- python连接mongodb数据库
之前使用过python连接mysql数据库(用到pymysql库),公司也有使用mongodb数据库,所以就整理了一份python连接mongodb数据库的代码出来,以供记录和分享. 首先我们要用到 ...
- MongoDB聚合查询及Python连接MongoDB操作
今日内容概要 聚合查询 Python操作MongoDB 第三方可视化视图工具 今日内容详细 聚合查询 Python操作MongoDB 数据准备 from pymongo import MongoCli ...
- python连接MongoDB
1.安装pymongo库 windows下: pip install pymongo 或者 easy_install install pymongo 2.使用pymongo模块连接mongoDB数据库 ...
- Python连接MongoDB操作
1.安装PyMongo 注意:请勿安装“bson”软件包. PyMongo配有自己的bson包; 执行“pip install bson”或“easy_install bson”则会安装与PyMong ...
- Python连接mongodb提取部分字段内数据并写入txt文件
#coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') from pymongo import MongoClient ...
随机推荐
- Linux 多网卡绑定bond
mode=0:负载均衡模式,增加带宽,两块网卡使用的是同一个MAC地址,所以必须配置网卡相连的交换机,这两个端口应采用聚合方式. mode=1:主备模式,一个线断了,另一条自动备援. mode=6:负 ...
- 【BZOJ4873】[六省联考2017]寿司餐厅(网络流)
[BZOJ4873][六省联考2017]寿司餐厅(网络流) 题面 BZOJ 洛谷 题解 很有意思的题目 首先看到答案的计算方法,就很明显的感觉到是一个最大权闭合子图. 然后只需要考虑怎么构图就行了. ...
- 【BZOJ5212】[ZJOI2018]历史(Link-Cut Tree)
[BZOJ5212][ZJOI2018]历史(Link-Cut Tree) 题面 洛谷 BZOJ 题解 显然实际上就是给定了一棵树和每个点被\(access\)的次数,求解轻重链切换的最大次数. 先考 ...
- virtio,macvtap,sriov
本文转自http://xiaoli110.blog.51cto.com/1724/1558984 一个完整的数据包从虚拟机到物理机的路径是: 虚拟机--QEMU虚拟网卡--虚拟化层--内核网桥--物理 ...
- poj2373 Dividing the Path (单调队列+dp)
题意:给一个长度为L的线段,把它分成一些份,其中每份的长度∈[2A,2B]且为偶数,而且不能在某一些区间内部切开,求最小要分成几份 设f[i]为在i处切一刀,前面的满足要求的最小份数,则f[L]为答案 ...
- luogu P4299 首都
题目描述 在X星球上有N个国家,每个国家占据着X星球的一座城市.由于国家之间是敌对关系,所以不同国家的两个城市是不会有公路相连的. X星球上战乱频发,如果A国打败了B国,那么B国将永远从这个星球消失, ...
- NOIp2018爆零记
Day-2~Day0 考前抱佛脚,赶紧刷刷各种模板 Day 1 在开考之前打好了拍子模板,然后试题密码就发下来了(这是我前面的神仙打了\(100\)多行\(emacs\)的配置\(QAQ\)). 先按 ...
- ocr智能图文识别 tess4j 图文,验证码识别
最近写爬虫采集数据,遇到网站登录需要验证码校验,想了想有两种解决办法 1,利用htmlunit,将验证码输入到swing中,并弹出一个输入框,手动输入验证码,这种实现方式,如果网站需要登录一次可以使用 ...
- 我眼中的 Docker(二)Image
Docker 安装 如何安装 docker 详见官网: installation 或者 中文指南. 不过 linux 上我推荐用 curl 安装,因为 apt-get 中源要么没有 docker,要么 ...
- c#Linq联合查询
public void Test2() { var queryResult1 = from e in empArray from l in empLevelArray select new { e, ...