python scrapy爬虫存储数据库方法带去重步骤

import pymongo

import requests

import random

import time

import pymysql

db = pymongo.MongoClient()['cs']['dn']

db1 = pymysql.connect(user='root',password='root',db='cs',charset='utf8')

cursor = db1.cursor()

class CsdnPipeline(object):

    def __init__(self):

        self.set = set()

    def process_item(self, item, spider):

        if item not in self.set:

            title = item['title']

            content_text = item['content_text']

            create_time_datetime = item['create_time_datetime']

            nickName = item['nickName']

            read_count = item['read_count']

            content_img = item['content_img']

            keyword = item['keyword']

            if len(content_img)>0:

                path = []

                for img in content_img:

                    img_name = 'F:\\34\\tu\\'+str(time.time()).split('.')[1]+str(random.randrange(1,9999999999999999999999999))+'.jpg'

                    img_source = requests.get(img).content

                    op = open(img_name,'wb')

                    op.write(img_source)

                    op.close()

                    path.append(img_name)

                item['content_img'] = path

            else:

                item['content_img'] = '暂无图片'

            db.insert(dict(item))

            import json

            data = json.dumps(dict(item))

            sql = "insert into dn1(`data`) VALUES ('{}')".format(data)

            cursor.execute(sql)

            db1.commit()

            self.set.add(item)

            return item

        else:

            print('已经存在')

            return item

python scrapy爬虫存储数据库方法带去重步骤的更多相关文章

python - scrapy 爬虫框架（创建, 持久化, 去重, 深度, cookie）
## scrapy 依赖 twisted - twisted 是一个基于事件循环的异步非阻塞框架/模块 ## 项目的创建 1. 创建 project scrapy startproject ...
Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy爬虫框架之初次使用
此篇博客为本人对小甲鱼的课程的总结. 关于Scrapy的安装网上都有方法,这里便不再叙述. 使用Scrapy抓取一个网站一共需要四个步骤: 0.创建一个Scrapy项目: 1.定义Item容器: 2. ...
如何在vscode中调试python scrapy爬虫
本文环境为 Win10 64bit+VS Code+Python3.6,步骤简单罗列下,此方法可以不用单独建一个Py入口来调用命令行安装Python,从官网下载,过程略,这里主要注意将python目 ...
最全数据分析资料汇总（含python、爬虫、数据库、大数据、tableau、统计学等）
一.Python基础 Python简明教程(Python3) Python3.7.4官方中文文档 Python标准库中文版廖雪峰 Python 3 中文教程 Python 3.3 官方教程中文版 P ...
python中requests库get方法带参数请求
起因是想爬五等分的花嫁的漫画.这是其中的一个坑先上代码 data={ 'cid':567464, , 'key':'', 'language':1, 'gtk':6, '_cid':567464, ...
python scrapy爬虫数据库去重方法
1. scrapy对request的URL去重 yield scrapy.Request(url, self.parse, dont_filter=False) 注意这个参数:dont_filter= ...
Python scrapy爬虫数据保存到MySQL数据库
除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 ...

随机推荐

【CSS】【1】让DIV中的文字换行显示
<div style="white-space:normal;word-break:break-all;word-wrap:break-word;">data</ ...
aboutme and my goal
active, diligent ,work hard now,I am a sophomore,I must workhard ,ecspacially my major ,so , pass CE ...
Ubuntu下忘记MySQL root密码解决方法
1.忘了mysql密码,从网上找到的解决方案记录在这里. 编辑mysql的配置文件/etc/mysql/my.cnf,在[mysqld]段下加入一行“skip-grant-tables”. 2.重启服 ...
Mysql可重复读原理
mysql可重复读现象及原理分析 InnoDB---可重复读隔离级别的底层实现原理概念可重复读的实现 Repeatable Read(可重复读):一个事务在执行过程中可以看到其他事务已经提交的新插 ...
解决QPainter::drawText修改文字方向
今天在绘制双坐标曲线的时候需要修改y轴文字提示 QPainter的drawText()函数提供了绘制文本的功能. 它有几种重载形式,我们使用了其中的一种,即制定文本的坐标然后绘制正常我们的文字书写方 ...
Elasticsearch安装部署（CentOS）
1.安装JDK,http://www.cnblogs.com/zhi-leaf/p/5996287.html. 2.下载ES:https://www.elastic.co/downloads/elas ...
Sql server中如何将表A和表B的数据合并（乘积方式）
sql server中如何将表A 和表B的数据合并成乘积方式,也就是说表A有2条数据,表B有3条数据,乘积后有6条数据, 这就要用到sql中的笛卡尔积方式了 1.什么是笛卡尔积笛卡尔积在SQL中的实 ...
方便好用的 Idea mybatis 插件 MyBatisCodeHelper
优点: 1.mapper文件(即表对应的dao)与xml文件自由切换,方便代码评审: 2.自动代码生成功能提高开发效率,mysql数据库创建好表结构,写完 pojo(注意字段类型要统一用对象类型!), ...
用linq和datatable巧妙应用于微软报表rdlc
看看代码吧.现在我用Linq已经上瘾,对SQL语言已经几乎不用了,可惜的是rdlc不支持linq,要采用sql语言生成datatable,用datatable绑定rdlc,这里,应用了一个技巧,解决了 ...
深入理解 Java 虚拟机——走近 Java
1.1 - 概述 Java 总述:Java 不仅是一门编程语言,还是一个由一系列计算机软件和规范形成的技术体系,这个技术体系提供了完整的用于软件开发和跨平台部署的支持环境,并广泛应用于嵌入式 ...

python scrapy爬虫存储数据库方法带去重步骤

python scrapy爬虫存储数据库方法带去重步骤的更多相关文章

随机推荐

热门专题