scrapy爬取数据保存csv、mysql、mongodb、json
目录
前言
Items
Pipelines
前言
用Scrapy进行数据的保存进行一个常用的方法进行解析
Items
item 是我们保存数据的容器,其类似于 python 中的字典。使用 item 的好处在于: Item 提供了额外保护机制来避免拼写错误导致的未定义字段错误。且看栗子:
import scrapy
class Doubantop250Item(scrapy.Item):
title = scrapy.Field() # 电影名字
star = scrapy.Field() # 电影评分
quote = scrapy.Field() # 脍炙人口的一句话
movieInfo = scrapy.Field() # 电影的描述信息,包括导演、主演、电影类型
Pipelines
pipelines.py 一般我们用于保存数据,其方法的一些介绍如下图。下面,我会分多种方式来保存我们的数据,避免你耍流氓。
保存到 Json
import json
class JsonPipeline(object):
file_name = base_dir + '/doubanTop250/data.json' # json 文件路径
def process_item(self, item, spider):
file = open(self.file_name, 'r', encoding='utf-8')
load_data = json.load(file)
load_data.append({"title": item["title"].strip()}) # 追加数据
file = open(self.file_name, 'w', encoding='utf-8')
json.dump(load_data, file, ensure_ascii=False) # 保存数据
file.close()
return item
保存到 CSV
def appendDta2Csv(self, file_name, new_headers, new_data):
with open(file_name,'r') as f:
f_csv = csv.reader(f)
try:# 如何有源文件没有 headers ,将调用传进来的 headers
headers = next(f_csv)
except:
headers = new_headers
old_data = list(f_csv)
old_data.append(new_data) # 追加新的数据
with open(file_name, 'w') as f2:# 保存数据
f_csv = csv.writer(f2)
f_csv.writerow(headers)
f_csv.writerows(old_data)
f2.close()
f.close() def process_item(self, item, spider):
self.appendDta2Csv(self.file_name, ["title"], [item["title"].strip()])
return item
保存到 MongoDB
from pymongo import MongoClient
import os
base_dir = os.getcwd()
class MongoPipeline(object):
# 实现保存到mongo数据库的类,
collection = 'douban' # mongo 数据库的 collection 名字 def __init__(self, mongo_uri, db_name, db_user, db_pass):
self.mongo_uri = mongo_uri
self.db_name = db_name
self.db_user = db_user
self.db_pass = db_pass @classmethod
def from_crawler(cls, crawler):
# scrapy 为我们访问settings提供了这样的一个方法,这里,
# 我们需要从 settings.py 文件中,取得数据库的URI和数据库名称
return cls(
mongo_uri=crawler.settings.get('MONGO_URI'),
db_name=crawler.settings.get('DB_NAME'),
db_user=crawler.settings.get('DB_USER'),
db_pass=crawler.settings.get('DB_PASS')) def open_spider(self, spider): # 爬虫启动时调用,连接到数据库
self.client = MongoClient(self.mongo_uri)
self.zfdb = self.client[self.db_name]
self.zfdb.authenticate(self.db_user, self.db_pass) def close_spider(self, spider): # 爬虫关闭时调用,关闭数据库连接
self.client.close() def process_item(self, item, spider):
self.zfdb[self.collection].insert({"title": item["title"].strip()})
return item
保存到 MySQL
from sqlalchemy import create_engine, Column, Integer, String, BIGINT, ForeignKey, UniqueConstraint, Index, and_, \
or_, inspect
from sqlalchemy.orm import sessionmaker, relationship, contains_eager
class MysqlPipeline(object):
MYSQL_URI = 'mysql+pymysql://username:password@localhost:3306/db_name'
# echo 为 True 将会输出 SQL 原生语句
engine = create_engine(MYSQL_URI, echo=True)
from sqlalchemy.ext.declarative import declarative_base
Base = declarative_base() # 创建单表
class Movie(Base):
__tablename__ = 'movies'
id = Column(BIGINT, primary_key=True, autoincrement=True)
title = Column(String(200))
# 初始化数据库
def init_db(self):
self.Base.metadata.create_all(self.engine)
# 删除数据库
def drop_db(self):
self.Base.metadata.drop_all(self.engine)
def open_spider(self, spider): # 爬虫启动时调用,连接到数据库
self.init_db()
Session = sessionmaker(bind=self.engine)
self.session = Session()
def process_item(self, item, spider):
new_movie = self.Movie(title=item["title"].strip())
self.session.add(new_movie)
self.session.commit()
return item
在写好相关的 pipeline 之后,需要在 settings.py 中启用相关的 pipeline,后面的数字为调用的优先级,数字是0-1000,你可以自定义。你可以所有格式都保存,也可以注释掉其他,值保留一个。
ITEM_PIPELINES = {
'doubanTop250.pipelines.MongoPipeline': 300,
'doubanTop250.pipelines.MysqlPipeline': 301,
'doubanTop250.pipelines.CsvPipeline': 302,
'doubanTop250.pipelines.JsonPipeline': 303,
}
scrapy爬取数据保存csv、mysql、mongodb、json的更多相关文章
- python之scrapy爬取数据保存到mysql数据库
1.创建工程 scrapy startproject tencent 2.创建项目 scrapy genspider mahuateng 3.既然保存到数据库,自然要安装pymsql pip inst ...
- Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
- 如何提升scrapy爬取数据的效率
在配置文件中修改相关参数: 增加并发 默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100. ...
- scrapy爬取海量数据并保存在MongoDB和MySQL数据库中
前言 一般我们都会将数据爬取下来保存在临时文件或者控制台直接输出,但对于超大规模数据的快速读写,高并发场景的访问,用数据库管理无疑是不二之选.首先简单描述一下MySQL和MongoDB的区别:MySQ ...
- scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架 异步与非阻塞的区别 异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...
- 42.scrapy爬取数据入库mongodb
scrapy爬虫采集数据存入mongodb采集效果如图: 1.首先开启服务切换到mongodb的bin目录下 命令:mongod --dbpath e:\data\db 另开黑窗口 命令:mongo. ...
- 实现多线程爬取数据并保存到mongodb
多线程爬取二手房网页并将数据保存到mongodb的代码: import pymongo import threading import time from lxml import etree impo ...
- 将scrapy爬取数据通过django入到SQLite数据库
1. 在django项目根目录位置创建scrapy项目,django_12是django项目,ABCkg是scrapy爬虫项目,app1是django的子应用 2.在Scrapy的settings.p ...
- Python+Scrapy+Crawlspider 爬取数据且存入MySQL数据库
1.Scrapy使用流程 1-1.使用Terminal终端创建工程,输入指令:scrapy startproject ProName 1-2.进入工程目录:cd ProName 1-3.创建爬虫文件( ...
随机推荐
- ASP.Net笔记整理(一)
验证码类 using System; using System.Collections.Generic; using System.Drawing; using System.Drawing.Draw ...
- react native使用百度echarts显示图表
echarts是百度推出的免费开源的图表组件,功能丰富,涵盖各行业图表.公司项目做h5项目用了不少,最近公司翻新h5页面,用react-native改造,来达到增强用户体验效果的目的.项目中遇到了一些 ...
- Django mysql应用
环境:python3.Django2 1.安装驱动mysqlclient pip3 install mysqlclient 2.创建一个数据库 CREATE DATABASE database_nam ...
- keras使用
一.pad_sequences from keras.preprocessing.sequence import pad_sequences keras只能接受长度相同的序列输入.因此如果目前序列长度 ...
- HTML界面多语言切换
我在做个人网站时考虑到多语言转换的问题,最后在JS文件中将所有文字数据储存然后设置HTML中的class与key属性来达到多语言效果.当然,还有一个别的方法,就是所有有文字内容的div都用不同语言写一 ...
- mongodb的部署记录
操作系统redhat6.4,采用网络yum源的方式进行安装 一.linux下安装mongodb 1.配置yum源 [root@localhost ~]#vim /etc/yum.repos.d/mon ...
- 080、Weave Scope 容器地图(2019-04-28 周日)
参考https://www.cnblogs.com/CloudMan6/p/7655294.html Weave Scope 的最大特点是会自动生成一张 Docker 容器地图,让我们能够直接的理 ...
- 解决:在微信中访问app下载链接提示“已停止访问该网页”
前言 现如今微信对第三方推广链接的审核是越来越严格了,域名在微信中分享转发经常会被拦截,一旦被拦截用户就只能复制链接手动打开浏览器粘贴才能访问,要不然就是换个域名再推,周而复始.无论是哪一种情况都会面 ...
- word20170106在机场 At the airport有用的词和句子
有用的词: airport terminal: 航站楼 domestic flight: 国内航班 international flight: 国际航班 checked luggage: 托运行李 c ...
- 【转】一文掌握 Linux 性能分析之 I/O 篇
[转]一文掌握 Linux 性能分析之 I/O 篇 这是 Linux 性能分析系列的第三篇,前两篇分别讲了 CPU 和 内存,本篇来看 IO. IO 和 存储密切相关,存储可以概括为磁盘,内存,缓存, ...