爬虫系列:使用 MySQL 存储数据
上一篇文章我们讲解了爬虫如何存储 CSV 文件,这篇文章,我们讲解如何将采集到的数据保存到 MySQL 数据库中。
MySQL 是目前最受欢迎的开源关系型数据库管理系统。一个开源项目具有如此之竞争力实在是令人意外,它的流行程度正在不断地接近两外两个闭源的商业数据库系统:微软的 SQL Server 和甲骨文的 Oracle 数据库(MySQL 在2010年被甲骨文收购)。
它的流行程度名符其实。对于大多数应用来说,MySQL 都是不二选择。他是一种非常灵活、稳定、功能齐全的 DBMS,许多顶级的网站都在使用它:Youtube、Twitter 和 Facebook 等。
因为它受众广泛,免费,开箱即用,所以它是网络数据采集项目中常用的数据库,这篇文章我们介绍如何通过 MySQL 存储采集到的数据。
安装 MySQL
如果你第一次接触 MySQL,可能会觉得有点麻烦。其实,安装方法和安装其他软件一样简单。归根结底,MySQL 就是由一系列数据文件构成的,存储在你远端服务器或者本地电脑上,里面包含了数据库存储的所有信息。
Windows 安装 MySQL、Ubuntu 安装 MySQL、MAC 安装 MySQL 具体步骤在此:全平台安装 MySQL
在此不做过多说明,按照视频操作就可以了。
基本命令
MySQL 服务器启动之后,有很多种方法可以与数据库服务器交互。因为有很多工具是图形界面,所以你可以不用 MySQL 的命令行(或是很少用命令行)也能管理数据库。像 phpMyAdmin 和 MySQL Workbench 这类工具可以很容易地实现数据库查看、排序和新建等工作。但是,掌握命令行操作数据库还是很重要的。
除了用户自定义变量名,MySQL 是不区分大小写的。例如,SELECT 和 select 是一样的,不过习惯上写 MySQL 语句的时候所有的 MySQL 关键词都用大写。大多数开发者还喜欢用小写字母表示数据库和数据表的名称。
首先登入 MySQL 数据库的时候,里面是没有数据库存放数据的。我们需要创建一个数据库:
CREATE DATABASE scraping_article DEFAULT CHARACTER SET UTF8 COLLATE UTF8_GENERAL_CI;
因为每个 MySQL 实例可以有多个数据库,所以使用某个数据库之前需要指定数据库的名称:
USE scraping_article
从现在开始(直到关闭 MySQL 链接或切换到另一个数据库之前),所有的命令都运行在这个新的“scraping_article”数据库里面。
所有操作都看起来非常简单。那么在数据库里面新建表的操作方法也应该类似吧?我们在库里面新建一张表来存储采集的网页文章数据:
CREATE TABLE articles;
结果显示错误:
ERROR 1113 (42000): A table must have at least 1 column
和数据库不同,MySQL 数据表必须有一列,否则不能创建。为了在 MySQL 里定义字段(数据列),我们还必须在 CREATE TABLE 语句后面,把字段定义放进一个带括号的、内部由逗号分隔的列表中:
create table articles
(
id int auto_increment
primary key,
title varchar(64) null,
body text null,
summary varchar(256) null,
body_html text null,
create_time datetime default CURRENT_TIMESTAMP null,
time_updated datetime null,
link_text varchar(128) null
);
每个字段定义由三部分组成:
名称(id、title、body 等)
数据类型(INT、VARCHAR、TEXT)
其他可选属性(NOT NULL AUTO_INCREMENT)
在字段定义列表的最后,还要定义一个“主键”(key)。MySQL 用这个主键来组织表的内容,便于后面快速查询。在以后的文章中,我将介绍如果通过这些主键以提高数据库的查询速度,但是现在,我们使用表的 id 列作为主键就可以。
语句执行之后,我们可以使用 DESCRIBE 查看数据表的结构:
+--------------+--------------+------+-----+-------------------+----------------+
| Field | Type | Null | Key | Default | Extra |
+--------------+--------------+------+-----+-------------------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| title | varchar(64) | YES | | NULL | |
| body | text | YES | | NULL | |
| summary | varchar(256) | YES | | NULL | |
| body_html | text | YES | | NULL | |
| create_time | datetime | YES | | CURRENT_TIMESTAMP | |
| time_updated | datetime | YES | | NULL | |
| link_text | varchar(128) | YES | | NULL | |
+--------------+--------------+------+-----+-------------------+----------------+
8 rows in set (0.03 sec)
现在这张表是一张空表,我们插入一下数据看看,如下所示:
INSERT INTO articles(title,body,summary,body_html,link_text) VALUES ("Test page title","Test page body.","Test page summary.","<p>Test page body.</p>","test-page");
这里需要我们注意,虽然 articles 表有8个字段(id,title,body,summary,body_html,create_time,time_update,link_text),但实际上我们这里只插入5个字段(title,body,summary,body_html,link_text)的数据即可。因为 id 字段是自动递增的(每次插入数据时 MySQL 默认增加1),通常不用处理。另外 create_time 字段的类型是 current_timestamp,默认插入的是时间戳。
当然我们也可以自定义字段内容插入数据:
INSERT INTO articles(id,title,body,summary,body_html,create_time,link_text) VALUES (4,"Test page title","Test page body.","Test page summary.","<p>Test page body.</p>","2021-11-20 15:51:45","test-page");
只要你定义的整数在数据表的 id 字段里没有,他就可以插入到数据表。但是,这么做非常不好;除非万不得已(比如程序中漏了一行数据),否则让 MySQL 自己处理 id 和 timestamp 字段。
现在表里面有一些数据了,我们可以通过很多方法查询这些数据。下面是几个 SELECT 语句的示例:
SELECT * FROM articles WHERE id=1;
这条语句告诉 MySQL,“从 articles 表中把所有 id 等于 2 的数据全部挑选出来”。这个星号(*)是通配符,表示所有字段,这行语句会把满足条件(where id=1)的所有字段内容都显示出来。如果 id 这里没有任何一行等于1,就会返回一个空集。例如,下面这个不区分大小写的查询,会返回 title 字段里包含 “test”的所有行(%符号表示 MySQL 字符串通配符)的所有字段:
SELECT * FROM articles WHERE title LIKE "%test%";
但是如果你有很多字段,而你只想返回部分字段怎么办?你可以不要用星号,而是使用下面的方式:
SELECT title, body FROM articles WHERE body LIKE "%test%";
这样就只会返回 body 内容包含 “test” 所有行的 title 和 body 两个字段了。
DELETE 语句语法与 SELECT 语句类似:
DELETE FROM articles WHERE id=1;
由于数据库的数据删除不能恢复,所以在执行 DELETE 语句之前,建议使用 SELECT 确认一下需要删除的数据(上面的删除语句可以使用 SELECT * FROM articles WHERE id=1;
查看),然后把 SELECT *
换成 DELETE
就可以了,这会是一个好习惯。很多程序员都有过一些 DELETE 误操作的伤心往事,还有一些恐怖的故事就是有人慌乱中忘了在语句中放 WHERE,结果把所有的客户数据都删除了。别让这事情发生在你身上!
还有一个需要介绍的是 UPDATE 语句:
UPDATE articles SET title="A new title", body="Some new body." WHERE id=4;
以上只是使用了最基本的 MySQL 语句,做一些简单的数据查询、创建和更新等工作。
与 Python 整合
Python 没有内置的 MySQL 支持工具。不过,有很多开源的可以用来与 MySQL 做交互,Python 2.x 和 Python 3.x 版本都支持。最有名的一个就是 PyMySQL。
我们可以使用 pip 安装,执行如下命令:
python3 -m pip install PyMySQL
安装完成我们就可以使用 PyMySQL 包了。如果你的 MySQL 服务器处于运行状态,应该就可以成功地执行下面命令:
import pymysql
import os
from dotenv import load_dotenv
class DataSaveToMySQL(object):
def __init__(self):
# loading env config file
dotenv_path = os.path.join(os.getcwd(), '.env')
if os.path.exists(dotenv_path):
load_dotenv(dotenv_path)
conn = pymysql.connect(host=os.environ.get('MYSQL_HOST'), port=os.environ.get('MYSQL_PORT'),
user=os.environ.get('MYSQL_USER'), password=os.environ.get('MYSQL_PASSWORD'),
db=os.environ.get('MYSQL_DATABASES'))
cur = conn.cursor()
cur.execute("SELECT * FROM articles WHERE id=4;")
print(cur.fetchone())
cur.close()
conn.close()
这段程序有两个对象:连接对象(conn)和游标对象(cur)。
连接/游标模式是数据库编程中常用的模式,在刚刚接触数据库的时候,有的时候很难区分这两种模式的不同。连接模式除了连接数据库之外,还要发送数据库信息,处理回滚操作(当一个查询或一组查询被中断时,数据库就需要回到初始状态,一般使用事务实现状态回滚),创建新的游标等等。
而一个连接可以有很多个游标,一个游标追踪一种状态(state)信息,比如追踪数据库的使用状态。如果有多个数据库,且需要向所有数据库写内容,就需要多个游标来处理。游标还可以包含最后一次查询执行结果。通过调用游标函数,比如cur.fetchone()
,可以获取查询结果。
用完连接和游标之后千万记得关闭它们。如果不关闭就会导致连接泄露(connection leak),造成一种关闭连接现象,即连接已经不再使用,但数据库却不能关闭,因为数据库不确定你还要不要继续使用它。这种现象一直会耗费数据库资源,所以用完数据库之后记得关闭连接!
刚开始的时候,你想做的事情就是把采集的数据保存到数据库。我们继续采集博客文章的例子来演示如何实现数据存储。
import pymysql
import os
from dotenv import load_dotenv
from config import logger_config
from utils import connection_util
class DataSaveToMySQL(object):
def __init__(self):
# loading env config file
dotenv_path = os.path.join(os.getcwd(), '.env')
if os.path.exists(dotenv_path):
load_dotenv(dotenv_path)
# MySQL config
self._host = os.environ.get('MYSQL_HOST')
self._port = int(os.environ.get('MYSQL_PORT'))
self._user = os.environ.get('MYSQL_USER')
self._password = os.environ.get('MYSQL_PASSWORD')
self._db = os.environ.get('MYSQL_DATABASES')
self._target_url = 'https://www.scrapingbee.com/blog/'
self._baseUrl = 'https://www.scrapingbee.com'
self._init_connection = connection_util.ProcessConnection()
logging_name = 'store_mysql'
init_logging = logger_config.LoggingConfig()
self._logging = init_logging.init_logging(logging_name)
def scrape_data(self):
get_content = self._init_connection.init_connection(self._target_url)
if get_content:
parent = get_content.findAll("section", {"class": "section-sm"})[0]
get_row = parent.findAll("div", {"class": "col-lg-12 mb-5 mb-lg-0"})[0]
get_child_item = get_row.findAll("div", {"class": "col-md-4 mb-4"})
for item in get_child_item:
# 获取标题文字
get_title = item.find("a", {"class": "h5 d-block mb-3 post-title"}).get_text()
# 获取发布时间
get_release_date = item.find("div", {"class": "mb-3 mt-2"}).findAll("span")[1].get_text()
# 获取文章描述
get_description = item.find("p", {"class": "card-text post-description"}).get_text()
self.article_save_mysql(title=get_title, description=get_description, release_date=get_release_date)
else:
self._logging.warning('未获取到文章任何内容,请检查!')
def article_save_mysql(self, title, description, release_date):
connection = pymysql.connect(host=self._host, port=self._port, user=self._user, password=self._password,
db=self._db, charset='utf-8')
with connection.cursor() as cursor:
# Create a new record
sql = "INSERT INTO articles (title,summary,create_time) VALUES (%s,%s,%s);"
cursor.execute(sql, (title, description, release_date))
# connection is not autocommit by default. So you must commit to save
# your changes.
connection.commit()
这里有几点需要注意:首先,charset='utf-8'
要增加到连接字符串里。这是让 conn
把所有发送数据库的信息都当成 utf-8
编码格式(当然,前提是数据库默认编码设置成 UTF-8)。
然后需要注意的是 article_save_mysql
函数。它有3个参数:title、description和release_date,并把这两个参数加入到一个 INSERT
语句中并用游标执行,然后使用游标进行确认。这是一个让游标与连接分离的好例子;当游标里存储了一些数据库与数据库上下文(context)的信息时,需要通过连接确认将信息传进数据库,再将信息插入数据库。
上面代码没有使用 try...finally
语句来关闭数据库,而是使用的 with()
来关闭数据库连接,上一期中我们也是使用的 with()
来关闭 CSV 文件。
虽然 PyMySQL 规模并不大,但是里面有一些非常实用的函数,本篇文章中并没有演示,具体可以参考 Python 的 DBAPI 标准文档。
以上是关于将采集的内容保存到 MySQL 的内容,本实例的所有代码托管于 github。
github: https://github.com/sycct/Scrape_1_1.git
如果有任何问题,欢迎在 github issue。
爬虫系列:使用 MySQL 存储数据的更多相关文章
- MySQL系列(二)--MySQL存储引擎
影响数据库性能的因素: 1.硬件环境:CPU.内存.存盘IO.网卡流量等 2.存储引擎的选择 3.数据库参数配置(影响最大) 4.数据库结构设计和SQL语句 MySQL采用插件式存储引擎,可以自行选择 ...
- PHP+MySQL存储数据出现中文乱码的问题
PHP+MySQL出现中文乱码的原因: 1. MYSQL数据库的编码是utf8,与PHP网页的编码格式不一致,就会造成MYSQL中的中文乱码. 2. 使用MYSQL中创建表.或者选择字段时设置的类型不 ...
- 爬虫系列---scrapy全栈数据爬取框架(Crawlspider)
一 简介 crawlspider 是Spider的一个子类,除了继承spider的功能特性外,还派生了自己更加强大的功能. LinkExtractors链接提取器,Rule规则解析器. 二 强大的链接 ...
- [转] MySQL 查询表数据大小的总结
一:关于mysql表数据大小 我们知道mysql存储数据文件一般使用表空间存储 当mysql使用innodb存储引擎的时候,mysql使用表存储数据分为共享表空间和独享表空间两种方式 ·共享表空间:I ...
- [数据库系列之MySQL]Mysql优化笔记
大型网站提速之MySql优化 数据库优化包括的方面 数据库优化是一个综合性的技术,并不是通过某一种方式让数据库效率提高很多,而是通过多方面的提高,从而使得数据库提高很多. 主要包括: 1.表的设计合理 ...
- Mysql存储结构
索引是一种加快查询速度的数据结构,常用索引结构有hash.B-Tree和B+Tree.本节通过分析三者的数据结构来说明为啥Mysql选择用B+Tree数据结构. 数据结构 Hash hash是基于哈希 ...
- MYSQL系列-Mysql存储引擎选择
MYSQL系列-Mysql存储引擎选择 //查看当前数据库支持的存储引擎 show engines \G; 创建表的时候可以通过engine=MyISAM指定存储引擎 MyISAM: .MYISAM不 ...
- Nutch的配置(使用MySQL作为数据存储)
首先先从http://www.apache.org/dyn/closer.cgi/nutch/下载安装包 这里假定nutch的根目录为:${APACHE_NUTCH_HOME} 配置${APACHE_ ...
- Mysql高手系列 - 第27篇:mysql如何确保数据不丢失的?我们借鉴这种设计思想实现热点账户高并发设计及跨库转账问题
Mysql系列的目标是:通过这个系列从入门到全面掌握一个高级开发所需要的全部技能. 欢迎大家加我微信itsoku一起交流java.算法.数据库相关技术. 这是Mysql系列第27篇. 本篇文章我们先来 ...
随机推荐
- hdu 2955 Robberies(背包DP)
题意: 小偷去抢银行,他母亲很担心. 他母亲希望他被抓的概率真不超过P.小偷打算去抢N个银行,每个银行有两个值Mi.Pi,Mi:抢第i个银行所获得的财产 Pi:抢第i个银行被抓的概率 求最多能抢得多少 ...
- Mybatis的分页插件com.github.pagehelper
1. 需要引入PageHelper的jar包 如果没有使用maven,那直接把jar包导入到lib文件夹下即可,这个PageHelper插件在github上有开源, 地址为:https://githu ...
- 一条指令优化引发的血案,性能狂掉50%,clang使用-ffast-math选项后变傻了
https://www.cnblogs.com/bbqzsl/p/15510377.html 近期在做优化时,对一些函数分别在不同编译平台上进行bench测试.发现了不少问题. 现在拿其中一个问题来分 ...
- 几十行js实现很炫的canvas交互特效
几十行js实现很炫的canvas交互特效 废话不多说,先上效果图! 本篇文章的示例代码都是抄的一个叫Franks的老外在yutube上的一个教学视频,他还出了很多关于canvas的视频,十分值得学习, ...
- 八. Go并发编程--errGroup
一. 前言 了解 sync.WaitGroup的用法都知道 一个 goroutine 需要等待多个 goroutine 完成和多个 goroutine 等待一个 goroutine 干活时都可以解决问 ...
- ansible简介安装配置
ansible简介 ansible是一款,自动化运维管理工具.顾名思义是用于批量去管理及安装服务及批量管理主机. ansible与saltstack对比 ansible优点:配置简单,部署容易除主管理 ...
- 元素显示模式:块元素 & 行内元素 & 行内块元素
元素显示模式 前言 了解元素的显示模式可以更好的让我们布局页面.了解显示模式需要学习以下三个方面 什么是元素的显示模式 元素显示模式的分类 元素显示模式的转换 什么是元素显示模式 元素显示模式就是元素 ...
- 第三课 Dubbo设计中的设计模式
责任链模式 责任链模式在Dubbo中发挥的作用举足轻重,就像是Dubbo框架的骨架.Dubbo的调用链组织是用责任链模式串连起来的. 责任链中的每个节点实现Filter接口,然后由ProtocolF ...
- 我罗斯方块第二次作业(Block类)
负责任务 完善Block类的相关函数及变量: 对Block类的函数功能进行调试: github项目地址. 开发日记 2020.5.11 今天和朋友们讨论了如何分工的工作,我负责的部分是Block类的完 ...
- 大爽Python入门教程 2-2 序列: 字符串、元组与列表
大爽Python入门公开课教案 点击查看教程总目录 序列 序列(sequence): 顾名思义,有序的排列. 有序排列的一串数据. 一种容器,容器内成员有序排列. python的字符串str,元组tu ...