爬虫系列：存储 CSV 文件

上一期：爬虫系列：存储媒体文件，讲解了如果通过爬虫下载媒体文件，以及下载媒体文件相关代码讲解。

本期将讲解如果将数据保存到 CSV 文件。

逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号）是存储表格数据常用文件格式。Microsoft Excel 和很多应用都支持 CSV 格式，因为它很简洁。下面是一个 CSV 文件的例子：

code,parentcode,level,name,parentcodes,province,city,district,town,pinyin,jianpin,firstchar,tel,zip,lng,lat

110000,100000,1,北京,110000,北京,,,,Beijing,BJ,B,,,116.405285,39.904989

110100,110000,2,北京市,"110000,110100",北京,北京市,,,Beijing,BJS,B,010,100000,116.405285,39.904989

110101,110100,3,东城区,"110000,110100,110101",北京,北京市,东城区,,Dongcheng,DCQ,D,010,100000,116.418757,39.917544

和 Python 一样， CSV 里留白（whitespace）也是很重要的：每一行都用一个换行符，列与列之间用逗号分隔（因此也叫“逗号分隔值”）。CSV 文件还可以用 Tab 字符或其他字符分隔行，但是不太常见，用得不多。

如果你只想从网页上把 CSV 文件下载到电脑里，不打算做任何修改和解析，那么接下来的内容就不要看了，只用上一篇文章介绍的方法下载并保存 CSV 文件就可以了。

Python 的 CSV 库可以非常简单的修改 CSV 文件，甚至从零开始创建一个 CSV 文件：

import csv

import os

from os import path

class DataSaveToCSV(object):

    @staticmethod

    def save_data():

        get_path = path.join(os.getcwd(), 'files')

        if not path.exists(get_path):

            os.makedirs(get_path)

        csv_file = open(get_path + '\\test.csv', 'w+', newline='')

        try:

            writer = csv.writer(csv_file)

            writer.writerow(('number', 'number plus 2', 'number times 2'))

            for i in range(10):

                writer.writerow((i, i + 2, i * 2))

        finally:

            csv_file.close()

if __name__ == '__main__':

    DataSaveToCSV().save_data()

如果 files 文件夹不存在，新建文件夹。如果文件已经存在，Python 会用新的数据覆盖 test.csv 文件，newline='' 去掉行与行之间得空格。

运行完成之后，你会看到一个 CSV 文件：

number,number plus 2,number times 2

0,2,0

1,3,2

2,4,4

3,5,6

4,6,8

5,7,10

6,8,12

7,9,14

8,10,16

9,11,18

下面一个示例是采集某博客文章，并存储到 CSV 文件中，具体代码如下：

import csv

import os

from os import path

from utils import connection_util

from config import logger_config

class DataSaveToCSV(object):

    def __init__(self):

        self._init_download_dir = 'downloaded'

        self._target_url = 'https://www.scrapingbee.com/blog/'

        self._baseUrl = 'https://www.scrapingbee.com'

        self._init_connection = connection_util.ProcessConnection()

        logging_name = 'write_csv'

        init_logging = logger_config.LoggingConfig()

        self._logging = init_logging.init_logging(logging_name)

    def scrape_data_to_csv(self):

        get_path = path.join(os.getcwd(), 'files')

        if not path.exists(get_path):

            os.makedirs(get_path)

        with open(get_path + '\\article.csv', 'w+', newline='', encoding='utf-8') as csv_file:

            writer = csv.writer(csv_file)

            writer.writerow(('标题', '发布时间', '内容概要'))

            # 连接目标网站，获取内容

            get_content = self._init_connection.init_connection(self._target_url)

            if get_content:

                parent = get_content.findAll("section", {"class": "section-sm"})[0]

                get_row = parent.findAll("div", {"class": "col-lg-12 mb-5 mb-lg-0"})[0]

                get_child_item = get_row.findAll("div", {"class": "col-md-4 mb-4"})

                for item in get_child_item:

                    # 获取标题文字

                    get_title = item.find("a", {"class": "h5 d-block mb-3 post-title"}).get_text()

                    # 获取发布时间

                    get_release_date = item.find("div", {"class": "mb-3 mt-2"}).findAll("span")[1].get_text()

                    # 获取文章描述

                    get_description = item.find("p", {"class": "card-text post-description"}).get_text()

                    writer.writerow((get_title, get_release_date, get_description))

            else:

                self._logging.warning('未获取到文章任何内容，请检查！')

if __name__ == '__main__':

    DataSaveToCSV().scrape_data_to_csv()

代码大部分复用了前几篇文章的内容，这里需要着重说明的是：

    logging_name = 'write_csv'

    init_logging = logger_config.LoggingConfig()

    self._logging = init_logging.init_logging(logging_name)

设置日志名称，并实例化日志，用于后面记录日志。

    with open(get_path + '\\article.csv', 'w+', newline='', encoding='utf-8') as csv_file:

with() 定义了在执行 with 语句时要建立的运行时上下文。with() 允许对普通的 try...except...finally 使用模式进行封装以方便地重用。

newline='' 避免在 CSV 文件中行与行之间空行内容产生。

同时也设置了文件的编码为 utf-8 ，这样做的目的是避免文件含有中文或者其他语言造成乱码。

以上就是关于将采集的内容保存为 csv 文件的内容，本实例的所有代码托管于 github。

github: https://github.com/sycct/Scrape_1_1.git

如果有任何问题，欢迎在 github issue。

爬虫系列：存储 CSV 文件的更多相关文章

爬虫存储介质之CSV文件存储
本文章来自度娘 CSV文件存储 CSV,全称为Comma-Separated Values,中文可以叫做逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据.该文件是一个字符序列,可以由任意数目的 ...
爬虫系列：使用 MySQL 存储数据
上一篇文章我们讲解了爬虫如何存储 CSV 文件,这篇文章,我们讲解如何将采集到的数据保存到 MySQL 数据库中. MySQL 是目前最受欢迎的开源关系型数据库管理系统.一个开源项目具有如此之竞争力实 ...
Jmeter如何把CSV文件的路径设置成一个变量，且变量的值是一个相对路径
首先,在Jmeter中,通过User Defined Variables设置一个变量用来存储CSV文件所在文件夹的相对路径备注: 这个相对路径前面不要加.\ 加了的话在运行的时候会报错,提示找不到那 ...
链接SQLServer数据库导出csv文件
依赖::::<dependency> <groupId>com.microsoft.sqlserver</groupId> <artifactId>ms ...
Python3编写网络爬虫10-数据存储方式三-CSV文件存储
3.CSV文件存储 CSV 全称 Comma-Separated Values 中文叫做逗号分隔值或者字符分隔值,文件以纯文本形式存储表格数据.文件是一个字符序列可以由任意数目的记录组成相当于一个结 ...
爬虫文件存储:txt文档，json文件，csv文件
5.1 文件存储文件存储形式可以是多种多样的,比如可以保存成 TXT 纯文本形式,也可以保存为 Json 格式.CSV 格式等,本节我们来了解下文本文件的存储方式. 5.1.1 TXT文本存储将数 ...
爬虫—文件存储—CSV存储
一,简介 CSV,全称Comma—Separated Values,可以称为逗号分隔或者字符分隔值,其文件以纯文本形式存储表格数据.该文件是一个字符序列,可以有任意的数目记录组成,记录间已某种换行符分 ...
python爬虫系列之数据的存储（二）：csv库的使用
上一篇我们讲了怎么用 json格式保存数据,这一篇我们来看看如何用 csv模块进行数据读写. 一.csv简介 CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因 ...
Python爬虫小实践：寻找失踪人口，爬取失踪儿童信息并写成csv文件，方便存入数据库
前两天有人私信我,让我爬这个网站,http://bbs.baobeihuijia.com/forum-191-1.html上的失踪儿童信息,准备根据失踪儿童的失踪时的地理位置来更好的寻找失踪儿童,这种 ...

随机推荐

cf 12B Correct Solution?（贪心）
题意: 一个数a,一个数b. 现在要将a的每一位上的数字重新整理,生成一个新的不含前导0的数a'. 问a'是否等于b. 思路: a上每一位的数字从小到大排序,找到最小的非零数和第一位交换. 代码: c ...
poj 3417 Network （LCA，路径上有值）
题意: N个点,构成一棵树.给出这棵树的结构. M条边,(a1,b1)...(am,bm),代表给树的这些点对连上边.这样就形成了有很多环的一个新"树". 现在要求你在原树中断一条 ...
Open vSwitch 应用实践
基础配置以及要点: 1.交换机创建和端口的配置 1) 创建一个新的 OVS 交换机[格式:$ ovs-vsctl add-br [名称]] $ovs-vsctl add-br ovs-switch 2 ...
LOTO虚拟示波器软件功能演示之——FIR数字滤波
本文章介绍一下LOTO示波器新出的功能--FIR数字滤波的功能. 在此之前我们先来了解一下带通滤波和带阻滤波.我们都知道每个信号是不同频率不同幅值正弦波的线性叠加,为了方便直接得观察到这种现象,就有了 ...
从拥有一个阿里云账号开始使用Maxcompute
本教程并不会创建子账户来管理maxcompute,是直接使用主账号来对maxcompute进行管理(强烈不推荐在生产环境中这样做!!) Step1:创建阿里云账号并实名认证创建一个阿里云账号(使 ...
攻防世界 WEB 高手进阶区 PHP2 Writeup
攻防世界 WEB 高手进阶区 PHP2 Writeup 题目介绍题目考点 url 二次解码 index.phps 文件(第一次使用dirsearch可能扫不到,需要加到工具字典里) php 简单语法 ...
Spring Cloud Gateway实战之二：更多路由配置方式
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Java基础复习之数组
Java基础复习之:数组简介数组(Array):多个相同数据类型按照一定顺序排列的集合,并使用一个名字命名,通过编号的方式对这些数据进行统一管理一维数组一维数组的声明与初始化 int[] id ...
我個人喜歡的一些Ubuntu的相關配置
1.vim vim安裝: sudo apt-get install vim-gtk vim美化:刚安装的VIM,可能界面并不是十分友好,我们可以更改vim的配置文件,按照我们的需求去修改它.在命令行下 ...
[loj3032]馕
(直接贪心会导致分子和分母过大) 令$S_{i}=\sum_{j=1}^{L}V_{i,j}$(即其独吞整个馕的快乐度),对第$i$个人求出$n$个位置$x_{1},x_{2},...,x_{n-1} ...

爬虫系列：存储 CSV 文件

爬虫系列：存储 CSV 文件的更多相关文章

随机推荐

热门专题