python-day8爬虫基础之数据存储

数据存储，在爬虫中也是十分的重要，因为我们要把我们想要的数据保存到本地，其中最简单直接的就是保存为文件文本，比如：TXT、JSON、CSV等等，除此之外，我们还可以将其保存到数据库中，常见的数据库类型有关系型数据库（MySQL）和非关系型数据库（MongoDB、Redis）。今天主要是看着书学习了一下TXT文本存储。

TXT文本存储的操作比较简单，同样也有一个就是不利于检索，上代码（爬取知乎“发现”页面的热门话题）：

import requests

from pyquery import PyQuery as pq

url = 'http://www.zhihu.com/explore'

headers = {

    'Accept': 'image/webp,image/*,*/*;q=0.8',

    'Accept-Language':'zh-CN,zh;q=0.8',

    'Referer':'https://www.zhihu.com/explore',

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

}

html = requests.get(url,headers = headers).text

# print(html)

doc = pq(html)

# print(doc)

items = doc('.explore-tab .feed-item').items()

for item in items:

    question = item.find('h2').text()

    author = item.find('.author-link-line').text()

    answer = pq(item.find('.content').html()).text()

    with open('zhuhu.txt', 'a',encoding='utf-8') as file:

        file.write('\n'.join([question,author,answer]))

        file.write('\n' + '=' *50 + '\n')

print("ok")

其中，我们主要用到了pyquery解析。还有一个需要解释的就是

with open('zhihu.txt', 'a',encoding='utf-8') as file:
中的zhihu.txt就是我们要保存的文件名称和类型，encoding='utf-8就是解码操作，如果不解码，返回的是二进制字符串，是无法正常阅读的，所以我们需要对其进行解码。

a代表的是以追加方式打开一个文件，如果该文件已经存在，文件指针就会自动放到文件结尾，如果文件不存在，就会创建新的文件来写入。除了a之外，还有几个，下边一一介绍：
r：以只读方式打开一个文件，文件的指针自动放到文件的开头。
rb：以二进制只读方式打开一个文件，文件的指针自动放到文件的开头。
r+：以读写方式打开一个文件，文件的指针自动放到文件的开头。
rb+：以二进制读写方式打开一个文件，文件的指针自动放到文件的开头。
w：以写入方式打开一个文件，如果文件已经存在，则将其覆盖，如果文件不存在，则创建新的文件。
wb：以二进制写入方式打开一个文件，如果文件已经存在，则将其覆盖，如果文件不存在，则创建新的文件。
w+：以读写方式打开一个文件，如果文件已经存在，则将其覆盖，如果文件不存在，则创建新的文件。
ab：以二进制追加方式打开一个文件，如果文件已经存在，则文件指针会放在文件结尾，如果有新的内容，会写入到已有内容的后边；如果文件不存在，则创建新的文件。
a+：以读写方式打开一个文件，如果文件已经存在，则文件指针会放在文件结尾，文件打开时会是追加模式，如果文件不存在，则创建新的文件。
ab+：以二进制追加方式打开一个文件。如果文件已经存在，则文件指针将会放在文件结尾，如果文件不存在，则创建新文件用于读写。

python-day8爬虫基础之数据存储的更多相关文章

Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)
1. 多进程爬虫对于数据量较大的爬虫,对数据的处理要求较高时,可以采用python多进程或多线程的机制完成,多进程是指分配多个CPU处理程序,同一时刻只有一个CPU在工作,多线程是指进程内部有多个类 ...
05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python扫描器-爬虫基础
0x1.基础框架原理 1.1.爬虫基础爬虫程序主要原理就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 1.1.基础原理 1.发起HTTP请求 2 ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
Python归纳 | 爬虫基础知识
1. urllib模块库 Urllib是python内置的HTTP请求库,urllib标准库一共包含以下子包: urllib.error 由urllib.request引发的异常类 urllib.pa ...
<Android基础> (六) 数据存储 Part 1 文件存储方式
第六章数据存储 6.1 持久化技术持久化技术指将内存中的瞬时数据保存到存储设备中,保证即使在手机或电脑关机的情况下,这些数据仍然不会丢失. 主要有三种方式用于简单地实现数据持久化功能:文件存储.S ...

随机推荐

ACM-Satellite Photographs
题目描述:Satellite Photographs Farmer John purchased satellite photos of W x H pixels of his farm (1 < ...
两表关联更新数据——oracle
from testb b where b.id=a.id) ; (where exists(select 1 from testb b where b.id=a.id):如果没有这个条件,不匹配的选项 ...
Apache NiFi Processor实战
1 前言 Apache NiFi是什么?NiFi官网给出如下解释:“一个易用.强大.可靠的数据处理与分发系统”.通俗的来说,即Apache NiFi 是一个易于使用.功能强大而且可靠的数据处理和分发系 ...
HTML布局梳理
布局是一个很艺术的话题,即使是相同的HTML文档结构,但加上不同的css样式就会呈现出不同的效果.接下来就来总结一下html常用的布局. 一.布局的分类: 根据页面板块分类: 页面的板块主要是根据栏目 ...
P1013 数素数
转跳点:
UVA - 11925 Generating Permutations（生成排列）（构造）
题意:将序列1,2,3,……,n,用不超过2n^2次操作,通过下列操作变成给定序列.(1<=n<=300) 1.交换前两个元素 2.将第一个元素移到最后分析:因为将序列变成升序更容易操作 ...
数据类型和C#关系对应
sqlserver与c#中数据类型的对应关系///private string changetocsharptype(string type){string reval=string.empty;sw ...
下载jQuery
下载jQuery :https://jquery.com/download/ . 将下载好的文件放到项目中引入到代码中 <script type="text/javascript&q ...
python中__str__与__repr__
(1)背景 python中,对于类(自定义类)的实例对象的默认显示既没有太大用处,也不美观.比如: class adder: def __init__(self,value=0): self.data ...
深度理解js中var let const 区别
首先要理解js中作用域的概念作用域:指的是一个变量的作用范围 1.全局作用域直接写在script中的js代码,在js中,万物皆对象,都在全局作用域,全局作用域在页面打开时创建,在全局作用域中有一个 ...

python-day8爬虫基础之数据存储

python-day8爬虫基础之数据存储的更多相关文章

随机推荐

热门专题