和之前的爬虫类博客的爬取思路基本一致:

  • 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了
  • 遍历发送请求获取响应
  • 提取数据,这里用的是xpath提取,用的是Python的第三方模块lxml
  • 保存数据到本地
  • 爬取的数据有:段子内容、作者性别、作者年龄、作者头像的地址、被标记为好笑的次数

数据处理:

  • 把段子内容中的换行都消除
  • 获取性别操作稍微麻烦一点
  • 头像图片的地址补全
  • 判断是否存在,不存在用None替代
  • 如果想了解更多,可以去 https://www.qiushibaike.com/text/ 抓包分析

程序代码:

 import requests
import json
from lxml import etree class QiubaSpider(object):
"""爬取糗事百科的热门下的数据""" def __init__(self):
self.url_temp = 'https://www.qiushibaike.com/text/page/{}/'
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
} def get_url_list(self): # 构造url_list
return [self.url_temp.format(i) for i in range(1, 14)] def pass_url(self, url): # 发送请求
print(url)
response = requests.get(url, headers=self.headers)
return response.content.decode() def get_content_list(self, html_str): # 提取数据
html = etree.HTML(html_str)
div_list = html.xpath('//div[@id="content-left"]/div') # 分组
content_list = []
for div in div_list:
item = {}
# 底下全是利用xpath和一些函数对数据的处理
item['content'] = div.xpath('.//div[@class="content"]/span/text()')
item['content'] = [i.replace('\n', '') for i in item['content']]
item['author_gender'] = div.xpath('.//div[contains(@class, "articleGend")]/@class')
item['author_gender'] = item['author_gender'][0].split(' ')[-1].replace('Icon', '') if len(
item['author_gender']) > 0 else None
item['author_age'] = div.xpath('.//div[contains(@class, "articleGend")]/text()')
item['author_age'] = item['author_age'][0] if len(item['author_age']) > 0 else None
item['author_img'] = div.xpath('.//div[@class="author clearfix"]//img/@src')
item['author_img'] = 'https' + item['author_img'][0] if len(item['author_img']) > 0 else None
item['stats_vote'] = div.xpath('.//span[@class="stats-vote"]/i/text()')
item['stats_vote'] = item['stats_vote'][0] if len(item['stats_vote']) > 0 else None
content_list.append(item)
return content_list def save_content_list(self, content_list):
with open('qiuba.txt', 'a', encoding='utf-8') as f:
f.write(json.dumps(content_list, ensure_ascii=False, indent=4))
f.write('\n') # 换行 def run(self): # 实现主要逻辑
# 1.构造url_list,热门的一共13页
url_list = self.get_url_list()
# 2.遍历发送请求,获取响应
for url in url_list:
html_str = self.pass_url(url)
# 3.提取数据
content_list = self.get_content_list(html_str)
# 4.保存数据
self.save_content_list(content_list)
pass if __name__ == '__main__':
qiubai = QiubaSpider()
qiubai.run()

爬取糗事百科热门段子的数据并保存到本地,xpath的使用的更多相关文章

  1. 初识python 之 爬虫:使用正则表达式爬取“糗事百科 - 文字版”网页数据

    初识python 之 爬虫:使用正则表达式爬取"古诗文"网页数据 的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...

  2. python爬虫——利用BeautifulSoup4爬取糗事百科的段子

    import requests from bs4 import BeautifulSoup as bs #获取单个页面的源代码网页 def gethtml(pagenum): url = 'http: ...

  3. 8.Python爬虫实战一之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  4. Python爬虫实战一之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  5. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  6. 芝麻HTTP:Python爬虫实战之爬取糗事百科段子

    首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

  7. python学习(十六)写爬虫爬取糗事百科段子

    原文链接:爬取糗事百科段子 利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...

  8. python 爬虫实战1 爬取糗事百科段子

    首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标 抓取糗事百科热门段子 过滤带有图片的段子 实现每按一次回车显示一个段子的发布时间,发布人 ...

  9. Python爬虫实战之爬取糗事百科段子

    首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

随机推荐

  1. ZooKeeper的简述

    一.简介 ZooKeeper是一个高性能,分布式的,开源分布式应用协调服务.它提供了简单原始的功能,分布式应用可以基于它实现更高级的服务,比如同步,集群管理,命名空间,配置维护等.ZooKeeper使 ...

  2. 5 Java 插入排序

    1.基本思想 将数组中的所有元素依次跟前面已经排好的元素相比较,如果选择的元素比已排序的元素小则依次交换,直到出现比选择元素小的元素或者全部元素都比较过为止. 2.算法描述 ①. 从第一个元素开始,该 ...

  3. Python3并发写文件

    使用python2在进行并发写的时候,发现文件会乱掉,就是某一行中间会插入其他行的内容. 但是在使用python3进行并发写的时候,无论是多进程,还是多线程,都没有出现这个问题,难道是python3的 ...

  4. 找出所有从根节点到叶子节点路径和等于n的路径并输出

    //找出所有从根节点到叶子节点路径和等于n的路径并输出 Stack<Node> stack = new Stack<Node>(); public void findPath( ...

  5. Oracle 变量 之 define variable declare 用法及区别

    Oracle 变量 之 define variable declare 用法及区别 Table of Contents 1. 扯蛋 2. define和accept 3. variable 3.1. ...

  6. pid稳态控制

    https://blog.csdn.net/qq_25352981/article/details/81007075

  7. Linux基础(二)之命令

    01-基础命令 1. 创建一个目录 mkdir /data 创建多级目录 mkdir -p /oldboy/data 2. 查看目录里面的内容 ls /data 3. 查看目录里面的详细信息 ls - ...

  8. Ceph 客户端的 RPM 包升级问题

    问题 最近想把一个现有的 Ceph 客户端升级为最新的 M 版: [root@overcloud-ovscompute-0 ~]# rpm -qa | grep ceph puppet-ceph-2. ...

  9. .NetCore 使用VSCode多项目调试

    使用VSCode可以调试.Net Core,但是调多个项目就需要进行一番设置. 首先创建一个总文件夹,以NetProjects文件夹为例,并创建一个解决方案.然后创建俩个.NetCore项目,并添加到 ...

  10. Numpy 库

    可以直接通过pip安装. pip install numpy 1 NumPy的数值类型 每一种数据类型都有相应的转换函数.使用dtype属性可以查看数组的数据类型.如下. 2 数组操作 使用arang ...