[爬虫]用python的requests模块爬取糗事百科段子

　　虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。

　　爬取糗事百科网站https://www.qiushibaike.com/段子，需要分两步解析数据的过程。首先将html页面整体爬下来，然后再利用正则将不需要字符过滤。

　　第一步解析：

re.compile('<div class="content">.*?</div>', re.S) # 匹配出包含段子的标签

　　第二步解析：

re.compile(r'<.*?>|&(.*?);|\s|　　') # 将除了汉字以外的所有字符去掉

整体代码为：

 # -*- coding:utf-8 -*-

 #  2018/9/13  12:00

 import requests

 import re

 import time

 from requests.packages.urllib3.poolmanager import PoolManager

 from requests.packages.urllib3.exceptions import InsecureRequestWarning,InsecurePlatformWarning

 requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

 requests.packages.urllib3.disable_warnings(InsecurePlatformWarning)

 class Qiubai_spider(object):

     """糗事百科段子爬虫"""

     def __init__(self):

         self.base_url = "https://www.qiushibaike.com/hot/"

         self.headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}

         self.analysis_pattern = re.compile('<div class="content">.*?</div>', re.S)

         self.analysis_pattern_t = re.compile(r'<.*?>|&(.*?);|\s|　　')

     # 第一次解析 <div class ="content" >(.*?)</div>

     def send_request(self, url):

         """发送请求"""

         time.sleep(2)

         try:

             response = requests.get(url, headers=self.headers)

             return response.content

         except Exception, err:

             print err

     def write_file(self, data, page):

         """写入数据"""

         with open('qiushiduanzi1.txt', 'a') as f:

             filename = "第" + str(page) + "页的段子\n"

             print  filename

             f.write(filename)

             for content in data:

                 second_data = self.analysis_pattern_t.sub('', content)

                 f.write(second_data)

                 f.write("\n\n\n")

     def analysis_data(self, data):

         """数据分析提取"""

         analysis_list = self.analysis_pattern.findall(data)

         return analysis_list

     def start_work(self):

         """启动爬虫流程"""

         for page in range(1, 10):

             # 拼接url

             url = self.base_url + "page/" + str(page) + '/' + '.html'

             # 发送请求

             data = self.send_request(url)

             # 解析数据

             analysis_db = self.analysis_data(data)

             # 写入数据

             self.write_file(analysis_db, page)

 if __name__ == '__main__':

     tool = Qiubai_spider()

     tool.start_work()

糗事爬虫代码

爬取后的效果：

[爬虫]用python的requests模块爬取糗事百科段子的更多相关文章

爬虫——URL模块爬取糗事百科段子
最简单的爬取网页找有用信息,难点应该是正则锁定有用信息部分,看了一些其他大神的正则,最后还是决定按照自己理解写一个,果然我头脑相对简单,写出来的粗糙而易理解,也完成了自己想要的需求,就这样了~ # - ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...
python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...

随机推荐

设计时数据源：在ActiveReports中直接连接PostgreSql 数据库
在之前的博客中,我们学习了如何在运行时绑定PostgreSql 数据库,今天我们学习,如何直连PostgreSQL 数据库. 1. 安装PostgreSQL 的ODBC驱动程序 https://www ...
294 div2 C. A and B and Team Training
C. A and B and Team Training 题目:A and B are preparing themselves for programming contests. An import ...
Python 爬虫（四）：Selenium 框架
Selenium 是一个用于测试 Web 应用程序的框架,该框架测试直接在浏览器中运行,就像真实用户操作一样.它支持多种平台:Windows.Linux.Mac,支持多种语言:Python.Perl. ...
Chrome插件开发（一）
作为一个开发人员,我们在日常工作中肯定会用到 Chrome 浏览器,同时也会用到谷歌的一些插件,比如 Tampermonkey,AdBlock等,在之前的文章本人还是用了 Tampermonkey,传 ...
【NOIP2009】道路游戏
Description 小新正在玩一个简单的电脑游戏. 游戏中有一条环形马路,马路上有 nn 个机器人工厂,两个相邻机器人工厂之间由一小段马路连接.小新以某个机器人工厂为起点,按顺时针顺序依次将这 n ...
Windows系统调用中的现场保存
Windows内核分析索引目录:https://www.cnblogs.com/onetrainee/p/11675224.html Windows系统调用中的现场保存我们之前介绍过三环进零环的步骤 ...
域渗透基础之Windows 2012创建域控制器
创建备份域控制器这里就拿windows 2012 R2来当备份域控如果一个域内有多个域控制器,可以有如下好处. 提高用户登录的效率:如果同时有多台域控制器对客户提供服务,可以分担审核用户登录身份( ...
SpringBoot2.x--入门篇--01--HelloWorld
很多人说,学习springboot至少需要spring基础,servlet基础等等,笔者不敢苟同.凡是有一定java基础的人,都可以直接学习springboot,当学到原理和源码时,通过查缺补漏的方式 ...
Python开发【第二篇】：初始Python
Python的前世今生 Python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,中国人称他为龟叔,他在圣诞节期间在阿姆斯特丹为了打发时间,决定开发一个新的脚本 ...
win10系统plsql卡顿、菜单闪烁解决办法
右键快捷方式--属性--兼容性: 设置为以win7模式运行,以管理员模式运行.如图:

[爬虫]用python的requests模块爬取糗事百科段子

[爬虫]用python的requests模块爬取糗事百科段子的更多相关文章

随机推荐

热门专题