Python 爬虫系列：糗事百科最热段子

1.获取糗事百科url

http://www.qiushibaike.com/hot/page/2/ 末尾2指第2页

2.分析页面，找到段子部分的位置，需要一点CSS和HTML的知识

3、编写代码

 import urllib.request

 from bs4 import BeautifulSoup

 from urllib.request import URLError

 from urllib.request import HTTPError

 import time

 # 调用 publicHeaders 文件的方法

 from 爬虫.publicHeaders import set_user_agent

 # 抓取网页

 def download(pagenum):

     url = r'https://www.qiushibaike.com/hot/page/'

     # 分页下载

     for i in range(1,pagenum):

         #组装url

         new_url = url + str(pagenum)

         print(new_url)

         # 有的时候访问某个网页会一直得不到响应，程序就会卡到那里，我让他1秒后自动超时而抛出异常

         header = set_user_agent()

         while 1:

             try:

                 req = urllib.request.Request(url=new_url,headers=header)

                 reponse = urllib.request.urlopen(req,timeout=1)

                 break

             # HTTPError是URLError的子类，在产生URLError时也会触发产生HTTPError。因此应该先处理HTTPError

             except HTTPError as e:

                 print(e.code)

                 # 对于抓取到的异常，让程序停止1.1秒，再循环重新访问这个链接，访问成功时退出循环

                 time.sleep(1.1)

             except URLError as err:

                 print(err.reason)

         # 正常访问，则抓取网页内容

         html = reponse.read().decode('utf-8')

         # 找到所有的class名称为content 的div

         soup = BeautifulSoup(html,"html.parser")

         contents = soup.findAll("div",{"class":"content"})

         # # 循环遍历保存每一项,并保存

         with open("E:\JustForFun.txt", "w") as f:

             for item in contents:

                 # 有些内容不是utf-8格式

                 try:

                     each_story = item.get_text()

                 #print(type(each_story))

                     f.writelines(each_story)

                 except:

                     pass

4、执行以下，结果如下：

Python 爬虫系列：糗事百科最热段子的更多相关文章

Python爬虫_糗事百科
本爬虫任务: 爬虫糗事百科网站(https://www.qiushibaike.com/)--段子版块中所有的[段子].[投票数].[神回复]等内容步骤: 通过翻页寻找url规律,构造url列表查 ...
python 爬虫系列05--丑事百科
丑事百科爬虫 import re import requests def parse_page(url): headers = { 'User-Agent':'user-agent: Mozilla/ ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...
python爬虫30 | scrapy后续，把「糗事百科」的段子爬下来然后存到数据库中
上回我们说到 python爬虫29 | 使用scrapy爬取糗事百科的例子,告诉你它有多厉害! WOW!! scrapy awesome!! 怎么会有这么牛逼的框架 wow!! awesome!! 用 ...
Python抓取糗事百科成人版图片
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代 ...
python scrapy实战糗事百科保存到json文件里
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scra ...
python 爬取糗事百科 gui小程序
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先 ...
爬虫_糗事百科（scrapy）
糗事百科scrapy爬虫笔记 1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据 2.提取出来的数 ...

随机推荐

PHP 打乱数组
$arr = array( array( "id"=>1, "name"=>"张三", "sex"=> ...
【SIP协议】学习初学笔记
1.SIP这玩意是怎么走来和如何构建的? 通俗的说,SIP就是一个轻量级信令协议,它可以作为音频.视频.及时信息的信令. 说到SIP是怎么出来的就要提H.323,而提到这个标准由不得不提到ITU-T, ...
关于Dijkstra算法
Dijkstra算法 1.定义概览 Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径.主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止.Di ...
spinlock一边连逻辑一边连控制器
本文来自:我爱研发网(52RD.com) - R&D大本营详细出处:http://www.52rd.com/Blog/Archive_Thread.asp?SID=7179 spinlock的 ...
【转】Windows 7 API Internet Connection Sharing(ICS) 与 Wireless Hosted Network构建本地AP
原文:http://hi.baidu.com/ritrachiao/item/bf7715e6bb8cb3a0c10d75be [此刻我要大大地记录一下!] 这个折腾了我好几天的Windows 7 A ...
初试PyOpenGL三 (Python+OpenGL)GPGPU基本运算与乒乓技术
这篇GPGPU 概念1: 数组= 纹理 - 文档文章提出的数组与纹理相等让人打开新的眼界与思维,本文在这文基础上,尝试把这部分思想拿来用在VBO粒子系统上. 在前面的文章中,我们把CPU的数据传到GP ...
【WPF】创建文本字符串的路径PathGeometry
/// <summary> /// 创建文本路径 /// </summary> /// <param name="word">文本字符串< ...
EF + MySql 错误：配置错误无法识别的元素“providers”
“/”应用程序中的服务器错误. 配置错误说明: 在处理向该请求提供服务所需的配置文件时出错.请检查下面的特定错误详细信息并适当地修改配置文件. 分析器错误消息: 无法识别的元素“providers” ...
认识J2EE规范或标准以及J2EE和JEE有什么不同？
1. J2EE实际上是一组规范(新手对规范这个词可能云里雾里的,没有办法,JAVA概念太多了,大部分概念慢慢就会理解),没错,J2EE这个概念并不是某种技术,而是一堆规范(实现意义上可以说是一堆技术) ...
（弃）解读Openstack Identity API v2.0
目前OpenStack社区提供了详尽的API文档,并配有丰富的说明和示例,关于Identity API v2查看这里, 关于Identity API v3请查看这里. 尽管现在官方已经不建议OpenS ...

Python 爬虫系列：糗事百科最热段子

Python 爬虫系列：糗事百科最热段子的更多相关文章

随机推荐

热门专题