python-爬取糗事百科热图

此次运用requests和beautifulSoup爬取糗事百科热图，常用的网络库有：urllib，urllib3，requests，选取其中之一就行了；HTML/XML解析器有：lxml，BeautifulSoup，html5lib，selenium，re等。

如果经常爬虫，觉得可以固定选择一种网络库和页面解析器，否则太多了不容易记住，主要思路就是访问页面（网络库）--分析页面元素（可通过浏览区F12查看）--提取需要的数据（页面解析器）。

在爬取的过程中发现，最好headers信息填的全一些，否则会报404错。示例代码：

# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup

import requests

import re

import os

def parseHtml(allPageUrls,headers):

    imgUrls = []

    for i in allPageUrls:

        html = requests.get(i, headers=headers).text

        soup = BeautifulSoup(html, 'lxml').find_all('img', class_="illustration")

        for url in soup:

            #imgUrls.append('http:' + re.findall('src="(\S+)"', str(url))[0])   #也可用正则查找

            imgUrls.append('http:' + url['src'])

    return imgUrls

def downloadImages(urls,path):

    global count

    if not os.path.exists(path):

        print("Download path error!")

        pass

    else:

        path = path.rstrip('/')

    for i in urls:

        count += 1

        img = requests.get(i).content

        with open(path + '//{0}.jpg'.format(count),'wb') as f:

            f.write(img)

def getAllPageUrls(baseUrl,headers):

    allPageUrls = []

    allPageUrls.append(baseUrl)

    html = requests.get(baseUrl, headers=headers).text

    pageNum = BeautifulSoup(html,'lxml').find_all('span',class_='page-numbers')[-1].text.strip()

    for num in range(int(pageNum)):

        if num >= 2:

           allPageUrls.append(baseUrl + 'page/{0}/'.format(num))

    return allPageUrls

def main():

    baseUrl = "https://www.qiushibaike.com/imgrank/"

    headers = {

        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:67.0) Gecko/20100101 Firefox/67.0",

        # "Host":"static.qiushibaike.com",

        "Accept": "text/css,*/*;q=0.1",

        "Accept-Encoding": "gzip, deflate, br",

        "Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",

        "Connection": "keep-alive",

        "Cookie": 'Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1564111558; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1564111562; BAIDU_SSP_lcr=https://www.baidu.com/link?url=jWhGNGV5ALzyB_BRJKkXdeb60lmYQ3_Lewk3NHsLe_C9fvNwKDdTPwZDtD2GrY15&wd=&eqid=b4f829d300000e94000000045d3a72c3; _qqq_uuid_="2|1:0|10:1564111558|10:_qqq_uuid_|56:OWQxZTVlNjY4MWY2MjVmOTdjODkwMDE3MTEwZTQ0ZTE2ZGU4NTA1NA==|971036a31548dd5a201f29c949b56990b4895dee0e489693b7b9631f363ca452"; _ga=GA1.2.126854589.1564111558; _gid=GA1.2.839365496.1564111558; _gat=1',

        "TE": "Trailers"

    }

    allPageUrls = getAllPageUrls(baseUrl, headers)  #获取所有页面的访问地址

    allImageUrls = parseHtml(allPageUrls, headers)  #获取所有页面中图片地址

    downloadImages(allImageUrls,'e://qiushibaike')  #下载图片

if __name__ == '__main__':

    count = 0

    main()

运行结果：

python-爬取糗事百科热图的更多相关文章

python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...
Python爬取糗事百科
import urllib import urllib.request from bs4 import BeautifulSoup """ 1.抓取糗事百科所有纯 ...
python 爬取糗事百科 gui小程序
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先 ...
Python爬取糗事百科示例代码
参考链接:http://python.jobbole.com/81351/#comment-93968 主要参考自伯乐在线的内容,但是该链接博客下的源码部分的正则表达式部分应该是有问题,试了好几次,没 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...

随机推荐

【CF1181C】Flag
题目大意:给定一个 N*M 的矩阵,定义一个矩形区域为一个"国旗",满足:矩形区域可以按行划分成三个高度相同的部分,其中每一个部分中的颜色完全相同,第一部分的颜色与第二部分颜色不同 ...
2018年最佳JavaScript数据可视化和图表库
现在有很多图表库,但哪一个最好用?这可能取决于许多因素,如业务需求,数据类型,图表本身的目的等等.在本文中,每个JavaScript图表库将与一些关键因素进行比较,包括图表类型,商业或免费和开源状态. ...
springboot pdf模板打印
1.下载Adobe Acrobat DC工具来制作pdf的模板打开一个pdf 2.制作pdf模板把自动生成的文本框删除然后拖入文本框并自定义键导入maven 依赖 <dependenc ...
C语言 - strlen的编程实现及总结
一.函数strlen的编程实现 1.strlen函数的实现原型: size_t strlen(const char *str); 头文件:#include <string.h> 功能:计 ...
luoguP3203 [HNOI2010]BOUNCE 弹飞绵羊
P3203 [HNOI2010]BOUNCE 弹飞绵羊题目描述某天,Lostmonkey发明了一种超级弹力装置,为了在他的绵羊朋友面前显摆,他邀请小绵羊一起玩个游戏.游戏一开始,Lostmonke ...
【CF1263E】Editor（线段树，栈）
题意:有一个无限长度的文本编辑器,刚开始没有内容,光标在第一格,接下来有n个操作,操作可能有3种: 1.光标左移一格,如果已经在第一格则不动 2.光标右移一格 3.将当前光标所在格的字符改成输入的字符 ...
POJ 3352 Road Construction 中一个结论的证明
题面分析: 很多人都给出了做法,在这里不赘述.大概就是先把桥找出来,然后边双缩点,最后统计新图上的度数.因为缩点后为一棵树,所以度数为1(即为叶子)的点的数目+1再除以2下取整就是答案. 这里主要证 ...
task.delay 和 thread.sleep
1.Thread.Sleep 是同步延迟. Task.Delay异步延迟. 2.Thread.Sleep 会阻塞线程,Task.Delay不会. 3.Thread.Sleep不能取消,Task.Del ...
分布式-信息方式-ActiveMQ示例
实战代码如下: 信息生产者 package test.mq.helloword; import javax.jms.Connection; import javax.jms.ConnectionFa ...
Spring boot之使用thymeleaf
操作步骤 (1)在pom.xml中引入thymeleaf; (2)如何关闭thymeleaf缓存 (3)编写模板文件.html (4)编写访问模板文件controller 在pom.xml中引入thy ...

python-爬取糗事百科热图

python-爬取糗事百科热图的更多相关文章

随机推荐

热门专题