【python小练】图片爬虫之BeautifulSoup4

Python3用不了Scrapy!

[重要的事情说三遍，据说大神们还在尝试把scrapy移植到python3，特么浪费我半个小时pip scrapy = - =]

【更新：py3现在可以用scrapy了，感谢大神们=w=】

先前用正则表达式匹配出符合要求的<img>标签真的超麻烦的，正则式错一点点都要完蛋，用bs4感觉方便很多。

bs4是将整个html拆解成字典和数组，所以处理起来比较简单。

以这个页面为例（毕竟堆糖本命）：http://www.duitang.com/search/?kw=%E6%96%87%E8%B1%AA%E9%87%8E%E7%8A%AC&type=feed#!s-p1

要下载我想要的图片，最终目标是图片的url数据。

先看页面源码：

1. 读取页面代码：

html_doc = urllib.request.urlopen(url + "#!s-p" + str(n+x-1)).read().decode('utf-8')

soup = BeautifulSoup(html_doc, "lxml")

2. 见上图，我想下载的图片都包含在符合【属于class="a"的<a>标签】这个特点的<a>标签下，用bs4找出这些<a>标签，用下面这句代码：

soup.find_all('a', class_='a')

#soup.find_all('(标签名)',(符合属性))

3. 从中找出图片<img>标签，并获取链接地址url到img_src：

for myimg in soup.find_all('a', class_='a'):

     img_src = myimg.find('img').get('src')

从第二步来看确实是比纯粹用正则表达式省时省力。

完整代码如下，其实也只改了正则那一小部分：

from bs4 import BeautifulSoup

import urllib.request

import os

def downlaodimg(url,m,n):

    os.chdir(os.path.join(os.getcwd(), 'photos'))

    t = 1  # 记录图片张数

    for x in range(n-m+1):

        html_doc = urllib.request.urlopen(url + "#!s-p" + str(n+x-1)).read().decode('utf-8')

        soup = BeautifulSoup(html_doc, "lxml")

        for myimg in soup.find_all('a', class_='a'):

            pic_name = str(t) + '.jpg'

            img_src = myimg.find('img').get('src')

            urllib.request.urlretrieve(img_src, pic_name)

            print("Success!" + img_src)

            t += 1

        print("Next page!")

downlaodimg("http://www.duitang.com/search/?kw=%E6%96%87%E8%B1%AA%E9%87%8E%E7%8A%AC&type=feed",1,3)

和前一篇一样添加了起始页和终止页两个参数。

下载后文件夹：

ps:太宰桑真是太萌辣(●'◡'●)ﾉ♥不说了再去看一遍~

【python小练】图片爬虫之BeautifulSoup4的更多相关文章

【python小练】0013
第 0013 题: 用 Python 写一个爬图片的程序,爬这个链接里的日本妹子图片 :-) 科科...妹子就算了,大晚上的爬点吃的吧.食物图集:抿一口,舔一舔,扭一扭~·SCD 写个简单的爬图爬虫 ...
【python小练】0010
第 0010 题:使用 Python 生成类似于下图中的字母验证码图片思路: 1. 随机生成字符串 2. 创建画布往上头写字符串 3. 干扰画面 code: # codeing: utf-8 fro ...
【python小练】0005
第 0005 题:你有一个目录,装了很多照片,把它们的尺寸变成都不大于 iPhone5 分辨率的大小. 首先,iphone5的分辨率是1136x640. if条件句判断横(纵)向是否大于对应的ipho ...
python 斗图图片爬虫
捣鼓了三小时,有一些小Bug,望大佬指导废话不说,直接上代码: #!/usr/bin/python3 # -*- coding:UTF-8 -*- import os,re,requests fro ...
python+tkinter+动画图片+爬虫（查询天气）的GUI图形界面设计
1.完整代码: import time import urllib.request #发送网络请求,获取数据 import gzip #压缩和解压缩模块 import json #解析获得的数据 fr ...
【python小练】0014题和 0015 题
第 0014 题: 纯文本文件 student.txt为学生信息, 里面的内容(包括花括号)如下所示: { ":["张三",150,120,100], ":[& ...
【python小练】0004
第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数. 先回忆一下各种括号的用途: () tuple [] list {} dict ([]) set——需要一个list作为输入合集 c ...
【python小练】0002
第 0002 题:将 0001 题生成的 200 个激活码(或者优惠券)保存到 MySQL 关系型数据库中. . . .(一脸懵逼) Python访问数据库:(廖雪峰python教程) 1. SQLi ...
【python小练】0001
第 0001 题:做为 Apple Store App 独立开发者,你要搞限时促销,为你的应用生成激活码(或者优惠券),使用 Python 如何生成 200 个激活码(或者优惠券)? # coding ...

随机推荐

suoi62 网友跳 (暴搜+dp)
传送门 sbw太神啦orz 首先N<=20可以直接暴搜然后玄学剪枝可以过18个点那么N<=40的时候,就把它拆成两半分别暴搜,再用dp拼起来对于前半段,设f[i][j]是开始高度为i ...
Haunted Graveyard ZOJ - 3391（SPFA）
从点(n,1)到点(1,m)的最短路径,可以转换地图成从(1,1)到(n,m)的最短路,因为有负权回路,所以要用spfa来判负环, 注意一下如果负环把终点包围在内的话, 如果用负环的话会输出无穷,但是 ...
print
说一说这个print函数,我们经常使用,但有一些细节却往往错过了 print print()输出会换行是因为默认end="\n" 想要不换行,且覆盖 print("\r第 ...
bootstrap学习一
bootstrap学习一.css概览: 1.使用HTML5标准,<!DOCTYPE html>. 2.移动设备优先: <meta name="viewport" ...
QML-关于Qt.rgba()颜色无法正常显示问题
GitHub:八至作者:狐狸家的鱼本文链接:关于Qt.rgba()颜色的正确写法当在正常给color属性写颜色的时候,用十六进制能正常显示,但是用Qt.rgba()时,颜色无法正常显示出来. 按 ...
QTREE6&&7 - Query on a tree VI &&VII
树上连通块不用具体距离,只询问连通块大小或者最大权值可以类比Qtree5的方法,但是记录东西很多,例如子树有无0/1颜色等一个trick,两个LCT分离颜色每个颜色在边上. 仅保留连通块顶部不 ...
PHP原生处理select结果集的函数介绍
select: mysql_num_rows($result) 从结果集中获取数据记录的个数 mysql_num_fields($result) 从结果集中获取数据记录列的个数 mysql_fetch ...
try语句的使用
C语言里try是一个语句或函数.其作用是是抛出错误用. 将有可能产生错误的语句括在一起,放入try语句块.如果在try语句块中发生异常,FlashPlayer会创建一个错误对象,并将该Error对象派 ...
mongodb安装和运行
转载来源:https://blog.csdn.net/IT_wanghe/article/details/53884229 参考教程:http://www.runoob.com/mongodb/mon ...
eclipse 中新建文件报错The superclass "javax.servlet.http.HttpServlet" was not found on the Java Buil
在eclipse中新建文件报错错误提示如下: The superclass "javax.servlet.http.HttpServlet" was not found on th ...

【python小练】图片爬虫之BeautifulSoup4

【python小练】图片爬虫之BeautifulSoup4的更多相关文章

随机推荐

热门专题