Python爬虫第一个成功版

爬取http://www.mzitu.com/all里面的图片

 import urllib.request

 import re

 import os

 url = 'http://www.mzitu.com/all/' # 爬虫入口

 req = urllib.request.Request(url)

 req.add_header('Referer','http://www.mzitu.com/all/')

 req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')

 html = urllib.request.urlopen(req).read().decode('utf-8') # 得到入口页面的HTML

 reg = re.compile(r'<a.+?href="(.+?)"')

 hrlist = re.findall(reg,html) # 得到所有图片的页面链接

 print(hrlist)

 def getImgUrl(url): # 根据图片页面的链接得到图片链接

     html = getHtml(url).decode('utf-8')

     reg = re.compile(r'<img.+?src="(.+?\.jpg)"')

     imgUrl = re.findall(reg,html)

     return imgUrl # 返回得到的图片链接

 def getHtml(url): # 得到HTML页面信息

     req = urllib.request.Request(url)

     req.add_header('Referer','http://www.mzitu.com/all/')

     req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')

     res = urllib.request.urlopen(req)

     html = res.read() # 得到入口页面的HTML

     return html # 返回得到的字符串形式的HTML页面

 # 根据图片的链接下载图片

 def download(url):

     filename = url.split('/')[-1]

     with open(filename,'wb') as f:

         img = getHtml(url)

         f.write(img)

 # 保存所有图片

 def save_all(folder='mm'):

     os.mkdir(folder)

     os.chdir(folder)

     for each in hrlist:

         imgUrl_list = getImgUrl(each)

         for imgUrl in imgUrl_list:

             download(imgUrl)

 if __name__=='__main__':

     save_all()

Python爬虫第一个成功版的更多相关文章

python爬虫第一天
python爬虫第一天太久没折腾爬虫又要重头开始了....感谢虫师大牛的文章. 接下来的是我的随笔 0x01 获取整个页面我要爬的是百度贴吧的图,当然也是跟着虫师大牛的思路. 代码如下: #co ...
Python爬虫第一步
这只是记录一下自己学习爬虫的过程,可能少了些章法.我使用过的是Python3.x版本,IDE为Pycharm. 这里贴出代码集合,这一份代码也是以防自己以后忘记了什么,方便查阅. import req ...
猿人学python爬虫第一题
打开网站.F12,开启devtools.发现有段代码阻止了我们调试好的.接下来有几种解决方法 1- 绕过阻止调试方法方法1(推荐) 鼠标放在debugger该行,左边数字行号那一列.右键选择不在永 ...
Python爬虫第一集
import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 简单 ...
Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程：半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 不过由于对python-docx模 ...
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...
孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4
孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...

随机推荐

purge recyclebin之后dba_segments仍然有BIN$段
现象: purge recyclebin之后dba_segments仍然有BIN$段. 如下,执行了purge recyclebin之后: SQL> select segment_name,SE ...
linux下文件描述符的介绍
当某个程序打开文件时,操作系统返回相应的文件描述符,程序为了处理该文件必须引用此描述符.所谓的文件描述符是一个低级的正整数.最前面的三个文件描述符(0,1,2)分别与标准输入(stdin),标准输出( ...
web前端面试题(一)
1 选择题 1.1 默认情况下,使用P标记会形成什么效果() A.在文字P所在位置中加入8个空格 B.P后面的文字会变成粗体 C.开始新的一行 D.P后面的文字会变成斜体答案: C 1.2 ...
sencha touch 自定义事件
需要添加自定义事件可以如下: this.fireEvent('back', this); 此方法第一个参数为你想要监听的事件,之后的参数为你想要传递的参数一般来说第一个参数最好是控件本身. 同理这个方 ...
用CornerStone配置SVN，HTTP及svn简单使用说明
转载 http://my.oschina.net/joanfen/blog/194491 一.下载地址 CornerStoneV2.6:http://pan.baidu.com/s/1qWEsEbM密 ...
apktool反解apk包
APKTool APKTOOL是解包 APK 文件最常用的工具,许多 APK 工具箱都集成了 apktool.它可以完整解包 APK,解包后你可以看到 APK 里面的声明文件.布局文件.图片资源文件. ...
cocos2d-x-lua如何导出自定义类到lua脚本环境
这篇教程是基于你的工程是cocos2d-x-lua的项目,我假设你已经完全驾驭cocos-x/samples/Lua/HelloLua工程,基本明白lua和c++互调的一些原理. 我们的目的是要在 ...
C语言中scanf函数的实现
接上一篇C语言中可变参数函数实现原理,从理论上详细介绍了C语言中可变参数函数的实现,这一篇从minix内核源码中的scanf函数入手,学习C语言经典可变参数函数的实现过程在scanf.c文件中,可以 ...
PCB 铺铜转载
所谓覆铜,就是将PCB上闲置的空间作为基准面,然后用固体铜填充,这些铜区又称为灌铜.敷铜的意义在于,减小地线阻抗,提高抗干扰能力:降低压降,提高电源效率:还有,与地线相连,减小环路面积.如果PCB的地 ...
【CF840C】On the Bench DP
[CF840C]On the Bench 题意:给你一个长度为n的数组{ai},定义一个1到n的排列是合法的,当且仅当对于$1\le i <n$,$a_i\times a_{i+1}$不是完全平 ...

Python爬虫第一个成功版

Python爬虫第一个成功版的更多相关文章

随机推荐

热门专题