py3+urllib+re，爬虫下载捧腹网图片

实现原理及思路请参考我的另外几篇爬虫实践博客

py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图：http://www.cnblogs.com/UncleYong/p/6892688.html
py3+requests+json+xlwt，爬取拉勾招聘信息：http://www.cnblogs.com/UncleYong/p/6960044.html
py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码：http://www.cnblogs.com/UncleYong/p/6958242.html

实现代码如下：

import urllib.request, re

# 获取网页源码

def page(pg):

	url = 'https://www.pengfu.com/index_%s.html'%pg

	# 页面是utf8编码，所有解码成unicode

	html = urllib.request.urlopen(url).read().decode('utf8') # <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

	# print(html)

	return html

# 获取标题

def title(html):

	reg = re.compile(r'<h1 class="dp-b"><a href=".*?" target="_blank">(.*?)</a>') # r表示防止转义

	item = re.findall(reg, html)

	# print(item)

	return item

# 获取图片url

def content(html):

	# html = page(1)

	reg = r'<img src="(.*?)" width='

	item = re.findall(reg, html)

	# print(item)

	return item

def download(url, name):

	path = 'image\%s.jpg'%name#.decode('utf-8').encode('gbk') # win下只识别gbk

	urllib.request.urlretrieve(url, path)

for i in range(5,9):

	html = page(i)

	title_list = title(html)

	content_list = content(html)

	for m, n in zip(title_list, content_list): # 把标题和图片对个对应

		print('正在下载>>>>>：' + m, n)

		download(n, m)

py3+urllib+re，爬虫下载捧腹网图片的更多相关文章

python学习笔记（12）--爬虫下载煎蛋网图片
说明: 1. 这个其实是在下载漫画之前写的,比那个稍微简单点,之前忘放到博客备份了. 2. 不想说啥了,总结放到漫画那个里面吧! import urllib.request import re imp ...
python3制作捧腹网段子页爬虫
0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...
Android实战：手把手实现“捧腹网”APP（三）-----UI实现，逻辑实现
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Android实战：手把手实现“捧腹网”APP（二）-----捧腹APP原型设计、实现框架选取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Go语言之进阶篇爬捧腹网
1.爬捧腹网网页规律: https://www.pengfu.com/xiaohua_1.html 下一页 +1 https://www.pengfu.com/xiaohua_2.html 主页 ...
Android实战：手把手实现“捧腹网”APP（一）-----捧腹网网页分析、数据获取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
.Net Core爬虫爬取妹子网图片
现在网上大把的Python的爬虫教程,很少看见有用C#写的,正好新出的.Net Core可以很方便的部署到Linux上,就用妹子图做示范写个小爬虫在C#下有个很方便的类库 HtmlAgilityPa ...
Go语言之捧腹网爬虫案例
package main import ( "fmt" "net/http" "os" "regexp" "s ...
爬虫下载校花网美女信息-lxml
# coding=utf-8 # !/usr/bin/env python ''' author: dangxusheng desc : 下载校花网上的个人信息:名字-学校-图片地址-点赞数 date ...

随机推荐

Luogu P1546 最短网络 Agri-Net
其实这道题根本没必要写,但为了测试vector+堆优化的Prim试一发. 再次觉得Prim和Dijkstra很像,堆优化版本也差不多. 和Dijkstra一样,Prim也是在之前的dis点中选取一个最 ...
Intellij Idea 返回上次编辑快捷键设置
由于默认的返回上次编辑快捷键和和笔记本冲突. 需要从新设置快捷键. 找了好久终于找到了. 分别选中Back和Forward后设置新的快捷键即可
【SQL】四种排序开窗函数
一 .简单了解什么是开窗函数什么是开窗函数,开窗函数有什么作用,特征是什么? 所谓开窗函数就是定义一个行为列,简单讲,就是在你查询的结果上,直接多出一列值(可以是聚合值或是排序号),特征就是带有ov ...
编写一个供浏览器端使用的NPM包
此文已由作者吴维伟授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 在编写程序时,总会有一些代码是我们不愿意一遍又一遍重复地去写的,比如一些UI或交互相似组件,或是一些相似的流 ...
Linq 之 Select 和 where 的用法
最近开始学习linq.自己也总结一下,方便以后查阅. Select 同 Sql 中的 select 类似,即输出我们要的东东,感觉在 linq 中更加强大. Linq 可以对集合如数组.泛型等操作,这 ...
BugkuCTF web基础$_GET
前言写了这么久的web题,算是把它基础部分都刷完了一遍,以下的几天将持续更新BugkuCTF WEB部分的题解,为了不影响阅读,所以每道题的题解都以单独一篇文章的形式发表,感谢大家一直以来的支持和理 ...
Docker阿里云镜像加速
登录阿里云docker registry sudo docker login --username=zhangsan@163.com registry.cn-hangzhou.aliyuncs.com ...
kvm虚拟化管理平台WebVirtMgr部署-完整记录(3)
继下面三篇文章完成了kvm虚拟化管理平台webvirtmgr环境的部署安装:kvm虚拟化管理平台WebVirtMgr部署-虚拟化环境安装-完整记录(0)kvm虚拟化管理平台WebVirtMgr部署-完 ...
Python_函数的镶嵌和作用域链_26
def max(a,b): return a if a>b else b def the_max(x,y,z): #函数的嵌套调用 c = max(x,y) return max(c,z) pr ...
ELF文件格式分析
一般的 ELF 文件包括三个索引表:ELF header,Program header table,Section header table. 1)ELF header:在文件的开始,保存了路 ...

py3+urllib+re，爬虫下载捧腹网图片

py3+urllib+re，爬虫下载捧腹网图片的更多相关文章

随机推荐

热门专题