python学习笔记（10）--爬虫下载煎蛋图片

说明：

1. 有很多细节需要注意！

2. str是保留字，不要作为变量名

3. 保存为txt报错，encoding=utf-8

4. 403错误，添加headers的方法

5. 正则match只能从开头匹配，search可以中间匹配，返回对象，可以用span()查看匹配的字符索引，不过还是用findall全部查找比较方便，直接返回一个数组。

 import urllib.request

 import re

 # <span class="current-comment-page">[1292]</span>

 # <img src="//ww2.sinaimg.cn/mw600/7064b124jw1enncg4zsmij20dw0ijgn0.jpg" style="max-width: 480px; max-height: 750px;">

 # url = "http://placekitten.com/300/300"

 # url = "http://placehold.it/300/300"

 # url = "http://www.tuwenclub.com"

 url = "http://jandan.net/ooxx"

 response = urllib.request.urlopen(url)

 html = response.read().decode("utf-8")

 # html = response.read().decode("utf-8")

 # html = response.read().decode("gbk")

 #

 # print(html[0:1000])

 # page = html.find("current-comment-page")

 # pageNum = html[page+23:page+27]

 # imglist = []

 reImg = r"//[0-9a-z]+\.sinaimg\.cn.+?\.jpg"

 strs = "//ww2.sinaimg.cn/mw600/7064b124jw1enncg4zsmij20dw0ijgn0.jpg"

 imgs = re.findall(reImg, html)

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

 # print(img1)

 for i in range(0,10):

     urlImg = "http:" + imgs[i]

     req = urllib.request.Request(url=urlImg, headers=headers)

     response = urllib.request.urlopen(req)

     img = open(str(i)+".jpg","wb")

     img.write(response.read())

     img.close()

python学习笔记（10）--爬虫下载煎蛋图片的更多相关文章

SpringMVC:学习笔记(10)——整合Ckeditor且实现图片上传
SpringMVC:学习笔记(10)——整合Ckeditor且实现图片上传配置CKEDITOR 精简文件解压之后可以看到ckeditor/lang下面有很多语言的js,如果不需要那么多种语言的,可 ...
python学习笔记（12）--爬虫下载煎蛋网图片
说明: 1. 这个其实是在下载漫画之前写的,比那个稍微简单点,之前忘放到博客备份了. 2. 不想说啥了,总结放到漫画那个里面吧! import urllib.request import re imp ...
python爬虫学习(1)__抓取煎蛋图片
#coding=utf-8 #python_demo 爬取煎蛋妹子图在本地文件夹 import requests import threading import time import os from ...
python 学习笔记 10 -- 正則表達式
零.引言在<Dive into Python>(深入python)中,第七章介绍正則表達式,开篇非常好的引出了正則表達式,以下借用一下:我们都知道python中字符串也有比較简单的方法, ...
python学习笔记(10):面向对象
一.类和实例 1.类(Class): 用来描述具有相同的属性和方法的对象的集合.它定义了该集合中每个对象所共有的属性和方法.对象是类的实例. 2.对象:通过类定义的数据结构实例.对象包括两个数据成员( ...
吴裕雄--python学习笔记：爬虫基础
一.什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网 ...
python学习笔记10（Python的内存管理）
用这张图激励一下自己,身边也就只有一位全栈数据工程师!!! 32. Python的内存管理 1. 对象的内存使用对于整型和短字符串对象,一般内存中只有一个存储,多次引用.其他的长字符串和其他对象 ...
Python学习笔记10
1.函数式编程理论就来自lambda演算,虽然没有学过lisp,一直被其大名震撼. 特性: 函数是以一等公民可以作为参数可以作为返回值具有闭包特性 1.1参数传递方式一般参数传递 ...
Python学习笔记22:Django下载并安装
Django它是一个开源Web应用程序框架.由Python书面. 通过MVC软件设计模式,这种模式M,视图V和控制器C. 它最初是一个数字新闻内容为主的网站已经发展到管理劳伦斯出版集团.那是,CMS( ...

随机推荐

Qt Creator的安装与Qt交叉编译的配置
Qt Creator 的安装到Qt官网下载Qt Creator https://www.qt.io/download-open-source/ 其它旧版本点击Achieve连接下载或登录http ...
SpringMVC基于代码的配置方式（零配置，无web.xml）直接继承WebMvcConfigurerAdapter
基于配置文件的web项目维护起来可能会更方便,但是有时候我们会有一些特殊的需求,比如防止客户胡乱更改配置,这时候我们需要给配置隐藏到代码中. 1.创建一个动态web项目(无需web.xml) 2.右键 ...
解决ARC下performselector-may-cause-a-leak-because-its-selector-is-unknown 警告
在ARC下使用 [theTarget performSelector:theTarget withObject:Nil]; 会出现警告:performselector-may-cause-a-leak ...
zuul源码分析-探究原生zuul的工作原理
前提最近在项目中使用了SpringCloud,基于zuul搭建了一个提供加解密.鉴权等功能的网关服务.鉴于之前没怎么使用过Zuul,于是顺便仔细阅读了它的源码.实际上,zuul原来提供的功能是很单一 ...
Android画布更新过程OnDraw调用过程
onDraw是触发的外置接口,用户能够复写这种方法,这样当回调onDraw时,就能够绘制出用户须要的画面这个接口方法相似onLayout的回调,利用layout(l,t,r,b)就能够触发. 而这里 ...
FlatBuffers与protobuf性能比較
FlatBuffers发布时.顺便也发布了它的性能数据,详细数据请见Benchmark. 它的測试用例由下面数据构成"a set of about 10 objects containing ...
利用Oracle 发送邮件（utl_smtp）
发送邮件的方法有很多,.NET前台也可以通过创建邮件类的形式, 通过微软提供的System.Net.Mail.dll 也可以简单的发送邮件.但是代码比较长,操作起来虽然很简单(很多细节忽略了). 这里 ...
ie6 javascript:void(0);
遇到过几次这种问题,现在总结一下. 代码: <a onclick="window.location.href='http://www.google.com'" href=&q ...
js特效，轻松实现内容的无缝平滑滚动
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http ...
虚拟机运行Linux提示【此主机支持 Intel VT-x，但 Intel VT-x 处于禁用状态。】的问题
虚拟机运行Linux提示[此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态.]的问题换了台新笔记本,安装了虚拟机,导入以前的Linux系统镜像,出问题了. 提示以下错误信息: ...

python学习笔记（10）--爬虫下载煎蛋图片

python学习笔记（10）--爬虫下载煎蛋图片的更多相关文章

随机推荐

热门专题