亲身试用python简单小爬虫

前几天基友分享了一个贴吧网页，有很多漂亮的图片，想到前段时间学习的python简单爬虫，刚好可以实践一下。

以下是网上很容易搜到的一种方法：

 #coding=utf-8

 import urllib

 import re

 def getHtml(url):

     page = urllib.urlopen(url)

     html = page.read()

     return html

 def getImg(html):

     reg = r'src="(.+?\.jpg)" pic_ext'

     imgre = re.compile(reg)

     imglist = re.findall(imgre,html)

     x = 0

     for imgurl in imglist:

         urllib.urlretrieve(imgurl,'%s.jpg' % x)

         x+=1

 html = getHtml("http://tieba.baidu.com/p/2460150866")

 print getImg(html)

我写的代码与之大同小异，但运行之居然没有反应；我甚至将代码直接copy下来运行，但还是不成功。

没办法，只好自己逐一调试。

首先我把获取到的html代码写入html.txt文件，方便我查看对照，这时，发现了第一个问题：通过urllib获得的html代码与浏览器中Ctrl+U查看到的代码并不是一回事。

接着，我用正则';src=(.*?imgsrc.*?\.jpg)'去匹配html.txt中的代码，这时，关键问题出现了：匹配到的都是诸如http%3A%2F%2Fxx.jpg 这样的地址，这样问题就很明显了，在使用urllib获取html时，':'和'/'被转码了。使用转码后的地址去下载图片当然是行不通的，需要将被转码的地址转回utf8编码。

以下是我对gethtml(url)的修改：

def gethtml(url):

    page=urllib.urlopen(url)

    html=page.read()

    html=re.sub('%3A',':',html)

    html=re.sub('%2F','/',html)

    return html

办法好像笨了一些，望大家多多指教。不过，这下程序就可以成功运行了~，分享下下载的图片，并附上地址：http://tieba.baidu.com/p/3604860421?lp=5027&mo_device=1&pn=0&

亲身试用python简单小爬虫的更多相关文章

python简单小爬虫爬取易车网图片
上代码: import requests,urllib.request from bs4 import BeautifulSoup url = 'http://photo.bitauto.com/' ...
Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...
asp.net简单小爬虫
所谓爬虫简单点说,就是把别人网站上的东西爬下来,至于爬做什么用就看你自己了,比如:把别人网站上的东西爬下来放在自己网站中(感觉有点像小偷^v^). 这里随便写了一个爬虫代码(可以自己再去进行完善): ...
Python 简单网页爬虫学习
#coding=utf-8 # 参考文章: # 1. python实现简单爬虫功能 # http://www.cnblogs.com/fnng/p/3576154.html # 2. Python 2 ...
python的小爬虫的基本写法
1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器这在某些情况下比较有用,比如IP被封 ...
python简单的爬虫，网页图片
1 #!/usr/bin/python 2 #coding=utf-8 3 import urllib 4 import re 5 6 def gethtml(url): 7 page=urllib. ...
Python简单小程序练习
1.九九乘法表 #!/usr/bin/python for i in range(1,10): for j in range(i): j += 1 print ("%d * %d = %-2 ...

随机推荐

python——django入门篇
要做一只有自学能力的pythoner,尽管大多数自学都是野生并不规范的,会遇到诸多坑,最后用稀奇古怪的方法解决了,但是先了解一些为以后真正学习道路填坑方便了简直不只一点点...重点来了:感觉以班里同学 ...
oracle笔记
一.sql*plus常用命令 (1)connect 用法:conn 用户名/密码@网络服务名[as sysdba/sysoper] 当特权用户连接时,必须带上as sysdba或是as sysoper ...
a 标签中调用js的几种方法文章摘自他人
我们常用的在a标签中有点击事件:1. a href="javascript:js_method();" 这是我们平台上常用的方法,但是这种方法在传递this等参数的时候很容易出问题 ...
在update时用触发器插入数据
CREATE trigger [dbo].[Debt_Insert] on [dbo].[Debt] for insert as declare @tmpOrderID1 varchar(30)sel ...
全端开发必备！10个最好的 Node.js MVC 框架
Node.js 是最流行的 JavaScript 服务端平台,它允许建立可扩展的 Web 应用程序.Node.js 包含不同类型的框架,如 MVC 框架.全栈框架.REST API 以及大量的服 ...
STC12C5A60S2 双串口通信
STC12C5A60S2单片机是一款功能比较强大的单片机,它拥有两个全双工串行通信接口,串口1的功能及操作与传统51单片机串行口相同:特殊的是STC12C5A60S2单片机内部有一个独立波特率发生器, ...
cacti web页面访问 settings出错
查看apache错误日志: 错误信息Mon Dec 26 11:00:48.241653 2016] [:error] [pid 32607] [client 192.168.10.79:65009] ...
sql 多级内查询
最近在开发一个外包的项目,其中有个需求,一直困扰我好几天,今天终于找到了解决方案.大致需求如下:公司总部发货给经销商,其中经销商包含四种级别,钻石.金牌.银牌和铜牌,等级依次下发,钻石包含金牌,金牌包 ...
map 取值
1>可以取出Map中所有的键所在的Set集合:再通过Set的迭代器获取到每一个键,之后再用get();方法获得对应的值. public static void main(String[] arg ...
Ionic的跨域问题
跨域大家都不陌生,但最近一直遇到一个坑,也是自身对ajax和angular的不深入造成,所以记录一笔,下次遇到绕过. 参考过:http://ionichina.com/topic/54f051698c ...

亲身试用python简单小爬虫

亲身试用python简单小爬虫的更多相关文章

随机推荐

热门专题