python学习之小小爬虫

学习python一段时间了，写了一个图片的小小爬虫，分享下，不喜勿喷！

#coding=utf-8

'''

Created on 2015-5-22

@author: 悦文

'''

import re

import urllib

def getHtml(url): #第一次忘写了参数，⊙�⊙b汗

    html=urllib.urlopen(url) #获取给定网址的页面源代码，是一个对象文件

    pageContent=html.read()  #读取网页文件中的内容

    #html.close() #关闭sockit

    return pageContent #返回读取网页文件中的内容

    #print url.geturl() #打印请求的网址

    #print pageContent

def callbackfunc(blocknum, blocksize, totalsize):

    '''回调函数

    @blocknum: 已经下载的数据块

    @blocksize: 数据块的大小

    @totalsize: 远程文件的大小

    '''

    percent = 100.0 * blocknum * blocksize / totalsize

    if percent > 100:

        percent = 100

        print "--------------------------------------------------------------------------"

        print "                             小图一张已到手                                  "

        print "--------------------------------------------------------------------------"

    print "%.2f%%"% percent

def getImg(pageContent,callbackfunc):

    #查找图片的正则表达式

    src=r'zoomfile=\"(http://img\..+\.jpg)\" file' # @坑1，之前没有加 file，导致从zoomfile开始所有的字符串全都匹配

    srcm=re.compile(src)

    getImgSrc=re.findall(srcm,pageContent)

    #image_test_len=len(getImgSrc)

    #print getImgSrc

    name=260

    #逐条获得图片地址并下载

    for image in getImgSrc:

        urllib.urlretrieve(image,"E:\\python\\%s.jpg"% name,callbackfunc)

        name+=1

    #return image_test_len

if __name__=='__main__':

    pageContent=getHtml("http://old.nr99.com/thread-123208-1-2.html")

    getImg(pageContent,callbackfunc)

python学习之小小爬虫的更多相关文章

（私人收藏）python学习(游戏、爬虫、排序、练习题、错误总结)
python学习(游戏.爬虫.排序.练习题.错误总结) https://pan.baidu.com/s/1dPzSoZdULHElKvb57kuKSgl7bz python100经典练习题python ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
python学习笔记："爬虫+有道词典"实现一个简单的英译汉程序
1.有道的翻译网页:www.youdao.com Fig1 Fig2 Fig3 Fig4 再次点击"自动翻译"->选中'Network'->选中'第一项',如下: F ...
吴裕雄--python学习笔记：爬虫基础
一.什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网 ...
python学习(十八)爬虫中加入cookie
转载自:原文链接前几篇文章介绍了urllib库基本使用和爬虫的简单应用,本文介绍如何通过post信息给网站,保存登陆后cookie,并用于请求有权限的操作.保存cookie需要用到cookiejar ...
Python学习笔记之爬虫
爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器”网页下载器:将URL指定的网页下载,存储成一个字 ...
Python学习笔记——与爬虫相关的网络知识
1 关于URL URL(Uniform / Universal Resource Locator):统一资源定位符,用于完整地描述Internet上网页和其他资源的地址的一种标识方法 URL是爬虫的入 ...
吴裕雄--python学习笔记：爬虫包的更换
python 3.x报错:No module named 'cookielib'或No module named 'urllib2' 1. ModuleNotFoundError: No module ...
吴裕雄--python学习笔记：爬虫
import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网 ...

随机推荐

Codeforces Round #305 (Div. 2) C题（数论）
C. Mike and Frog time limit per test 1 second memory limit per test 256 megabytes input standard inp ...
使用python获取CPU和内存信息的思路与实现(linux系统)
linux里一切皆为文件,在linux/unix的根文件夹下,有个/proc文件夹,这个/proc 是一种内核和内核模块用来向进程(process)发送信息的机制(所以叫做"/proc&qu ...
Linux/CentOS各种服务框架的搭建完整流程
在2012年的时候,由于要照应新人对Linux以及相关服务的了解和学习,我特地把当时我们创业项目的全部服务搭建过程写成了一篇文档,能够让他们学习而且有所參照. 以下就以这篇文档为底稿,进行一些改动和敏 ...
.NET几大热点问题（.NET人员必读）
下面收集了关于.NET几大热点问题及简要答案,防止我们回答问题不专业的尴尬.同一时候还将一些.NET资源的相关网址罗列一二. 一．什么是.Net?它主要包含什么? .Net是为简化在第三代因特网的高 ...
多级联动系列——ajax调用XML实现三级联动
ajax 使用起来特别的方便,再也不操心浏览器兼容问题了.用ajax调用XML页面中的内容,来生成三级联动,OK废话不多说,跟着我一步步写吧. 首先写一个XML文件.data.xml <?xml ...
Fiddler手机抓包工具设置过滤域名
需求:我想用fiddler抓包只抓test.sis.1course.cn; pre.schoolis.cn; sistest02.schoolis.cn;这几个域名下的请求设置步骤:https:// ...
Linux批量生成生成帐户脚本,随机密码
此脚本应用于生产环境下生成帐户,也可生成成百上千个密码相同的帐户.脚本代码如下: 批量生成: #!/bin/bash for name in tom jerry joe jane do useradd ...
hash哈希
我复习的时候,突然发现没写过hash算法,惊讶!!!赶紧补一下. 把字符串看成base进制的数.Hash值比较就是为了判断是否有相同的字符串.(base是自己定义的大于26的质数,个人认为大一点比较好 ...
Java数据结构2——深入JCF
Java集合框架(JCF)参考C++的STL实现的在日常Java开发工作很常用的数据结构容器,有技术追求的人除了要会简单使用JCF之外,也要知道其底层的实现机制,知道它是如何实现的,为什么这样实现.就 ...
Python入门来点栗子
查天气(1) http://wthrcdn.etouch.cn/weather_mini?citykey=101280804 http://wthrcdn.etouch.cn/WeatherApi?c ...

python学习之小小爬虫

python学习之小小爬虫的更多相关文章

随机推荐

热门专题