1. #coding=utf-8
  2.  
  3. # 参考文章:
  4. # 1. python实现简单爬虫功能
  5. # http://www.cnblogs.com/fnng/p/3576154.html
  6. # 2. Python 2.7 时间和日期模块常用的例子
  7. # http://www.linuxidc.com/Linux/2015-06/118458.htm
  8. # 3. Python open读写文件实现脚本
  9. # http://www.jb51.net/article/15709.htm
  10. # 4. python re 模块 findall 函数用法简述
  11. # http://blog.csdn.net/cashey1991/article/details/8875213
  12. # 5. [Python]编码声明:是coding:utf-8还是coding=urf-8呢
  13. # http://www.xuebuyuan.com/975181.html
  14.  
  15. # urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据。
  16. import urllib
  17. import re
  18. import datetime,time
  19.  
  20. # 定义了一个getHtml()函数
  21. def getHtml( url ):
  22. # urllib.urlopen()方法用于打开一个URL地址。
  23. page = urllib.urlopen( url )
  24. # read()方法用于读取URL上的数据
  25. html = page.read()
  26.  
  27. # 返回整个网页数据
  28. return html
  29.  
  30. # 创建getImg()函数
  31. def getImg( html ):
  32. # ()表示所要提取的字符串,即: 图片名.jpg
  33. reg = r'src="(.+?\.jpg)" pic_ext'
  34. # 可以把正则表达式编译成一个正则表达式对象.
  35. imgre = re.compile( reg )
  36. # 读取html 中包含 imgre(正则表达式)的数据。
  37. # 当给出的正则表达式中带有一个括号时,列表的元素为字符串,
  38. # 此字符串的内容与括号中的正则表达式相对应(不是整个正则表达式的匹配内容)。
  39. imglist = re.findall( imgre, html )
  40.  
  41. print "Start downloading the first five pictures"
  42.  
  43. # 通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,
  44. # 对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。
  45. x = 0
  46. for imgurl in imglist:
  47. # 用到了urllib.urlretrieve()方法,直接将远程数据下载到本地
  48. urllib.urlretrieve( imgurl, '%s.jpg' % x )
  49. # python不支持类似 x++ 或 x-- 这样的前置/后置自增/自减运算符,因此只能用 += 或 -= 这种。
  50. x += 1
  51.  
  52. # 这里面的图片可能比较多,我们测试前五张就差不多了
  53. if x == 5 :
  54. break
  55.  
  56. print "the first five pictures download completed."
  57.  
  58. return imglist
  59.  
  60. # 向getHtml()函数传递一个网址,并把整个页面下载下来,保存在html变量中
  61. html = getHtml( "http://www.zengjf.org" )
  62.  
  63. # 合成要保存的文件名,由年月日、时分秒组成,以只写方式打开文件
  64. saveFile = open( time.strftime( "%Y%m%d%H%M%S" ) + ".html", 'w' )
  65. saveFile.write( html ) # 将html中的内容写入文件
  66. saveFile.close( ) # 关闭文件
  67.  
  68. html = getHtml( "http://tieba.baidu.com/p/2460150866" )
  69. print getImg( html )

Python 简单网页爬虫学习的更多相关文章

  1. Python简单网页爬虫——极客学院视频自动下载

    http://blog.csdn.net/supercooly/article/details/51003921

  2. (一)python 简单网页爬虫

    1.基于window环境,使用的工具是 Anaconda 下载地址 https://www.anaconda.com/download/ 2.所使用的包 BeautifulSoup,用来解析html代 ...

  3. Python编写网页爬虫爬取oj上的代码信息

    OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...

  4. Python简单网络爬虫实战—下载论文名称,作者信息(下)

    在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...

  5. Selenium + PhantomJS + python 简单实现爬虫的功能

    Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...

  6. Python动态网页爬虫-----动态网页真实地址破解原理

    参考链接:Python动态网页爬虫-----动态网页真实地址破解原理

  7. 亲身试用python简单小爬虫

    前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...

  8. nodeJS实现简单网页爬虫功能

    前面的话 本文将使用nodeJS实现一个简单的网页爬虫功能 网页源码 使用http.get()方法获取网页源码,以hao123网站的头条页面为例 http://tuijian.hao123.com/h ...

  9. python简单页面爬虫入门 BeautifulSoup实现

    本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...

随机推荐

  1. 5.1 Components — Introduction

    1. HTML被设计的时候,浏览器是一个简单的文件浏览器.开发构建大的Web应用程序需要更多的东西. 2. 不是试图取代HTML,然而,Ember.js拥抱它,然后增加了许多新功能使得构建web应用程 ...

  2. SpringBoot 通过自定义注解实现AOP切面编程实例

    一直心心念的想写一篇关于AOP切面实例的博文,拖更了许久之后,今天终于着手下笔将其完成. 基础概念 1.切面(Aspect) 首先要理解‘切’字,需要把对象想象成一个立方体,传统的面向对象变成思维,类 ...

  3. 33Sql数据删除与遍历

    数据库的创建.添加.修改.查询.删除都是利用SQL语句和类QSqlQuery的结合. QSqlDatabase::database().可返回当前正在打开的数据库对象. 数据库的删除 //获取删除的名 ...

  4. java提升路线

    转载自:http://blog.csdn.net/a151296/article/details/43658853 作为一名即将从事java开发的应届毕业生,迷茫中,转载此篇文章,作为提升自己的学习方 ...

  5. this指向 - 开端

    /* 这个主题 主要是为了论述 js 中一个最烦人的问题 --> this 的指向问题 其实,这个 this 到底指向什么,指向谁,查了好多资料.书籍.官文,也没有给出明确的一个结论, 也学这也 ...

  6. Tomcat环境变量设置

    tomcat环境变量配置     CATALINA_HOME:D:\server\apache-tomcat-8.5.32 //安装目录      CATALINA_BASE:D:\server\ap ...

  7. Java中com.jcraft.jsch.ChannelSftp讲解

    http://blog.csdn.net/allen_zhao_2012/article/details/7941631 http://www.cnblogs.com/longyg/archive/2 ...

  8. Java实现文本创建、删除、编辑内容

    Java实现文本创建.删除.编辑内容 1,创建文本代码: //创建文件并追加内容 public static void writeContentToTxt(StringBuffer Content,F ...

  9. 20145325张梓靖 《Java程序设计》第4周学习总结

    20145325张梓靖 <Java程序设计>第4周学习总结 教材学习内容总结 何谓继承 继承共同行为 继承基本上就是避免多个类间重复定义共同行为:可把相同的程序代码提升为父类:用关键字 e ...

  10. Duilib 创建不规则窗口(转载)

    方法一: 转载:http://blog.csdn.net/chenlycly/article/details/46447297 转载:http://blog.csdn.net/harvic880925 ...