Python爬虫! 单爬,批量爬,这都不是事!
昨天做了一个煎蛋网妹子图的爬虫,个人感觉效果不错。但是每次都得重复的敲辣么多的代码(相比于Java或者其他语言的爬虫实现,Python的代码量可谓是相当的少了),就封装了一下!可以实现对批量网址以及单个网址的爬虫!
核心代码
# coding:UTF-8
# 导入我们需要的网络模块,正则表达式模块,以及产生随机数的模块
import urllib2,urllib,re,random
# 根据传入的URL网址,获得该网址对应的全部的html页面(纯网页,并没有做任何的解析)
def getHtml(url,headers) :
request = urllib2.Request(url,headers=headers)
response = urllib2.urlopen(request)
page = response.read()
return page
# 根据之前获得那个url对应的网页信息,将这张网页里面包含的所有的含有<img src=".+\.jpg"/>的url存储到一个列表中
def getImageUrls(page):
reg = r'src="(.+?\.jpg)"'
imageReg = re.compile(reg)
img_urls = re.findall(imageReg,page)
return img_urls
# 这是个测试的方法,并没有实际的价值。列出来的目的只是为了纪念一下,最终功能实现的这个过程,仅此!
# def getTotalImageUrls(original_url,headers):
# totalImageUrls = []
# for item in range(1980, 1990):
# original_url += original_url + str(item)
# page = getHtml(original_url,headers)
# images_url = getImageUrls(page)
# totalImageUrls.append(images_url)
# return totalImageUrls
# 根据给定的路径,文件名,将指定的数据(这里是一张图片,是的。一张图片)写入到文件中。需要注意的是每次都需要关闭file
def writeToFile(path,name,data):
file = open(path+name,'wb')
file.write(data)
file.close()
print name+" has been Writed Succeed!"
# 下载图片,并且调用刚才的 writeToFile(path,name,data): 函数。将图片直接写到对应的路径下面
# 这里借助于一个random模块,为了产生图片之间尽量不重复的文件名,以防止文件的覆盖或者出现其他的问题
def downloadImages(images_url,path,headers) :
for i, item in enumerate(images_url):
everypicture = getHtml(item,headers)
# 此处下载之后的文件使用了item来命名是为了避免图片的覆盖
writeToFile(path, str(i+random.randint(1,100000000)) + ".jpg", everypicture)
# 提供单个url网址内图片的下载
def singleImageDownload(outputPath,targeturl,headers) :
originalurl = targeturl
page = getHtml(originalurl,headers)
images_url = getImageUrls(page)
downloadImages(images_url,path,headers)
# 提供批量下载的函数,对未成功下载的提示未成功下载语句
def batchImageDownload(outputPath, originalurl, headers, start, end):
for item in range(2000, 4000):
try:
originalurl = 'http://bizhi.souutu.com/mnbz/' + str(item) + '.html'
page = getHtml(originalurl)
images_url = getImageUrls(page)
downloadImages(images_url,headers)
except:
print str(item) + str(' web site cannot be spidered! Sorry!')
continue
# --------------------------------------------------------------------------------------------------
# 下面是我们的测试代码,仅仅拿单个url页面做了个测试,亲测好使
headers = {
'referer':'http://bizhi.souutu.com/mnbz/3712.html',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
}
path = "F:\\pachong\\bizhi\\"
url = 'http://bizhi.souutu.com/mnbz/3712.html'
singleImageDownload(path,url,headers)
后话
这里并没有使用类来进行封装,没有用BeautifulSoup的原因是我还没学到
无奈.装傻~
( ̄▽ ̄)~* ( ̄▽ ̄)" ╮(╯▽╰)╭ ╮( ̄▽ ̄)╭
但是咧,这在Python中是不妨碍滴,照样爬嘛,(^__^) 嘻嘻……
我是新手,代码中可能有不恰当的地方,欢迎批评指正!
Python爬虫! 单爬,批量爬,这都不是事!的更多相关文章
- 简单的python爬虫教程:批量爬取图片
python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...
- python爬虫Scrapy(一)-我爬了boss数据
一.概述 学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
- Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
- Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
- 转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
- 转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...
- python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...
- python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐 前言 大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...
- Python爬虫:为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
- Python爬虫实战一之爬取QQ音乐
一.前言 前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
随机推荐
- 2015 多校联赛 ——HDU5363(快速幂)
Problem Description soda has a set S with n integers {1,2,…,n}. A set is called key set if the sum o ...
- 基于SSE4和多核编程的电子相册的实现
基于SSE4和多核编程的电子相册的实现 摘要:电子相册中前后两张图片的切换会产生淡入淡出效果,而且切换过程中需要大量的中间计算过程,而SSE4和多核编程技术能够有效加快中间的计算过程,有效减少图片 ...
- Spring MVC页面重定向
以下示例显示如何编写一个简单的基于Web的重定向应用程序,这个应用程序使用重定向将http请求传输到另一个页面. 基于Spring MVC - Hello World实例章节中代码,创建创建一个名称为 ...
- App上架应用市场,如何攻破安全过检难题
App的安全过检与众所熟知的安全检测是两个完全不同的概念.首先App行业本身对App安全过检有一定的要求与规范,其次2017年6月1日正式实施的<中国网络安全法>中就曾要求App在渠道上线 ...
- ubuntu 14.04 64位 安装Opencv3.1.0 (包含opencv_contrib模块)
写在前边: 据官方说法,目前还不是太稳定的算法模块都在opencv_contrib里边,由于不稳定,所以不能在release版本里发行,只有在稳定以后才会放进release里边.但是这里边有很多我们经 ...
- 02Vue2.0+生命周期
Vue生命周期是Vue对象从无到有再到无的一个过程,我们又是不仅要明白一个对象的使用, 同时也要知道一个对象怎么创建了,就比如Spring的生命周期,往往不只是面试官的考点, 同时在项目中也也可能常常 ...
- NDK编程的一个坑—Arm平台下的类型转换
最近在做DNN定点化相关的工作,DNN定点化就是把float表示的模型压缩成char表示,虽然会损失精度,但是由于DNN训练的模型值比较接近且范围较小,实际上带来的性能损失非常小.DNN定点化的好处是 ...
- 使用Docker搭建GitLab
使用docker-compose快速启动GitLab.(当然前提是你先安装docker-compose,安装方式见博客:http://blog.csdn.net/yulei_qq/article/de ...
- Rails 4.0 bundle exec rspec spec/requests/xxx 测试失败的解决
rails项目没有使用默认的单元测试包,而是使用了rspec-rails来测试. 按照文档说明首先生成对应的测试文件: rails generate integration_test xxx invo ...
- APP自动化框架LazyAndroid使用手册(2)--元素自动抓取
作者:黄书力 概述 前面的一篇博文简要介绍了安卓自动化测试框架LazyAndroid的组成结构和基本功能,本文将详细描述此框架中元素自动抓取工具lazy-uiautomaterviewer的使用方法. ...