python 爬虫下载图片

import os#导入操作系统模块
from urllib.request import urlretrieve#下载url对应的文件
from urllib.request import urlopen    #打开url，得到网页源代码
from bs4 import BeautifulSoup         #bs库，对源代码进行各种操作

downloadDirectory = "downloaded"     #下载至名为“download”的文件夹
baseUrl = "http://pythonscraping.com"#########################################

#将任意链接转换成absolute URL——清理和标准化
def getAbsoluteURL(baseUrl, source):
    if source.startswith("http://www."):
        url = "http://"+source[11:]
    elif source.startswith("http://"):
        url = source
    elif source.startswith("www."):
        url = source[4:]
        url = "http://"+url
    else:
        url = baseUrl+"/"+source
    if baseUrl not in url:
        return None
    return url

#新建一个文件夹，存放下载文件
def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory):
    path = absoluteUrl.replace("www.", "")
    path = path.replace(baseUrl, "")
    path = downloadDirectory+path
    directory = os.path.dirname(path)
    if not os.path.exists(directory):
        os.makedirs(directory)
    return path

html = urlopen("http://www.pythonscraping.com")##############################
bsObj = BeautifulSoup(html)
downloadList = bsObj.findAll(src=True)#获取src对应的链接list
#print(downloadList)

#将链接list中每一个链接转换成absoluteURL
for download in downloadList:
    fileUrl = getAbsoluteURL(baseUrl, download["src"])
    if fileUrl is not None:
        print(fileUrl)

urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory))

python 爬虫下载图片的更多相关文章

python 爬虫--下载图片,下载音乐
#下载图片 imgUrl='http://www.pptbz.com/pptpic/UploadFiles_6909/201211/2012111719294197.jpg' r=requests.g ...
python爬虫下载文件
python爬虫下载文件下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
Python爬虫下载Bilibili番剧弹幕
本文绍如何利用python爬虫下载bilibili番剧弹幕. 准备: python3环境需要安装BeautifulSoup,selenium包 phantomjs 原理: 通过aid下载bilibi ...
Python爬虫下载美女图片（不同网站不同方法）
声明:以下代码,Python版本3.6完美运行一.思路介绍不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法 1. 浏览器浏览分析地址变化规律 2. Python测试类获取网页内容,从 ...
Python学习---网页爬虫[下载图片]
爬虫学习--下载图片 1.主要用到了urllib和re库 2.利用urllib.urlopen()函数获得页面源代码 3.利用正则匹配图片类型,当然正则越准确,下载的越多 4.利用urllib.url ...
用Scrapy爬虫下载图片(豆瓣电影图片)
用Scrapy爬虫的安装和入门教程,这里有,这篇链接的博客也是我这篇博客的基础. 其实我完全可以直接在上面那篇博客中的代码中直接加入我要下载图片的部分代码的,但是由于上述博客中的代码已运行,已爬到快九 ...
Day3-scrapy爬虫下载图片自定义名称
学习Scrapy过程中发现用Scrapy下载图片时,总是以他们的URL的SHA1 hash值为文件名,如: 图片URL:http://www.example.com/image.jpg 它的SHA1 ...
用python批量下载图片
一写爬虫注意事项网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么 ...
python——批量下载图片
前言批量下载网页上的图片需要三个步骤: 获取网页的URL 获取网页上图片的URL 下载图片例子 from html.parser import HTMLParser import urllib.r ...

随机推荐

解决：SyntaxError: Non-ASCII character in file
今天尝试用monkeyrunner脚本在夜神模拟器上安装并截图QQ,但是遇到了一些问题: from com.android.monkeyrunner import MonkeyRunner, Monk ...
选择排序—简单选择排序（Simple Selection Sort）原理以及Java实现
基本思想: 在要排序的一组数中,选出最小(或者最大)的一个数与第1个位置的数交换:然后在剩下的数当中再找最小(或者最大)的与第2个位置的数交换,依次类推,直到第n-1个元素(倒数第二个数)和第n个元素 ...
LeetCode OJ：Minimum Depth of Binary Tree（二叉树的最小深度）
Given a binary tree, find its minimum depth. The minimum depth is the number of nodes along the shor ...
MPEG4、XVID、AVC有什么区别
MPEG-4包含XviD和DivX,而AVC优于二者mpeg4 DVD用的多,101mpeg4有AVC格式(加强版MP4)AVC/H.264是一种最新且技术含量最高的视频编码格式,由MPEG-4标准进 ...
windows下matplotlib的安装
在上一篇中我想用matplotlib,无奈一直装不上,就在卸了又装装了又卸,反反复复之后,终于装好了. 初学python,首先就装了numpy,倒也没有多复杂,有需要的朋友可以直接http://sou ...
二、python沉淀之路~~字符串属性（str)
1.capitalize的用法:即将输出字符串首字母大写 test = "heLLo" v = test.capitalize() print(v) 结果:Hello. 2.cas ...
基于spring及zookeeper的dubbo工程搭建
一.生产者搭建新建一个maven工程,勾选Create a simple project Packaging方式选择jar包的方式. 修改pom.xml文件: <project xmlns=& ...
Python修复图像文件后缀名
网上爬了很多图片,有很多错误. 有的不是图片文件,需要删除有的后缀名错误,需要更正用的的python脚本 #!/usr/bin/env python #-*- coding: utf-8 -*-# ...
修改分区后的 Grub rescue
声明:这里用到的知识不是原创,综合了几篇教程的成果.找的时候比较混乱,所以来源已经不确定.希望原作者见谅. 系统是Windows 8.1 和 Ubuntu 14.04, Windows是先装的, gr ...
HIVE-如何查看执行日志
HIVE既然是运行在hadoop上,最后又被翻译为MapReduce程序,通过yarn来执行.所以我们如果想解决HIVE中出现的错误,需要分成几个过程 HIVE自身翻译成为MR之前的解析错误 Hado ...

python 爬虫 下载图片

python 爬虫 下载图片的更多相关文章

随机推荐

热门专题

python 爬虫下载图片

python 爬虫下载图片的更多相关文章