python爬虫之下载文件的方式以及下载实例

第一种方法：urlretrieve方法下载

第二种方法：request download

第三种方法：视频文件、大型文件下载

实战演示

第一种方法：urlretrieve方法下载

程序示例：

import os

from urllib.request import urlretrieve

os.makedirs('./img/',exist_ok=True) #创建目录存放文件

image_url = "https://p0.ssl.qhimg.com/t01e890e06c93018fa8.jpg"

urlretrieve(image_url,'./img1/image1.png') #将什么文件存放到什么位置

补充知识：

os.makedirs() 方法用于递归创建目录。像 mkdir(), 但创建的所有intermediate-level文件夹需要包含子目录。

语法

makedirs()方法语法格式如下：

os.makedirs(path, mode=0o777)

参数

path -- 需要递归创建的目录。

mode -- 权限模式。

返回值

该方法没有返回值。

第二种方法：request download

程序示例：

import requests
image_url='https://p0.ssl.qhimg.com/t01e890e06c93018fa8.jpg'
r = requests.get(image_url) 
with open('./img1/image1.png','wb') as f: 
  f.write(r.content)

补充知识：

with open的使用格式

with open（’文件名‘，‘读写方式’）as f:

    f.read()  #读取是整个文件

    f.readline()  #读取第一行

    f.readlines()    #读取每一行，可以结合for使用(参考我上述完整代码),记得都要带方法都要带括号，不然返回的是内存地址  
    f.close()    #关闭文件 文件使用完毕后必须关闭，因为文件对象会占用操作系统的资源，并且操作系统同一时间能打开的文件数量也是有限的
    f.write()   #写入文件

第三种方法：视频文件、大型文件下载

可以设置每次存储文件的大小，所以可以下载大型文件，当然也可以下载小文件。

程序示例：

import requests

image_url = 'https://p0.ssl.qhimg.com/t01e890e06c93018fa8.jpg'

r = requests.get(image_url,stream=True) #stream=True #开启时时续续的下载的方式
with open(filename, 'wb') as f:

  for chunk in r,iter_content(chunk_size=32): #chunk_size #设置每次下载文件的大小
    f.write(chunk)  #每一次循环存储一次下载下来的内容

实战演示

下面一个简单的使用爬虫下载图片的程序

爬取的是一个旅游网站的地图

程序示例：

import requests

import os

from bs4 import BeautifulSoup

from urllib.request import urlretrieve

def main():

    url = 'http://www.onegreen.net/maps/List/List_933.html'

    os.makedirs('./img/',exist_ok=True) #创建目录存放文件

    html = requests.get(url).text #获取网页html

    soup = BeautifulSoup(html,'lxml')

    img_url = soup.find_all('img') #获取所有的img标签,我在这里只是演示下载，所有不做进一步的筛选

    print(len(img_url))

    for url in img_url:

        ul = url['src'] #获取src属性

        img = 'http://www.onegreen.net/' + ul #补全图片url

        print(img)

        urlretrieve(img , './img/%s' % ul.split('/')[-1]) #存储图片

if __name__ =='__main__':
    main()

程序运行结果：

python爬虫之下载文件的方式总结以及程序实例的更多相关文章

python爬虫2——下载文件(中华网图片库下载)
# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...
python爬虫脚本下载YouTube视频
python爬虫脚本下载YouTube视频爬虫 python YouTube视频工作环境: python 2.7.13 pip lxml, 安装 pip install lxml,主要用xpath ...
python3.4学习笔记(二十六) Python 输出json到文件,让json.dumps输出中文实例代码
python3.4学习笔记(二十六) Python 输出json到文件,让json.dumps输出中文实例代码 python的json.dumps方法默认会输出成这种格式"\u535a\u ...
Python爬虫之三种数据解析方式
一.引入二.回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需 ...
Python接口自动化测试-下载文件
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : shenqiang ''' 注意:定义类的时候,内部方法之间的互调步骤: 1.按照 ...
python从FTP下载文件
#!/usr/bin/python # -*- coding: utf-8 -*- """ FTP常用操作 """ from ftplib ...
Python+Selenium学习--下载文件
场景 webdriver 允许我们设置默认的文件下载路径.也就是说文件会自动下载并且存在设置的那个目录中,下面以firefox及chrome为例代码 Firefox下载为了让Firefox浏览器能 ...
windows上python上传下载文件到linux服务器指定路径【转】
从windows上传文件到linux,目录下的文件夹自动创建 #!/usr/bin/env python # coding: utf-8 import paramiko import datetime ...
Python 爬虫批量下载美剧 from 人人影视 HR-HDTV
本人比較喜欢看美剧.尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的全部 HR-HDTV 的 ed2k下载链接.并依照先后顺序写入到文本文件, ...

随机推荐

IO流总结笔记一
IO流继承关系图 IO概述 IO流是用来处理设备上数据的输入输出. 具体设备有:硬盘,内存,键盘录入等等. IO流的具体分类: 1,根据处理的数据类型不同分为:字节流和字符流,字节流读取的最小单位 ...
Javascript定义变量
在JavaScript中通过var来定义变量,不管是数字还是字符串,都可以通过这种方式来定义:我们既可以在声明变量的同时给变量赋值,也可以先声明变量,再给变量赋值. <script> va ...
mysql逗逼的.frm文件恢复数据库
mysql数据库用.frm文件进行恢复. 背景:mac系统 .frm文件 (1)打开终端:输入cd /usr/local 回车. (2)输入 ls 回车. 这时候打开finder ---> ...
RNN（2） ------ “《A Critical Review of Recurrent Neural Networks for Sequence Learning》RNN综述性论文讲解”（转载）
原文链接:http://blog.csdn.net/xizero00/article/details/51225065 一.论文所解决的问题现有的关于RNN这一类网络的综述太少了,并且论文之间的符号 ...
ioremap 与 mmap【转】
转自:http://blog.csdn.net/junllee/article/details/7415732 内存映射对于提供了MMU(存储管理器,辅助操作系统进行内存管理,提供虚实地址转换等硬件 ...
maven项目有红叉，感叹号如何解决？
红色感叹号,pom.xml文件有红叉修改了Maven私服服务器的IP地址.可在Maven安装路径下的conf/setting.xml中修改ip地址,具体参照“开发工具”/maven.工程中class ...
Java Map 键值对排序按key排序和按Value排序
一.理论准备 Map是键值对的集合接口,它的实现类主要包括:HashMap,TreeMap,Hashtable以及LinkedHashMap等. TreeMap:基于红黑树(Red-Black tre ...
OneNET麒麟座应用开发之四：数据上传测试
已经测试过OneNET麒麟座开发板了,这次来尝试与OneNET的连接和数据上传.这也是我们测试这块开发办的主要原因,因为在十几种我们有这种将分散的采集点数据上传到后台的需求. 先看看麒麟座这块开发板, ...
python for dl
算是python的简明教程吧,总结的不错: https://zhuanlan.zhihu.com/p/24162430 python for opencv: https://zhuanlan.zhih ...
php和NodeJs共存的开发环境
1 折腾 php nodejs 到一起 nodejs当然很火,就像着火了一样,但是必须承认要搭建一个前端的demo开发环境还是PHP靠谱, windows下可以非常的集成套件,比如http://www ...

python爬虫之下载文件的方式总结以及程序实例

python爬虫之下载文件的方式以及下载实例

第一种方法：urlretrieve方法下载

第二种方法：request download

第三种方法：视频文件、大型文件下载

实战演示

python爬虫之下载文件的方式总结以及程序实例的更多相关文章

随机推荐

热门专题