python下载网页上公开数据集

URL很简单，数据集分散开在一个URL页面上，单个用手下载很慢，这样可以用python辅助下载；

问题：很多国外的数据集，收到网络波动的影响很大，最好可以添加一个如果失败就继续请求的逻辑，这里还没有实现；

参考链接：

https://blog.csdn.net/sinat_36246371/article/details/62426444

代码都是这位大神的，感谢，我再上面稍微改了一点点，加了异常处理。

'''

downloading dataset on one html page

'''

import requests

from bs4 import BeautifulSoup

archive_url = your_target_url

def get_target_links():

    r = requests.get(archive_url)

    soup = BeautifulSoup(r.content, 'html5lib')

    links = soup.findAll('a')

    video_links = []

    #video_links = [archive_url + link['href'] forlink in links if (link['href'].endswith('atr') or link['href'].endswith('dat') or link['href'].endswith('hea') )]

    for link in links:

        try:

            if((link['href'].endswith('atr') or link['href'].endswith('dat') or link['href'].endswith('hea') )):

                video_links.append(archive_url + link['href'])

        except KeyError:

            print('keyerror, keep going!')

    for i in video_links:

        print(i, '\n')

    return video_links

def download_target_series(video_links):

    failed_list = []

    for link in video_links:

        file_name = link.split('/')[-1]

        file_name = ‘your_local_folder’ + file_name

        print("Downloading file:%s" % file_name)

        print(link)

        try:

            r = requests.get(link, stream=True)

        except Exception:

            failed_list.append(file_name.split('\\')[-1])

            print('download failed. go to down next one\n')

        # download started

        with open(file_name, 'wb') as f:

            for chunk in r.iter_content(chunk_size=1024 * 1024):

                if chunk:

                    f.write(chunk)

        print("%s downloaded!\n" % file_name)

    print("All videos downloaded!")

    print(failed_list) #record which one is failed to download

    return

if __name__ == "__main__":

    target_links = get_target_links()

    download_target_series(target_links)

python下载网页上公开数据集的更多相关文章

Python下载网页的几种方法
get和post方式总结 get方式:以URL字串本身传递数据参数,在服务器端可以从'QUERY_STRING'这个变量中直接读取,效率较高,但缺乏安全性,也无法来处理复杂的数据(只能是字符串,比如在 ...
Python——零基础向-四行代码下载网页上的一张图片
一.确保安装了requests模块还没安装的可以百度一下如何安装,很简单的. 这里简单的说一下方法:win+R,输入cmd,打开命令行窗口,输入命令:pip install requests ,即可 ...
python下载网页转化成pdf
最近在学习一个网站补充一下cg基础.但是前几天网站突然访问不了了,同学推荐了waybackmachine这个网站,它定期的对网络上的页面进行缓存,但是好多图片刷不出来,很憋屈.于是网站恢复访问后决定把 ...
如何使用python下载网站上的视频
youtube-dl 从名字上也能看出来,是专门用来下载YouTube的视频. 不过本人对YouTube不感兴趣,但是这个模块可以用来下载bilibili上的视频我们就来试一试首先pip insta ...
利用python定位网页上的元素
1. 想对网页上的元素进行操作,首先需要定位到元素. 以百度首页为例: 输入以下代码,打开百度首页: # coding = gbk from selenium import webdriver chr ...
Python从网页上爬取图片
在搜索壁纸的时候,想把壁纸保存到本地,一张一张的保存太过麻烦,所以想到用Python来爬取壁纸. 设计思路: 1.首先先去找有壁纸的网页: http://www.acfun.cn/a/ac334521 ...
如何下载网页上的视频和flash的方法
下面介绍一种下载视频的简便方法,这种方法不需要安装任何下载软件,而且适合所有 FLV(Flash Video)格式的视频文件. 第一步清空Temporary Internet Files(临时网络文 ...
如何下载网页上的视频并且 flv 格式转化成 MP4
链接:http://www.jb51.net/softjc/222135.html https://jingyan.baidu.com/article/25648fc162f2899190fd0042 ...
python下载网页视频
因网站不同需要修改. 下载 mp4 连接 from bs4 import BeautifulSoup import requests import urllib import re import js ...

随机推荐

DNS服务简介
一.域名系统 1.域名系统概述域名系统DNS(Domain Name System)是因特网使用的命名系统,用来把便于人们使用的机器名字转换成为IP地址.域名系统其实就是名字系统.为什么不叫“名字” ...
Zookeeper简介及使用
一.Zookeeper简介 1.zookeeper简介动物管理员 Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调. 2.什么是ZooKeeper? ZooKee ...
vue状态管理器(用户登录简单应用)
技术点:通过vue状态管理器,对已经登录的用户显示不同的页面: 一 vue之状态管理器应用主要用来存储cookie信息与vue-cookies一起使用安装:npm install vue-co ...
django 模板语言之 simple_tag 自定义模板
自定义函数 simple_tag a. app项目下创建templatetags目录 b. 创建任意xxoo.py文件用做自定义py函数 c. 创建template对象 register 在函数或者 ...
18.解决合并androidmanfest错误
这个是minsdk和tartgetsdk的版本不一致的问题
16.遇到就jar mismatch! Fix your dependencies的问题
这是因为两个项目的jar包(android-support-v4.jar)不一致. 解决方法是把2个jar都删除,然后各自加上最新的jar包但是换了之后发现R文件编不出来,原因是minsdk的设置问 ...
MongoDB的固定集合
一.MongoDB固定集合概念固定集合指的是事先创建,并且大小固定的集合.即假设一个集合设置了固定大小为100,再添加一条文档的时候,会把最前面的文档剔除,永远只保留100条数据. 固定集合特性:固 ...
libxml2 在mingw中 xmlfree连接错误问题
libxml2 在mingw中 xmlfree连接错误问题 2013年10月02日 ⁄ 综合 ⁄ 共 1527字 ⁄ 字号小中大 ⁄ 评论关闭原地址:http://blog.csdn.net/ ...
ionic简介
CordovaCordova是贡献给Apache后的开源项目,是从PhoneGap中抽出的核心代码,是驱动PhoneGap的核心引擎.提供了一组设备相关的API,通过这组API,移动应用能够以Java ...
hadoop记录(一)
linux基础和javase基础[包含mysql] 这些是基本功,刚开始也不可能学的很精通,最起码要对linux中的一些基本的命令混个脸熟,后面学习各种框架的时候都会用到,用多了就熟悉了.javase ...

python下载网页上公开数据集

python下载网页上公开数据集的更多相关文章

随机推荐

热门专题