首先登录珞珈一号数据系统查询想要的数据

利用浏览器审查元素获取包含下载信息的源码

将最右侧的table相关的网页源码copy到剪切板备用

利用python下载数据

## utf-8

import requests

import os

# import urllib.request

from bs4 import BeautifulSoup

from tqdm import tqdm

import pandas as pd 

def saveFile(url,fileName):

    # ''' 保存文件'''

    r = requests.get(url, stream=True)

    chunkSize = 256

    # print('dowloading...',fileName)

    with open('data/'+fileName, 'wb') as f:

        pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) ,desc = "downloading..."+fileName)

        for chunk in r.iter_content(chunk_size=chunkSize):

            if chunk: # filter out keep-alive new chunks

                pbar.update (len(chunk))

                f.write(chunk)

html = '''将table的源码粘贴到这里'''

##  get download url and file name

soup = BeautifulSoup(html)

tbody = soup.findAll('tbody')[0]

trs = tbody.findAll("tr")

data = []

for tr in trs:

    tds = tr.findAll("td")[-4:]

    temp = []

    #

    for td in tds[:-1]:

        temp.append(td.text)

    a = tds[-1].findAll("a")[-1]

##   download url

    href = "http://59.175.109.173:8888" + a["href"]

    temp.append(href)

    data.append(temp)

dataSet = pd.DataFrame(data,columns = ["weixing","chuanganqi","time","url"])

###file name

dataSet.loc[:,"fileName"] = dataSet.loc[:,"weixing"] + dataSet.loc[:,"chuanganqi"] + dataSet.loc[:,"time"] + "-" + dataSet.index.map(str) + ".tar.gz"

#### dowload

for i in tqdm(range(dataSet.shape[0])):

    # if i<start:

    #     continue

    # if i > 200:

    #     continue

    row = dataSet.loc[i,:]

    fileName = row["fileName"]

    url = row["url"]

    saveFile(url,fileName)

python爬取珞珈1号卫星数据的更多相关文章

python 爬取天猫美的评论数据
笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...
python爬取微信公众号
爬取策略 1.需要安装python selenium模块包,通过selenium中的webdriver驱动浏览器获取Cookie的方法.来达到登录的效果 pip3 install selenium c ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
python爬取安居客二手房网站数据（转）
之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...
[转]使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
Python爬取6271家死亡公司数据，一眼看尽十年创业公司消亡史！
小五利用python将其中的死亡公司数据爬取下来,借此来观察最近十年创业公司消亡史. 获取数据 F12,Network查看异步请求XHR,翻页. 成功找到返回json格式数据的url, 很多人 ...
Python 爬取大众点评 50 页数据，最好吃的成都火锅竟是它！
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python爬取上交所一年大盘数据
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 半个码农2018 PS:如有需要Python学习资料的小伙伴可以加点 ...

随机推荐

JAVA集合2--Collection架构
Collectin有两个分支:List和Set List是有序集合,可以有重复元素:而Set不允许有重复元素为了方便,抽象出AbstractCollection这个抽象类,其实现了Collectio ...
Apache Spark 章节1
作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 背景介绍 Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理. ...
MySQL命令行查询乱码解决方法
转自Agoly的博客,原文链接https://www.cnblogs.com/qmfsun/p/4846467.html 感谢博主Agoly这篇文章说的很详细很透彻. MySQL会出现中文乱码的原因不 ...
题解:[GXOI/GZOI2019]与或和
开始完全没思路在洛谷看到样例一,突发奇想,决定先做一下元素只有0/1的情况发现子任务1是全1子矩阵子任务2是总子矩阵个数减去全0子矩阵发现全0/1矩阵可以构造单调栈解决.具体做法:前缀和求出每 ...
Non-decreasing Array
Given an array with n integers, your task is to check if it could become non-decreasing by modifying ...
010_TCP queue的研究
先来回顾下三次握手里面涉及到的问题:1. 当 client 通过 connect 向 server 发出 SYN 包时,client 会维护一个 socket 等待队列,而 server 会维护一个 ...
npm install 操作
npm init node test.js$ npm install -g cnpm --registry=https://registry.npm.taobao.org (cnpm)npm inst ...
habse Region server挂掉
2019-04-28 15:57:28,355 INFO org.apache.hadoop.hbase.regionserver.HeapMemoryManager: heapOccupancyPe ...
规范开发目录及 webpack多环境打包文件配置
规范开发目录普通项目开发目录: ├── project-name ├── README.md ├── .gitignore ├── assets ├── ├── js ├── ├── css ├─ ...
python学习记录20181220
1.pycharm中,有个快捷键,输入完成后按Ctrl+Alt+L就可以自动添加空格

python爬取珞珈1号卫星数据

首先登录珞珈一号数据系统查询想要的数据

利用浏览器审查元素获取包含下载信息的源码

利用python下载数据

python爬取珞珈1号卫星数据的更多相关文章

随机推荐

热门专题