简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据

文章目录

- - 一、简介
  - 二、原理
  - 三、爬取实战
  - - 实例1
    - 实例2
    - 一、简介
      
      一般的爬虫套路无非是发送请求、获取响应、解析网页、提取数据、保存数据等步骤。构造请求主要用到requests库，定位提取数据用的比较多的有xpath和正则匹配。一个完整的爬虫，代码量少则几十行，多则百来行，对于新手来说学习成本还是比较高的。
      
      谈及pandas的read.xxx系列的函数，常用的读取数据方法为：pd.read_csv() 和 pd.read_excel()，而 pd.read_html() 这个方法虽然少用，但它的功能非常强大，特别是用于抓取Table表格型数据时，简直是个神器。无需掌握正则表达式或者xpath等工具，短短的几行代码就可以将网页数据快速抓取下来并保存到本地。
      
      二、原理
      
      pandas适合抓取Table表格型数据，先了解一下具有Table表格型数据结构的网页，举例如下：
      
      用Chrome浏览器查看网页HTML结构，会发现Table表格型数据有一些共同点，大致的网页结构如下表示。
```
<table class="..." id="..." ...>

	 ...

     <tbody>

        <tr>

            <td>...</td>

        </tr>

        <tr>...</tr>

        <tr>...</tr>

        <tr>...</tr>

        <tr>...</tr>

        ...

        <tr>...</tr>

        <tr>...</tr>

    </tbody>

</table>
```
      - 1
      - 2
      - 3
      - 4
      - 5
      - 6
      - 7
      - 8
      - 9
      - 10
      - 11
      - 12
      - 13
      - 14
      - 15
      网页具有以上结构，我们可以尝试用pandas的 pd.read_html() 方法来直接获取数据。
      
      pd.read_html() 的一些主要参数
      - io：接收网址、文件、字符串
      - header：指定列名所在的行
      - encoding：The encoding used to decode the web page
      - attrs：传递一个字典，用其中的属性筛选出特定的表格
      - parse_dates：解析日期
      三、爬取实战
      
      实例1
      
      爬取2019年成都空气质量数据(12页数据)，目标URL：http://www.tianqihoubao.com/aqi/chengdu-201901.html
```
import pandas as pd

dates = pd.date_range('20190101', '20191201', freq='MS').strftime('%Y%m')   # 构造出日期序列  便于之后构造url

for i in range(len(dates)):

    df = pd.read_html(f'http://www.tianqihoubao.com/aqi/chengdu-{dates[i]}.html', encoding='gbk', header=0)[0]

    if i == 0:

        df.to_csv('2019年成都空气质量数据.csv', mode='a+', index=False)     # 追加写入

        i += 1

    else:

        df.to_csv('2019年成都空气质量数据.csv', mode='a+', index=False, header=False)
```
      - 1
      - 2
      - 3
      - 4
      - 5
      - 6
      - 7
      - 8
      - 9
      - 10
      9行代码搞定，爬取速度也很快。
      
      查看保存下来的数据
      
      实例2
      
      抓取新浪财经基金重仓股数据(25页数据)，URL：http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p=25
```
import pandas as pd

df = pd.DataFrame()

for i in range(1, 26):

    url = f'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={i}'

    df = pd.concat([df, pd.read_html(url)[0].iloc[::,:-1]])    # 合并DataFrame  不要明细那一列

df.to_csv('新浪财经基金重仓股数据.csv', encoding='utf-8', index=False)
```
      - 1
      - 2
      - 3
      - 4
      - 5
      - 6
      - 7
      6行代码搞定，爬取速度也很快。
      
      查看保存下来的数据：
      
      之后在爬取一些小型数据时，只要遇到这种Table表格型数据，就可以先试试 pd.read_html() 大法。
    - 还有不懂的小伙伴可以加我的扣群86七06七945来请教我，有专门的老师为你解答。
    - 本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据的更多相关文章

针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息
整个程序的核心难点在于上次豆瓣爬虫针对的是静态网页,源代码和检查元素内容相同:而在12306的查找搜索过程中,其网页发生变化(出现了查找到的数据),这个过程是动态的,使得我们在审查元素中能一一对应看到 ...
python3下scrapy爬虫(第八卷:循环爬取网页多页数据）
之前我们做的数据爬取都是单页的现在我们来讲讲多页的一般方式有两种目标URL循环抓取另一种在主页连接上找规律,现在我用的案例网址就是通过点击下一页的方式获取多页资源话不多说全在代码里(因为刚才写 ...
爬虫概念与编程学习之如何爬取视频网站页面（用HttpClient）（二）
先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码运行 <!DOCTYPE html><html><head& ...
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面 ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
Java两种方式简单实现：爬取网页并且保存
注:如果代码中有冗余,错误或者不规范,欢迎指正. Java简单实现:爬取网页并且保存对于网络,我一直处于好奇的态度.以前一直想着写个爬虫,但是一拖再拖,懒得实现,感觉这是一个很麻烦的事情,出现个小错 ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...

随机推荐

搭建ssm整合
一.导入依赖二.新建java和resources目录 1.在java目录新建cn.itcat.domain包,继续添加controller,service,dao,的包 2.在domain里面创建A ...
Zookeeper集群"脑裂"问题 - 运维总结
关于集群中的"脑裂"问题,之前已经在这里详细介绍过,下面重点说下Zookeeper脑裂问题的处理办法.ooKeeper是用来协调(同步)分布式进程的服务,提供了一个简单高性能的协调 ...
Java11新特性
局部变量类型推断增强 Java11中可以在lambda表达式的形参中使用var,好处是可以在形参上加注解使用示例 (@Deprecated var x, @Nullable var y)->x ...
深夜，我偷听到程序员要对session下手……
我是一个web服务器我是一个web服务器,我的工作是给人类提供上网服务,我每天要为数以万计的人提供网页浏览服务. 已经是深夜了,我还在和手下几个兄弟为了一件事紧张讨论着. "老大,现在咱们 ...
vulnhub-Os-hackNos-2
vulnhub-Os-hackNos-2 开局扫主机,发现141是存活的,进行nmap扫描,获取端口信息. 发现22,80端口开放,进行目录爆破. 发现tsweb,浏览器访问,推测是wordpress ...
tf.split函数的用法（tensorflow1.13.0）
tf.split(input, num_split, dimension): dimension指输入张量的哪一个维度,如果是0就表示对第0维度进行切割:num_split就是切割的数量,如果是2就表 ...
使用 mysqld_safe 启动 mysqld 服务
目录 mysqld_safe 介绍启动停止 mysqld_safe 介绍 mysqld_safe is the recommended way to start a mysqld server o ...
Activiti工作流系统环境搭建
一.创建Activiti工程,并导入Activiti包及数据库驱动包二.用代码方式创建流程引擎 1 @Test 2 public void createProcessEngineWithCode( ...
Laravel Event的分析和使用
Laravel Event的分析和使用第一部分概念解释请自行查看观察者模式第二部分源码分析 (逻辑较长,不喜欢追代码可以直接看使用部分) 第三部分使用第一部分解释当一个用户阅读了一篇 ...
错误: 在类中找不到 main 方法, 请将 main 方法定义为:    public static void main(String[] args) 否则 JavaFX 应用程序类必须扩展javafx.application.Application 。
昨天在eclipse编写JAVA程序时,遇到一个问题: 错误: 在类中找不到 main 方法, 请将 main 方法定义为: public static void main(String[] a ...

简单又强大的pandas爬虫 利用pandas库的read_html()方法爬取网页表格型数据

文章目录

一、简介

二、原理

三、爬取实战

实例1

实例2

简单又强大的pandas爬虫 利用pandas库的read_html()方法爬取网页表格型数据的更多相关文章

随机推荐

热门专题

简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据

简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据的更多相关文章