使用python和tableau对数据进行抓取及可视化

使用python和tableau对数据进行抓取及可视化

本篇文章介绍使用python抓取贷款及理财平台的数据，并将数据拼接和汇总。最终通过tableau进行可视化。与之前的python爬虫文章
不同之处在于之前是一次性抓取生产数据表，本次的数据需要每天重复抓取及存储，并汇总在一起进行分析和可视化。

开始前的准备工作

开始之前先导入所需使用的库文件，各个库文件在整个抓取和拼表过程中负责不同的部分。Requests负责页面抓取，re负责从抓取下

来的页面中提取有用的信息，pandas负责拼接并生成数据表以及最终的数据表导出。

#导入requests库(请求和页面抓取)

import requests

#导入正则库(从页面代码中提取信息)

import re

#导入科学计算库(拼表及各种分析汇总)

import pandas as pd



设置一个头文件信息，方便后面的抓取。这个头文件有两个作用，第一防止抓取时被封，第二方便后面对页面源文件的转码。

#设置请求中头文件的信息

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1)
AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64

Safari/537.11',

'Accept':'text/html;q=0.9,**;q=0.8',

'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

'Connection':'close',

'Referer':'https://www.bluewhale.cc/'

}

r=requests.get('http://www.p2peye.com/shuju/ptsj/',headers=headers)

status=r.status_code

if status == 200:

print('页面抓取状态正常。')

else:

os._exit(0)

html=r.content

html=str(html, encoding = "GBK")

print('编码转换完成！')

title=re.findall(r'"return false".*?title="(.*?)"',html)

total=re.findall(r'"total">(.*?)万<',html)

rate=re.findall(r'"rate">(.*?)<',html)

pnum=re.findall(r'"pnum">(.*?)人<',html)

cycle=re.findall(r'"cycle">(.*?)月<',html)

p1num=re.findall(r'"p1num">(.*?)人<',html)

fuload=re.findall(r'"fuload">(.*?)分钟<',html)

alltotal=re.findall(r'"alltotal">(.*?)万<',html)

capital=re.findall(r'"capital">(.*?)万<',html)

date=time.strftime('%Y-%m-%d',time.localtime(time.time()))

print('数据提取完成！')

columns =
['采集日期','平台名称','成交额(万)','综合利率','投资人(人)','借款周期(月)','借款人(人)','满标速度(分

钟)','累计贷款余额(万)','净资金流入(万)']

table=pd.DataFrame({'采集日期':date,

'平台名称':title,

'成交额(万)':total,

'综合利率':rate,

'投资人(人)':pnum,

'借款周期(月)':cycle,

'借款人(人)':p1num,

'满标速度(分钟)':fuload,

'累计贷款余额(万)':alltotal,

'净资金流入(万)':capital},

columns=columns)

print('数据表创建完成！')

table.to_csv('C:\\Users\\cliffwang\\Desktop\\wdty' date
'.csv',index=False)

print(date '日数据导出完毕！')

table.to_csv('wdty.csv',index=False,mode='a')

print('累计数据追加导出完毕！')

end = time.clock()

print ("执行时间: %f s" % (end-start))



自定义函数写好后，每次只需要执行loan_data()就可以完成之前的30 步骤的工作了。下面是代码和输出的状态信息以及代码执行时
间信息。

loan_data()

页面抓取状态正常。

编码转换完成！

数据提取完成！

数据表创建完成！

2017-04-19日数据导出完毕！

累计数据追加导出完毕！

执行时间: 0.933262 s



使用tableau进行可视化

导出的数据虽然为csv格式，但使用excel进行可视化并不理想，主要问题在于excel对图表行列数的限制(每张图最多只能容纳255个数
量列)。因此，我们将数据表导入到tableau中进行可视化。下面是对600 家网贷平台数据的可视化截图。尺寸为各平台总成交额，颜色为综合利率。

使用python和tableau对数据进行抓取及可视化的更多相关文章

[Python] 糗事百科文本数据的抓取
[Python] 糗事百科文本数据的抓取源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time im ...
[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...
Python开源爬虫项目代码：抓取淘宝、京东、QQ、知网数据--转
数据来源:数据挖掘入门与实战公众号: datadw scrapy_jingdong[9]- 京东爬虫.基于scrapy的京东网站爬虫,保存格式为csv.[9]: https://github.co ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
python实现一个栏目的分页抓取列表页抓取
python实现一个栏目的分页抓取列表页抓取 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import Beautifu ...
HTTPS数据包抓取的可行性分析
HTTPS数据包抓取的可行性分析相信只要是从事软件开发, 多多少少都会涉及到数据包的抓取.常见的有网页数据抓取(即网页爬虫),应用程序数据包抓取等.网页数据抓取比较简单, 在chrome下可以非常方 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
6 wireshark 安装使用数据包抓取
1.wireshark安装 2.开始使用 3.界面详情 4. 数据包抓取 5.过滤数据
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...

随机推荐

LinkedHashMap+Spring Aop实现简易的缓存系统
之前介绍说要做在线文库的系统,当数据量大的时候,根据标签tag的对文档信息的查询将是一个很耗时的工作,原来分析LinkedHashMap源码的时候了解到它有一个双向链表的结构,可以通过将刚被访问的元素 ...
Leetcode976. Largest Perimeter Triangle三角形的最大周长
给定由一些正数(代表长度)组成的数组 A,返回由其中三个长度组成的.面积不为零的三角形的最大周长. 如果不能形成任何面积不为零的三角形,返回 0. 示例 1: 输入:[2,1,2] 输出:5 示例 2 ...
使用navicat 使用IP、用户名、密码直接连接linux服务器里面的数据库
一般新申请的服务器,没有开通3306端口的吧,反正我遇到的,要用Navicat去连接linux下的数据库,都必须填写两个地方的信息,才能链接成功. 如果想要只通过填写ip还有数据库用户名还有密码就可以 ...
thinkphp 包含文件
在当前模版文件中包含其他的模版文件使用include标签,标签用法: <include file='模版表达式或者模版文件1,模版表达式或者模版文件2,...' /> 博智达直线电机价格 ...
Maven远程仓库地址修改(精)
国内最快的maven镜像阿里云maven镜像 <repositories> <repository> <id>spring-snapshots</id&g ...
SpringCloud网关无法加载权限及IP黑名单白名单
启动springcloud服务注册中心base,再启动网关远程调用base的接口读取权限等数据,控制台出现加载null权限ERROR提示.在远程调用处打断点,先进入代理,找到抛出异常的原因是reque ...
[Codeplus 4月赛]最短路
题意:理论上是给定一张完全图,有边权,在给一些单向边求最短路. 思路: 我充分体会到了我图论的菜. 理论上建图肯定是不能\(n^2\)的,考虑如何优化呢? 将边权异或值二进制替换,最后一遍最短路就行, ...
SpringBoot--springboot启动类和controller的配置
作为一个springboot初学者,在探索过程中难免遇到一些坑,边看书边动手,发现书本中的版本是1.0,而我使用的是最新版2.0,所以有些东西不能完全按照书本进行操作,因为2.0中已经不支持1.0中的 ...
<Django> 高级（其他知识点）
1. 管理静态文件什么是静态文件? 项目中的CSS.图片.js都是静态文件配置静态文件(settings.py) # Static files (CSS, JavaScript, Images) ...
13-7-return的高级使用
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

使用python和tableau对数据进行抓取及可视化

使用python和tableau对数据进行抓取及可视化的更多相关文章

随机推荐

热门专题