数据科学中的R和Python: 30个免费数据资源网站
1 政府数据
- Data.gov:这是美国政府收集的数据资源。声称有多达40万个数据集,包括了原始数据和地理空间格式数据。使用这些数据集需要注意的是:你要进行必要的清理工作,因为许多数据是字符型的或是有缺失值。
- Socrata:它是探索政府相数据的另一个好地方。Socrata的一个了不起的地方是,他们有不错的可视化工具,使研究数据更为容易。
- 一些城市都有自己的数据门户网站设置,可供访问者浏览城市的相关数据。例如,在旧金山数据网站,你可以获得很多数据,从犯罪统计到城市的停车位。
- 联合国有关网站,例如世界卫生组织提供了丰富的数据资源,从死亡率到世界饥饿统计数字。
- 美国人口普查局也有相当多的生活数据,例如收入、种族、教育、人口和商业信息。
2 集成数据
这些网站已经从各种地方收集了相当多的数据。有时更容易从这里找到好东西。
- Programmable Web:这是一个探索各类API的好地方。
- infofochimps:提供了一个数据集市,其中有大量的公开数据资源和API资源。类别非常广泛,从Twitter到地理位置数据。用户甚至可以上传自己的数据。
- Data Market:这也是一个好地方,数据包括了经济,医疗保健,食品和农业,汽车行业相关的数据。
- Google Public data explorer:谷歌公共数据浏览容纳大量的数据,从世界发展指标、经合组织和人类发展指标,主要是有关经济数据。
- Junar:这也是一个很好的提供的数据抓取和传送服务的网站。
- Buzzdata:这是一个提供数据共享服务的网站,它允许用户上传自己的数据和连接。
3 社交网络数据
通常情况下要得到社交数据,需要依赖社交网站本身提供的API数据。
- Twitter:你可以访问Twitter API,但其用途相当有限,Twitter API有一个获取数据的限制。如果需要更多信息,可以去看看Gnip或者PeopleBrowsr,DataSift。
- Foursquare:他们有自己的API,你也可以通过Infochimps得到它。
- Facebook:Facebook的图形API是Facebook的最佳资源。
- Face.com:一个提供面部识别数据的工具。
4 气象数据
- Wunderground:这里提供了详细的天气信息,可以用邮政编码或城市名称来搜索历史数据。它提供了温度、风速、降水等信息。
- Weatherbase:有详细的天气统计数据,近27000个城市的温度,降雨和湿度。
5 体育数据
下面三个网站都提供球队、球员、教练和经理的全面信息。
6 高校和科研
针对在某一领域的学者工作进行搜索是获取数据的有效方法。如果你想在一份研究报告中用一份相关数据,最好的办法是直接联系有关专业的大学教授。
加州大学洛杉矶分校提供了一些在其课程中使用的数据集。
7 新闻资料
- The New York Times:它有一个很好的API和资源管理器访问任何出版物中的文章。
- The Guardian Data Blog:卫报的数据博客会定期提供一些数据可视化的文章,其数据可通过Google文档格式下载。
下面是笔者的补充:
最后推荐一本小册子:数据源手册。该书主要介绍了几十种非常有用的API和相关网站,值得一读。你知道在哪下载的。
from:http://xccds1977.blogspot.com/2012/04/30.html
补充:
数据免费开放计划-聚合数据
数据科学中的R和Python: 30个免费数据资源网站的更多相关文章
- 数据科学实战手册(R+Python)书中引用资料网址
本文会持续将<数据科学实战手册(R+Python)>一书中的附带参考资料网址手打出来, 方便访问. 由于书中的参考资料网址太多, 这个文档将可能花费一段时间才能完成. 第一章 P7 Rs ...
- 人工智能第三课:数据科学中的Python
我用了两天左右的时间完成了这一门课<Introduction to Python for Data Science>的学习,之前对Python有一些基础,所以在语言层面还是比较顺利的,这门 ...
- 数据科学中的常见的6种概率分布(Python实现)
作者:Pier Paolo Ippolito@南安普敦大学 编译:机器学习算法与Python实战(微信公众号:tjxj666) 原文:https://towardsdatascience.com/pr ...
- 数据科学中需要知道的5个关于奇异值分解(SVD)的应用
介绍 "Another day has passed, and I still haven't used y = mx + b." 这听起来是不是很熟悉?我经常听到我大学的熟人抱怨 ...
- (数据科学学习手札90)Python+Kepler.gl轻松制作时间轮播图
本文示例代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 Kepler.gl作为一款强大的开源地理信 ...
- 根据start和limit从已有的数据列表中获取从start开始的limit个数据
代码记录(需求:根据start和limit从已有的数据列表中获取从start开始的limit个数据) 已有的数据列表:这个数据列表是经过处理的,可能是在SQL查询时无法处理的如多条件排序,而排序条件需 ...
- (数据科学学习手札32)Python中re模块的详细介绍
一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...
- (数据科学学习手札116)Python+Dash快速web应用开发——交互表格篇(中)
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 这是我的系列教程Python+Dash快速web ...
- (数据科学学习手札126)Python中JSON结构数据的高效增删改操作
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一期文章中我们一起学习了在Python ...
随机推荐
- 「工具」三分钟了解一款思维导图工具:XMind Zen
一款非常实用的商业思维导图软件,融合艺术与创造力.致力于高效的可视化思维,强调软件的跨平台使用,帮助用户提高生产效率. 相关信息 · 操作系统:macOS / Windows / Linux · 官方 ...
- 【BZOJ4031】【Luogu P4111】[HEOI2015]小Z的房间
裸的矩阵树定理.求行列式的时候答案要在中间统计,因为交换两个行会使答案取反. #include <bits/stdc++.h> using namespace std; const int ...
- PHP---pdo和mongodb的操作使用
<?php $pdo = new PDO("mysql:host=127.0.0.1;dbname=testdb","root","123456 ...
- php内置函数,时间函数,字符串函数
字符数----某一种编码下的一个文字 字节数----8位的0或1或者混合组成:显然字节占的空间大,显然一个字符至少占有一个字节,中文在utf-8至少占用3个也有可能4个字节 由上图可见,substr( ...
- hiho #1066 : 无间道之并查集
#1066 : 无间道之并查集 时间限制:20000ms 单点时限:1000ms 内存限制:256MB 描述 这天天气晴朗.阳光明媚.鸟语花香,空气中弥漫着春天的气息……额,说远了,总之,小Hi和小H ...
- 【JZOJ5428】【NOIP2017提高A组集训10.27】查询
题目 给出一个长度为n的序列a[] 给出q组询问,每组询问形如\(<x,y>\),求a序列的所有区间中,数字x的出现次数与数字y的出现次数相同的区间有多少个. 分析 我们可以维护一个前缀和 ...
- 红黑树(RB-tree)比AVL树的优势在哪?
1. 如果插入一个node引起了树的不平衡,AVL和RB-Tree都是最多只需要2次旋转操作,即两者都是O(1):但是在删除node引起树的不平衡时,最坏情况下,AVL需要维护从被删node到root ...
- poj 1064 高精度 二分
Cable master Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 32191 Accepted: 6888 Descrip ...
- 一些简单题(1)(Source : NOIP历年试题+杂题)
最近也写了些许题目吧,还是写写博客,捋捋思路. P2216 [HAOI2007]理想的正方形 求一个$a \times b(a,b \leq 10^3)$的矩阵,求出一个$n \times n (n ...
- Luogu2000 拯救世界
题目链接:戳我 生成函数的入门题吧. 我们可以把条件限制转化为生成函数,然后用第i项的系数来表示一共使用n块石头的方案个数. (你问我为什么?你可以自己演算一下,或者去看大佬的博客-->这里面讲 ...