Python 项目实践二(下载数据)第四篇
接着上节继续学习,在本节中,你将下载JSON格式的人口数据,并使用json模块来处理它们。Pygal提供了一个适合初学者使用的地图创建工具,你将使用它来对人口数据进行可视化,以探索全球人口的分布情况。
一 制作世界人口地图
1 下载世界人口数据和提取相关的数据
可以去(http://data.okfn.org/)下载population_data.json,来研究一下population_data.json,看看如何着手处理这个文件中的数据:
[ { "Country Name": "Arab World", "Country Code": "ARB", "Year": "1960", "Value": "96388069" }, { "Country Name": "Arab World", "Country Code": "ARB", "Year": "1961", "Value": "98882541.4" }, 省略。。。。 }
这个文件实际上就是一个很长的Python列表,其中每个元素都是一个包含四个键的字典:国家名、国别码、年份以及表示人口数量的值。我们只关心每个国家2010年的人口数量,因此我们首先编写一个打印这些信息的程序:
import json #将数据加载到一个列表中 filename= 'population_data.json' with open(filename) as f : pop_data = json.load(f) for pop_dic in pop_data : if pop_dic["Year"] == '2010' : country_name= pop_dic['Country Name'] population = pop_dic['Value'] print(country_name + ":" + population)
结果如下:
2 将字符串转换为数字值
population_data.json中的每个键和值都是字符串。为处理这些人口数据,我们需要将表示人口数量的字符串转换为数字值,为此我们使用函数int():
population = int(pop_dic['Value']) print(country_name + ":" + str(population))
然而,对于有些值,这种转换会导致错误,如下所示:
===== RESTART: D:/study/python/code/world_population/world_population.py ===== Arab World:357868000 Caribbean small states:6880000 East Asia & Pacific (all income levels):2201536674 East Asia & Pacific (developing only):1961558757 Euro area:331766000 Europe & Central Asia (all income levels):890424544 Europe & Central Asia (developing only):405204000 European Union:502125000 Heavily indebted poor countries (HIPC):635663000 Traceback (most recent call last): File "D:/study/python/code/world_population/world_population.py", line 12, in <module> population = int(pop_dic['Value']) ValueError: invalid literal for int() with base 10: '1127437398.85751' >>>
导致上述错误的原因是,Python不能直接将包含小数点的字符串'1127437398.85751'转换为整数(这个小数值可能是人口数据缺失时通过插值得到的)。为消除这种错误,我们先将字符串转换为浮点数,再将浮点数转换为整数:
population = int(float(pop_dict['Value']))
函数float()将字符串转换为小数,而函数int()丢弃小数部分,返回一个整数。每个字符串都成功地转换成了浮点数,再转换为整数。以数字格式存储人口数量值后,就可以使用它们来制作世界人口地图了。
三 获取两个字母的国别码
制作地图前,还需要解决数据存在的最后一个问题。Pygal中的地图制作工具要求数据为特定的格式:用国别码表示国家,以及用数字表示人口数量。处理地理政治数据时,经常需要用到几个标准化国别码集。population_data.json中包含的是三个字母的国别码,但Pygal使用两个字母的国别码。我们需要想办法根据国家名获取两个字母的国别码。Pygal使用的国别码存储在模块i18n(internationalization的缩写)中。字典COUNTRIES包含的键和值分别为两个字母的国别码和国家名。要查看这些国别码,可从模块i18n中导入这个字典,并打印其键和值:
from pygal.i18n import COUNTRIES for country_code in sorted(COUNTRIES.keys()): print(country_code, COUNTRIES[country_code])
报错:
======== RESTART: D:/study/python/code/world_population/countries.py ======== Traceback (most recent call last): File "D:/study/python/code/world_population/countries.py", line 1, in <module> from pygal.i18n import COUNTRIES ModuleNotFoundError: No module named 'pygal.i18n' >>>
原因和解决方案:
The i18n module was removed in pygal-2.0.0, however, it can now be found in the pygal_maps_world plugin. You can install that with pip install pygal_maps_world. Then you can access COUNTRIES as pygal.maps.world.COUNTRIES: from pygal.maps.world import COUNTRIES
按上面的操作:
from pygal.maps.world import COUNTRIES for country_code in sorted(COUNTRIES.keys()): print(country_code, COUNTRIES[country_code])
结果如下:
为获取国别码,我们将编写一个函数,它在COUNTRIES中查找并返回国别码。我们将这个函数放在一个名为country_codes的模块中,以便能够在可视化程序中导入它:
from pygal.maps.world import COUNTRIES def get_country_code(country_name): #根据指定的国家,返回Pygal使用的两个字母的国别码 for code,name in COUNTRIES.items(): if name == country_name : return code # 如果没有找到指定的国家,就返回None return None print(get_country_code('Andorra')) print(get_country_code('United Arab Emirates')) print(get_country_code('Afghanistan'))
结果如下:
======= RESTART: D:/study/python/code/world_population/contry_codes.py ======= ad ae af >>>
接下来,在world_population.py中导入get_country_code:
import json from country_codes import get_country_code #将数据加载到一个列表中 filename= 'population_data.json' with open(filename) as f : pop_data = json.load(f) # 打印每个国家2010年的人口数量 for pop_dic in pop_data : if pop_dic["Year"] == '2010' : country_name= pop_dic['Country Name'] population = int(float(pop_dic['Value'])) code =get_country_code(country_name) if code : print(code + ":" + str(population)) else : print("ERROR -" + country_name)
结果如下:
导致显示错误消息的原因有两个。首先,并非所有人口数量对应的都是国家,有些人口数量对应的是地区(阿拉伯世界)和经济类群(所有收入水平)。其次,有些统计数据使用了不同的完整国家名(如Yemen, Rep.,而不是Yemen)。当前,我们将忽略导致错误的数据,看看根据成功恢复了的数据制作出的地图是什么样的。
3 绘制世界地图
有了国别码后,制作世界地图易如反掌。Pygal提供了图表类型Worldmap,可帮助你制作呈现各国数据的世界地图。为演示如何使用Worldmap,我们来创建一个突出北美、中美和南美的简单地图:
import pygal #此处书中的代码已过时,请用最新的。 wm = pygal.maps.world.World() wm.title = 'North, Central, and South America' wm.add('North America', ['ca', 'mx', 'us']) wm.add('Central America', ['bz', 'cr', 'gt', 'hn', 'ni', 'pa', 'sv']) wm.add('South America', ['ar', 'bo', 'br', 'cl', 'co', 'ec', 'gf', 'gy', 'pe', 'py', 'sr', 'uy', 've']) wm.render_to_file('americas.svg')
(1)我们创建了一个Worldmap实例,并设置了该地图的的title属性
(2)了方法add(),它接受一个标签和一个列表,其中后者包含我们要突出的国家的国别码。每次调用add()都将为指定的国家选择一种新颜色,并在图表左边显示该颜色和指定的标签。我们要以同一种颜色显示整个北美地区,因此第一次调用add()时,在传递给它的列表中包含'ca'、'mx'和'us',以同时突出加拿大、墨西哥和美国。接下来,对中美和南美国家做同样的处理。
(3)方法render_to_file()创建一个包含该图表的.svg文件,你可以在浏览器中打开它。输出是一幅以不同颜色突出北美、中美和南美的地图,如下图:
4 绘制完整的世界人口地图
要呈现其他国家的人口数量,需要将前面处理的数据转换为Pygal要求的字典格式:键为两个字母的国别码,值为人口数量。为此,在world_population.py中添加如下代码:
import json from country_codes import get_country_code import pygal #将数据加载到一个列表中 filename= 'population_data.json' with open(filename) as f : pop_data = json.load(f) cc_populations ={} for pop_dict in pop_data : if pop_dict['Year'] == '2010' : country_name= pop_dict['Country Name'] population = int(float(pop_dict['Value'])) code =get_country_code(country_name) if code : cc_populations[code] = population wm = pygal.maps.world.World() wm.title="World Population in 2010,by Country" wm.add('2010',cc_populations) wm.render_to_file("world_population.svg")
如下图:
5根据人口数量将国家分组
印度和中国的人口比其他国家多得多,但在当前的地图中,它们的颜色与其他国家差别较小。中国和印度的人口都超过了10亿,接下来人口最多的国家是美国,但只有大约3亿。下面不将所有国家都作为一个编组,而是根据人口数量分成三组——少于1000万的、介于1000万和10亿之间的以及超过10亿的。
import json from country_codes import get_country_code import pygal #将数据加载到一个列表中 filename= 'population_data.json' with open(filename) as f : pop_data = json.load(f) cc_populations ={} for pop_dict in pop_data : if pop_dict['Year'] == '2010' : country_name= pop_dict['Country Name'] population = int(float(pop_dict['Value'])) code =get_country_code(country_name) if code : cc_populations[code] = population # 根据人口数量将所有的国家分成三组 cc_pops_1, cc_pops_2, cc_pops_3 = {}, {}, {} for cc, pop in cc_populations.items(): if pop < 10000000: cc_pops_1[cc] = pop elif pop < 1000000000: cc_pops_2[cc] = pop else: cc_pops_3[cc] = pop # 看看每组分别包含多少个国家 print(len(cc_pops_1), len(cc_pops_2), len(cc_pops_3)) wm = pygal.maps.world.World() wm.title="World Population in 2010,by Country" #wm.add('2010',cc_populations) wm.add('0-10m', cc_pops_1) wm.add('10m-1bn', cc_pops_2) wm.add('>1bn', cc_pops_3) wm.render_to_file("world_population.svg")
结果如下:
现在使用了三种不同的颜色,让我们能够看出人口数量上的差别。在每组中,各个国家都按人口从少到多着以从浅到深的颜色。
6 使用Pygal设置世界地图的样式
在这个地图中,根据人口将国家分组虽然很有效,但默认的颜色设置很难看。例如,在这里,Pygal选择了鲜艳的粉色和绿色基色。下面使用Pygal样式设置指令来调整颜色。我们也让Pygal使用一种基色,但将指定该基色,并让三个分组的颜色差别更大:
import json from country_codes import get_country_code import pygal from pygal.style import RotateStyle #将数据加载到一个列表中 filename= 'population_data.json' with open(filename) as f : pop_data = json.load(f) cc_populations ={} for pop_dict in pop_data : if pop_dict['Year'] == '2010' : country_name= pop_dict['Country Name'] population = int(float(pop_dict['Value'])) code =get_country_code(country_name) if code : cc_populations[code] = population # 根据人口数量将所有的国家分成三组 cc_pops_1, cc_pops_2, cc_pops_3 = {}, {}, {} for cc, pop in cc_populations.items(): if pop < 10000000: cc_pops_1[cc] = pop elif pop < 1000000000: cc_pops_2[cc] = pop else: cc_pops_3[cc] = pop # 看看每组分别包含多少个国家 print(len(cc_pops_1), len(cc_pops_2), len(cc_pops_3)) wm_style=RotateStyle('#336699') wm = pygal.maps.world.World(style=wm_style) wm.title="World Population in 2010,by Country" #wm.add('2010',cc_populations) wm.add('0-10m', cc_pops_1) wm.add('10m-1bn', cc_pops_2) wm.add('>1bn', cc_pops_3) wm.render_to_file("world_population.svg")
Pygal样式存储在模块style中,我们从这个模块中导入了样式RotateStyle。创建这个类的实例时,需要提供一个实参——十六进制的RGB颜色;Pygal将根据指定的颜色为每组选择颜色。十六进制格式的RGB颜色是一个以井号(#)打头的字符串,后面跟着6个字符,其中前两个字符表示红色分量,接下来的两个表示绿色分量,最后两个表示蓝色分量。每个分量的取值范围为00(没有相应的颜色)~FF(包含最多的相应颜色)。如果你在线搜索hex color chooser(十六进制颜色选择器),可找到让你能够尝试选择不同的颜色并显示其RGB值的工具。这里使用的颜色值(#336699)混合了少量的红色(33)、多一些的绿色(66)和更多一些的蓝色(99),它为RotateStyle提供了一种淡蓝色基色。
效果如下图:
7 加亮颜色主题
Pygal通常默认使用较暗的颜色主题。为方便印刷,我使用LightColorizedStyle加亮了地图的颜色。这个类修改整个图表的主题,包括背景色、标签以及各个国家的颜色。要使用这个样式,先导入它:
from pygal.style import LightColorizedStyle, RotateStyle
再使用RotateStyle创建一种样式,并传入另一个实参base_style:
wm_style = RotateStyle('#336699', base_style=LightColorizedStyle)
最后的代码和效果图如下:
import json from country_codes import get_country_code import pygal from pygal.style import RotateStyle,LightColorizedStyle #将数据加载到一个列表中 filename= 'population_data.json' with open(filename) as f : pop_data = json.load(f) cc_populations ={} for pop_dict in pop_data : if pop_dict['Year'] == '2010' : country_name= pop_dict['Country Name'] population = int(float(pop_dict['Value'])) code =get_country_code(country_name) if code : cc_populations[code] = population # 根据人口数量将所有的国家分成三组 cc_pops_1, cc_pops_2, cc_pops_3 = {}, {}, {} for cc, pop in cc_populations.items(): if pop < 10000000: cc_pops_1[cc] = pop elif pop < 1000000000: cc_pops_2[cc] = pop else: cc_pops_3[cc] = pop # 看看每组分别包含多少个国家 print(len(cc_pops_1), len(cc_pops_2), len(cc_pops_3)) wm_style=RotateStyle('#336699',base_style=LightColorizedStyle) wm = pygal.maps.world.World(style=wm_style) wm.title="World Population in 2010,by Country" #wm.add('2010',cc_populations) wm.add('0-10m', cc_pops_1) wm.add('10m-1bn', cc_pops_2) wm.add('>1bn', cc_pops_3) wm.render_to_file("world_population.svg")
未完待续,今天是元旦节第二天,加油!
Python 项目实践二(下载数据)第四篇的更多相关文章
- Python 项目实践二(下载数据)第三篇
接着上节继续学习,在本章中,你将从网上下载数据,并对这些数据进行可视化.网上的数据多得难以置信,且大多未经过仔细检查.如果能够对这些数据进行分析,你就能发现别人没有发现的规律和关联.我们将访问并可视化 ...
- Python 项目实践二(生成数据)第二篇之随机漫步
接着上节继续学习,在本节中,我们将使用Python来生成随机漫步数据,再使用matplotlib以引人瞩目的方式将这些数据呈现出来.随机漫步是这样行走得到的路径:每次行走都完全是随机的,没有明确的方向 ...
- Python 项目实践二(生成数据)第二篇
接着上节继续学习,在本节中,我们将使用Python来生成随机漫步数据,再使用matplotlib以引人瞩目的方式将这些数据呈现出来.随机漫步是这样行走得到的路径:每次行走都完全是随机的,没有明确的方向 ...
- Python 项目实践二(生成数据)第一篇
上面那个小游戏教程写不下去了,以后再写吧,今天学点新东西,了解的越多,发现python越强大啊! 数据可视化指的是通过可视化表示来探索数据,它与数据挖掘紧密相关,而数据挖掘指的是使用代码来探索数据集的 ...
- Python 项目实践一(外星人入侵)第一篇
python断断续续的学了一段实践,基础课程终于看完了,现在跟着做三个小项目,第一个是外星人入侵的小游戏: 一 Pygame pygame 是一组功能强大而有趣的模块,可用于管理图形,动画乃至声音,让 ...
- Python 项目实践一(外星人入侵)第二篇
接着上次的继续学习. 一 创建一个设置类 每次给游戏添加新功能时,通常也将引入一些新设置.下面来编写一个名为settings的模块,其中包含一个名为Settings的类,用于将所有设置存储在一个地方, ...
- [转]ionic项目之上传下载数据
本文转自:http://blog.csdn.net/superjunjin/article/details/44158567 一,首先是上传数据 记得在angularjs的controller中注入$ ...
- windows使用python调用wget批处理下载数据
wget是linux/unix下通常使用的下载http/ftp的数据,使用非常方便,其实wget目前经过编译,也可在windows下使用.最近需要下载大量的遥感数据,使用了python写了批处理下载程 ...
- Python 项目实践三(Web应用程序)第四篇
接着上节继续学习,本章将建立用户账户 Web应用程序的核心是让任何用户都能够注册账户并能够使用它,不管用户身处何方.在本章中,你将创建一些表单,让用户能够添加主题和条目,以及编辑既有的条目.你还将学习 ...
随机推荐
- Java中的回调
又忙了一周,事情差不多解决了,终于有可以继续写我的博客了(各位看官久等了). 这次我们来谈一谈Java里的一个很有意思的东西--回调. 什么叫回调,一本正经的来讲,在计算机程序设计中,回调函数是指通过 ...
- 乐呵乐呵得了 golang入坑系列
开场就有料,今天返回去看了看以前的文章,轻松指数有点下降趋势.一琢磨,这不是我的风格呀.一反思,合着是这段时间,脑子里杂七杂八的杂事有点多,事情一多,就忘了快乐.古话说得好:愁也一天,乐也一天,只要还 ...
- 推荐一款基于bootstrap的漂亮的前端模板—inspinia_admin
首先给出Demo网址:http://cn.inspinia.cn inspinia admin 最新版 bootstrap 完全响应式后台管理模板,采用扁平化设计.使用Bootstrap 3+ Fra ...
- 网站图片挂马检测及PHP与python的图片文件恶意代码检测对比
前言 周一一早网管收到来自阿里云的一堆警告,发现我们维护的一个网站下有数十个被挂马的文件.网管直接关了vsftpd,然后把警告导出邮件给我们. 取出部分大致如下: 服务器IP/名称 木马文件路径 更新 ...
- 机器学习算法 - 最近邻规则分类KNN
上节介绍了机器学习的决策树算法,它属于分类算法,本节我们介绍机器学习的另外一种分类算法:最近邻规则分类KNN,书名为k-近邻算法. 它的工作原理是:将预测的目标数据分别跟样本进行比较,得到一组距离的数 ...
- Code Kata:超级偶数数列 javascript实现
超级偶数(SuperEven)是指每一位都是偶数的正整数,例如: 0,2,4,6,8,20,22,24,26,28,40,...,88,200,202,... 要求写一个函数,输入项数n,返回数列第n ...
- Docker理解
近期一直在研究Docker,感悟颇深,和大家分享一下Docker 在云计算中的应用和Docker的原理. Docker 用法https://yeasy.gitbooks.io/docker_pract ...
- c# textbox的滚动条总是指向最底端
当我第一次添加滚动条时候,我发现滚动条总是跑向上方,经过研究 解决方案如下: this.textBox1.Focus(); 获取焦点 this.textBox1.Select(this.textBox ...
- 适合Linux新手的发行版有哪些?
一个很古老的问题,找到适合的 Linux 发行版比简单的指出哪种 Linux 版本受欢迎更重要.为什么这么说?让我们设置一个情景:你有一位用户,很有可能,他过去大多数时候都是在 Windows 或者 ...
- 高效管理http连接
1.Http连接基础 Http协议承载了互联网上的主要流量,然而说到传输,还要回归到最基本的网络分层模型TCP/IP.TCP/IP是全球计算机及网络设备都在使用的一种常用的分组交互网络分层协议集.客户 ...