一、本节用到的基础知识

1.逐行读取文件

  1. for line in open('E:\Demo\python\json.txt'):
  2. print line

2.解析json字符串

Python中有一些内置模块可以非常便捷地将json字符串转换为Python对象。比如json模块中的json.relaods()方法可以将json字符串解析为相应的字典。

  1. import json
  2.  
  3. s='{ "a": "GoogleMaps\/RochesterNY", "c": "US", "nk": 0, "tz": "America\/Denver", "gr": "UT", "g": "mwszkS", "h": "mwszkS", "l": "bitly", "hh": "1.usa.gov", "r": "http:\/\/www.AwareMap.com\/", "u": "http:\/\/www.monroecounty.gov\/etc\/911\/rss.php", "t": 1331926741, "hc": 1308262393, "cy": "Provo", "ll": [ 40.218102, -111.613297 ] }'
  4. o=json.loads(s)
  5. print o

运行结果:

  1. {u'a': u'GoogleMaps/RochesterNY', u'c': u'US', u'nk': 0, u'tz': u'America/Denver', u'gr': u'UT', u'g': u'mwszkS', u'h': u'mwszkS', u'cy': u'Provo', u'l': u'bitly', u'hh': u'1.usa.gov', u'r': u'http://www.AwareMap.com/', u'u': u'http://www.monroecounty.gov/etc/911/rss.php', u't': 1331926741, u'hc': 1308262393, u'll': [40.218102, -111.613297]}

3.列表生成式

详见:http://www.cnblogs.com/janes/p/5530979.html

二、将json文件解析为字典列表

要对json文件进行分析,首先我们逐行读取该文件,并把每行转换成对应的字典对象,然后组成一个列表。

  1. import json
  2. #读取文件并解析为字典组成的列表
  3. dicList=[json.loads(line) for line in open('E:\Demo\python\json.txt')]
  4. #打印第一个字典元素
  5. print dicList[0]
  6. #打印第一个元素中的时区
  7. print dicList[0]['tz']

运行结果:

{u'a': u'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.78 Safari/535.11', u'c': u'US', u'nk': 1, u'tz': u'America/New_York', u'gr': u'MA', u'g': u'A6qOVH', u'h': u'wfLQtf', u'cy': u'Danvers', u'l': u'orofrog', u'al': u'en-US,en;q=0.8', u'hh': u'1.usa.gov', u'r': u'http://www.facebook.com/l/7AQEFzjSi/1.usa.gov/wfLQtf', u'u': u'http://www.ncbi.nlm.nih.gov/pubmed/22415991', u't': 1331923247, u'hc': 1331822918, u'll': [42.576698, -70.954903]}

America/New_York

三、利用Python标准库统计json文件中的时区数据

1.首先将所有时区数据放在一个列表中

  1. #获取所有时区数据
  2. timezones=[item['tz'] for item in dicList if 'tz' in item]
  3. #测试打印前五条
  4. print timezones[0:5]

运行结果:

[u'America/New_York', u'America/Denver', u'America/New_York', u'America/Sao_Paulo', u'America/New_York']

2.然后将时区列表转换为时区计数字典,key为时区名,value为出现次数。

  1. #自定义函数,统计时区出现次数
  2. def countZone(timezones):
  3. count_zone={}
  4. for tz in timezones:
  5. if(tz in count_zone):
  6. count_zone[tz]+=1
  7. else:
  8. count_zone[tz]=1
  9. return count_zone
  10.  
  11. #自定义函数,返回top N
  12. def countTop(dicCount,n):
  13. valueKeyItems=[(value,key) for key,value in dicCount.items()]
  14. valueKeyItems.sort()
  15. return valueKeyItems[-n:]
  16.  
  17. #测试并打印出现次数最多的5个时区
  18. count=countZone(timezones)
  19. print countTop(count,5)

运行结果:

[(191, u'America/Denver'), (382, u'America/Los_Angeles'), (400, u'America/Chicago'), (521, u''), (1251, u'America/New_York')]

3.利用defaultdict简化函数countZone函数

Python标准库collections对一些数据结构进行了拓展操作,使用起来更加便捷,其中defaultdict可以给字典赋值默认value。

  1. from collections import defaultdict,Counter
  2. def countZone(timezones):
  3. count_zone=defaultdict(int)
  4. for tz in timezones:
  5. count_zone[tz]+=1
  6. return count_zone

4.利用collections.Counter简化countTop函数

  1. from collections import Counter
  2.  
  3. def countTop(dicCount,n):
  4. return Counter(dicCount).most_common(n)

5.完整代码

  1. # -*- coding: utf-8 -*-
  2. import json
  3. #1.读取文件并转换为字典列表
  4. #读取文件并解析为字典组成的列表
  5. dicList=[json.loads(line) for line in open('E:\Demo\python\json.txt')]
  6.  
  7. #2.统计时区
  8. #获取所有时区数据
  9. timezones=[item['tz'] for item in dicList if 'tz' in item]
  10.  
  11. #统计时区出现次数
  12. from collections import defaultdict,Counter
  13. def countZone(timezones):
  14. count_zone=defaultdict(int)
  15. for tz in timezones:
  16. count_zone[tz]+=1
  17. return count_zone
  18.  
  19. #返回top N
  20. def countTop(dicCount,n):
  21. return Counter(dicCount).most_common(n)
  22.  
  23. #测试并打印出现次数最多的5个时区
  24. count=countZone(timezones)
  25. print countTop(count,5)

#运行结果:[(u'America/New_York', 1251), (u'', 521), (u'America/Chicago', 400), (u'America/Los_Angeles', 382), (u'America/Denver', 191)]

四 利用pandas统计json文件中的时区数据

1.运用DataFrame统计时区数据

①DataFrame是pandas中很常用的数据结构,它把数据转换为一个类似表格的结构。

  1. # -*- coding: utf-8 -*-
  2. import json
  3. from pandas import DataFrame
  4. dicList=[json.loads(line) for line in open('E:\Demo\python\json.txt')]
  5. frame=DataFrame(dicList)
  6. #测试打印时区列表中前5个元素
  7. print frame['tz'][:5]

运行结果:

0     America/New_York

1       America/Denver

2     America/New_York

3    America/Sao_Paulo

4     America/New_York

②frame['tz']有value_counts()函数,可以直接返回对应的计数。

#打印出现次数最多的5个时区

  1. print frame['tz'].value_counts()[:5]

运行结果:

America/New_York       1251

521

America/Chicago         400

America/Los_Angeles     382

America/Denver          191

③为不存在时区数据或者时区为空字符串的数据补全默认值。

fillna()函数可以补全不存在的字段;空字符串可以通过布尔型索引的形式进行替换。

  1. tzList=frame['tz'].fillna('Missing')
  2. tzList[tzList =='']='Unknown'
  3. print tzList.value_counts()[:5]

运行结果:

America/New_York       1251

Unknown                 521

America/Chicago         400

America/Los_Angeles     382

America/Denver          191

这样我们就完成了之前用标准Python库相同的工作,完整代码如下:

  1. # -*- coding: utf-8 -*-
  2. import json
  3. from pandas import DataFrame
  4. dicList=[json.loads(line) for line in open('E:\Demo\python\json.txt')]
  5. frame=DataFrame(dicList)
  6. #打印出现次数最多的5个时区
  7. print frame['tz'].value_counts()[:5]
  8.  
  9. #补全时区不存在或者为空的情况
  10. tzList=frame['tz'].fillna('Missing')
  11. tzList[tzList =='']='Unknown'
  12. print tzList.value_counts()[:5]

2.利用plot方法绘制垂直条形图

参考:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html

tzList.value_counts()[:5].plot(kind='bar',rot=0)

运行:我们可以利用%paste命令将代码粘贴运行。

命令行:

  1. ipython
  2.  
  3. %pylab
  4.  
  5. %paste

运行结果:

本文用到的json文件:点此下载

参考:《利用Python进行数据分析》

如需转载,请标明出处:http://www.cnblogs.com/janes/p/5546673.html

Python【8】-分析json文件的更多相关文章

  1. python脚本解析json文件

    python脚本解析json文件 没写完.但是有效果.初次尝试,写的比较不简洁... 比较烦的地方在于: 1,中文编码: pSpecs.decode('raw_unicode_escape') 2,花 ...

  2. python中读取json文件报错,TypeError:the Json object must be str, bytes or bytearray,not ‘TextIOWrapper’

    利用python中的json读取json文件时,因为错误使用了相应的方法导致报错:TypeError:the Json object must be str, bytes or bytearray,n ...

  3. python脚本将json文件生成C语言结构体

    1.引言 以前用过python脚本根据excel生成相关C语言代码,其实本质就是文件的读写,主要是逻辑问题,这次尝试将json文件生成C语言的结构体. 2.代码 这是一个json文件,生成这个结构体的 ...

  4. Python实现读取json文件到excel表

    一.需求 1.'score.json' 文件内容: { "1":["小花",99,100,98.5], "2":["小王" ...

  5. python 数据写入json文件时中文显示Unicode编码问题

    一.问题描述 import json dir = { '春晓':'asfffa', '春眠不觉晓' : '处处闻啼鸟', '夜来风雨声' : 56789, 'asdga':'asdasda' } fp ...

  6. Python 3 操作json 文件

    背景 json 是一种轻量级的数据交换格式.易于人阅读和编写,同时也易于机器解析和生成. 一般表现形式是一个无序的 键值对 的集合. 资料: 官方文档: https://docs.python.org ...

  7. python加载json文件

    主要是加载进来,之后就没难度了 import json path = 'predict2.json' file = open(path, "rb") fileJson = json ...

  8. Python【读写Json文件】

    indent=10:缩进10个空格

  9. python json及mysql——读取json文件存sql、数据库日期类型转换、终端操纵mysql及python codecs读取大文件问题

    preface: 近期帮师兄处理json文件,须要读到数据库里面,以备其兴许从数据库读取数据.数据是关于yelp站点里面的: https://github.com/Yelp/dataset-examp ...

随机推荐

  1. JS IOS/iPhone的Safari不兼容Javascript中的Date()问题

    var date = new Date('2016-11-11 11:11:11'); document.write(date); 最近在写一个时间判断脚本,需要将固定好的字符串时间转换为时间戳进行比 ...

  2. js高级程序设计书中,有一句话在全局作用域中定义的函数实际上只 能被某个对象调用???

    js没有块级作用域(题外话:函数可以作为一个块级),所以我们经常使用闭包来模拟块级作用域,以避免变量或者函数因为名称相同而产生的冲突. 重点来了: 所以,如果我们把哪个变量或者函数放在全局作用域中,那 ...

  3. 获取tomcat下路径

    import java.io.File; public class MainTest { public static void main(String[] args) { //获取是项目的绝对路径 S ...

  4. 20161014006 DataGridView Combobox 数据绑定与传值

    //Combobox        private void T_Form_CY_CBD_D_CurrentCellChanged(object sender, EventArgs e)        ...

  5. laravel框架总结(十一) -- 集合

      创建集合: collect 辅助函数会利用传入的数组生成一个新的 Illuminate\Support\Collection 实例. $collection = collect([1, 2, 3] ...

  6. Learning by doing

    Learning by doing 绪论:读了娄老师的公众号中--<做中学(Learning By Doing)>这篇文章后,深有感触,我想到很多自己之前的事情,很多都是每每想的很好,总是 ...

  7. js取两个数组的交集|差集|并集|补集|去重示例代码

    http://www.jb51.net/article/40385.htm 代码如下: /** * each是一个集合迭代函数,它接受一个函数作为参数和一组可选的参数 * 这个迭代函数依次将集合的每一 ...

  8. BW顾问必需要清楚的:时间相关数据建模场景需求分析

    声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...

  9. sort排序

    /*问题 L: 使用sort排序题目描述标准库的sort函数给我们提供了一个很方便的排序的方法,光听别人说方便不顶事,得自己亲自实践一下才能体会到它的方便之处. 输入每组包含多组数据,每组数据第一行包 ...

  10. ichart.js绘制虚线 ,平均分虚线

    var Data=new Array(); Data[0] = { labels : ["第一单元","第二单元","第三单元"," ...