pandas有时候操作很不方便,也有可能是我不熟练吧,反正就是各种别扭。下面是我写的一个简单的json数据操作工具,能够完成简单的数据分析工作,后续会不断完善的

# coding=utf-8
import logging
import sys
import ujson as json logging.basicConfig(
stream=sys.stdout,
format="%(asctime)s [%(module)s][%(funcName)s][%(lineno)s] \n%(levelname)s: [%(message)s]\n", )
log = logging.getLogger(__name__) """
'asctime',
'created',
'filename',
'funcName',
'levelname',
'levelno',
'lineno',
'module',
'msecs',
'message',
'name',
'pathname',
'process',
'processName',
'relativeCreated',
'thread',
'threadName'
""" class pipe(object):
def __init__(self, data=None):
self._d = data def pipe(self, func):
self._d = func(self._d)
return self def result(self):
return self._d class Field(object):
def __init__(self, data=None):
self._d = data or {} def to_dict(self):
return self._d def set(self, **kwargs):
self._d.update(kwargs)
return self def __setitem__(self, i, y):
self._d[i] = y def __getitem__(self, y):
if isinstance(y, (str, unicode)):
return self._d.get(y) if isinstance(y, list):
return [self._d.get(i) for i in y] def __delitem__(self, y):
if not isinstance(y, list):
y = [y] for i in y:
try:
del self._d[i]
except:
pass def drop(self, *y):
del self[y]
return self class KTable(object):
def __init__(self, data=None, header=None):
data = data or []
self._d = {}
self._header = header
self.append(data) def __set(self, i, y=None):
if isinstance(i, int):
try:
self._d[i].set(**y)
except:
self._d[i] = Field(y)
else:
k, v = i
self._d[k][v] = y def __setitem__(self, i, y=None):
self.__set(i, y=y) def set(self, i, y=None):
self.__set(i, y=y)
return self def append(self, y=None):
if not isinstance(y, list):
y = [y] for i in y:
try:
self[max(self._d.keys()) + 1] = i
except:
self[0] = i
return self def map(self, func, *sequence_1):
if sequence_1 and isinstance(sequence_1[0], KTable):
sequence_1 = [i._d.itervalues() for i in sequence_1] map(func, self._d.itervalues(), *sequence_1)
return self def group_by(self, label, func=None): k_label = self._d[0].to_dict().keys() if self._d else []
if not k_label:
return self label = label if isinstance(label, list) else [label]
[k_label.remove(i) for i in label] _d = {}
for k in self._d.itervalues():
_k = [k[i] for i in label]
_v = {i: k[i] for i in k_label}
try:
_d[tuple(_k)].append(_v)
except:
_d[tuple(_k)] = [_v] _res = []
for i, v in _d.iteritems():
try:
_v = dict(map(lambda x, y: (x, y), label, list(i)))
_v.update(func(KTable(v)))
_res.append(_v)
except Exception, e:
log.error("{},{}".format(i, e.message))
return KTable(_res) def sort_by(self, label=None):
if type(label) == str:
return KTable(sorted(self.to_dict(), key=lambda x: x[label])) return self def echo(self, y=None):
if not y:
print self
else:
print self[y]
return self def distinct(self):
return KTable([dict(i) for i in {tuple(v.to_dict().items()) for v in self._d.itervalues()}]) def drop(self, k):
if getattr(k, '__call__'):
for i in self._d.iterkeys():
if k(self._d[i]):
del self._d[i]
else:
if not isinstance(k, list):
k = [k] if isinstance(k[0], str):
for i in self._d.iterkeys():
del self._d[i][k]
else:
for i in self._d.iterkeys():
del self._d[i] return self def min(self):
pass def max(self):
pass def mean(self):
pass def __get(self, y):
if isinstance(y, (int, str)):
y = [y] if isinstance(y, tuple):
y = list(set((self._d.get(0) or Field()).to_dict().keys()) - set(y)) if isinstance(y[0], int):
return [(self._d.get(i) or Field()).to_dict() for i in y]
else:
self._header = y
return [{i: v[i] for i in y} for v in self._d.itervalues()] def __getitem__(self, y):
if callable(y):
_d = []
for i in self._d.iterkeys():
_v = self._d[i]
_v['_i'] = i
if not y(_v):
continue _d.append(_v.to_dict())
__v = KTable(_d, header=self._header)
self._header = None
return __v if not isinstance(y, (str, int)) and len(y) == 2 and isinstance(y[0], int) and isinstance(y[1], str):
_d = self._d.get(y[0]) if not _d:
return None return _d[y[1]] __v = KTable(self.__get(y), header=self._header)
self._header = None
return __v @property
def header(self):
return self._header @header.setter
def header(self, header=None):
self._header = header def pipe(self, func):
return func(self) def __len__(self):
return len(self._d.keys()) def to_json(self):
return json.dumps([v.to_dict() for v in self._d.itervalues()]) def to_dict(self):
return [v.to_dict() for v in self._d.itervalues()] def __str__(self):
print "--**-- data --**--"
if not self._header:
for v in self._d.itervalues():
print v.to_dict()
else:
print u"".join(["%-35s" % i for i in self._header])
_kk = self._d.keys()
_kk.sort()
for v in _kk:
print u"".join(["{" + "{}".format(i) + ":<30}" for i in self._header]).format(**self._d[v].to_dict())
print "--**-- end --**--"
return "" if __name__ == '__main__':
tk = KTable([{
"a": 1,
"b": 2,
"c": "rr"
}, {
"a": 1,
"b": 2,
"c": "rrr"
}, {
"a": 1,
"b": 3,
"c": "rr"
}, {
"a": 2,
"b": 3,
"c": "rrr"
}]) print tk['a'].to_dict()
t = tk.map(lambda x: x.set(dd=0))
t.header = None
print t.map(lambda x: x.set(dd=0))
print t.map(
lambda x: x.set(w=x['c'], dd=x['dd'] + 1))[('a', 'b')][['c', 'dd']] # 用元组取值为exclude,list为include
print t.map(lambda x, y: x.set(w=x['a'] + y['a'], dd=x['dd'] + 1), t) print t[1]
print t[lambda x: x['a'] == 1]
print t[lambda x: x['_i'] == 1]
print t['c'].distinct()
a = t[['a', 'b']].distinct().to_dict()[0]
print t[lambda x: x['a'] == 1 and x['b'] == 3][0, 'a'] print t.group_by('a', lambda x: {
"min": 1
}).sort_by('a')

pandas协助工具的更多相关文章

  1. Pandas 计算工具介绍

    # 导入相关库 import numpy as np import pandas as pd 统计函数 最常见的计算工具莫过于一些统计函数了.首先构建一个包含了用户年龄与收入的 DataFrame i ...

  2. python数据分析学习(1)pandas一维工具Series讲解

    目录 一:pandas数据结构介绍   python是数据分析的主要工具,它包含的数据结构和数据处理工具的设计让python在数据分析领域变得十分快捷.它以NumPy为基础,并对于需要类似 for循环 ...

  3. Pandas IO工具

    Pandas I/O API是一套像pd.read_csv()一样返回Pandas对象的顶级读取器函数. 读取文本文件(或平面文件)的两个主要功能是read_csv()和read_table().它们 ...

  4. smbmnt - 装载 SMB 文件系统的协助工具

    总览 smbmnt mount-point [ -s share ] [ -r ] [ -u uid ] [ -g gid ] [ -f mask ] [ -d mask ] 描述 smbmnt 用于 ...

  5. 移动应用开发过程中需要哪些IOS APP工具

    虽说如今要开发一款IOS app应用软件已经不是什么难事,app开发技术已经发展成熟,所以要制作一款适用于苹果IOS智能操作系统的app软件也挺容易的了.不过对于开发者来说,可以通过一些app工具来更 ...

  6. GitHub上整理的一些工具

    技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddit:同上 MSDN:微软相关的官方技术集中地,主要是文档类 infoq:企业级应用,关注软件开发领域 ...

  7. GitHub上整理的一些工具[转载]

    Source:http://segmentfault.com/q/1010000002404545 技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddi ...

  8. GitHub 开源工具整理

    技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddit:同上 MSDN:微软相关的官方技术集中地,主要是文档类 infoq:企业级应用,关注软件开发领域 ...

  9. GitHub上整理的一些工具,求补充

    http://segmentfault.com/q/1010000002404545 技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddit:同上 MS ...

随机推荐

  1. MySql服务未知原因消失了的解决办法

    一: 5.1及后续版本: 打开计算机命令窗口,切换至mysql安装目录,然后运行bin目录下的mysqld.exe,命令如下: D:\MySQL\bin>mysqld.exe -installS ...

  2. 谨慎修改Oracle数据库字符集(UTF8<->ZHS16GBK)

      Preface       Today,I'm gonna say something what is related with the character set in Oracle datab ...

  3. mysql数据库迁移到oracle数据库后 如何删除相同的数据

    mysql数据库迁移到oracle数据库后 如何删除相同的数据 首先搞清楚有多少数据是重复的 select pid from product group by pid having count(pid ...

  4. iOS原生混合RN开发最佳实践

    iOS原生混合RN开发详解 做过原生iOS开发或者Android开发的同学们肯定也都了解Hybrid,有一些Hybrid的开发经验,目前我们企业开发中运用最广泛的Hybrid App技术就是原生与H5 ...

  5. 卡常三连(快读快写+re)

    快读: inline int in() { char ch; ; '))); a*=;a+=ch-'; ,a+=ch-'; return a; } 快写: inline void out(int a) ...

  6. JavaScript 时间对象 date()

    getYear() 获得的是距离1900年过了多少年 var d = new Date(); document.write(d+"<br />"); document. ...

  7. hibernate的报错信息a different object with the same identifier value was already associated with the session解决办法

    废话不多说,直接说原因,这是在hibernate中,有2个相同类型的实体类具有同样的主键标识符,然后调用update或者调用saveOrUpdate,我朋友出这个错的由于他想要update一条数据时, ...

  8. 解决echarts 鼠标悬浮提示 文本提示问题。

    参考文章:https://www.jianshu.com/p/aa585c304660 官方文章样式详解:http://echarts.baidu.com/option.html#tooltip.fo ...

  9. JSP/Servlet开发——第十一章 Ajax交互扩展

    1. jQuery实现Ajax的方法: ●除了$.ajax()方法以外,jQuery还提供了其他多种更简单的 Ajax 实现方法,如$.get().$.post().$.getJSON().对象.lo ...

  10. go加密算法:非对称加密(三)--Elliptic

    看了2星期的区块链原理与运行机制,加密这里开始变得有些生疏,花了一天时间复习了一些;看到了之前忽略的,也学会了椭圆曲线加密. //基础板:浅显易懂package main import ( " ...