pandas协助工具

pandas有时候操作很不方便，也有可能是我不熟练吧，反正就是各种别扭。下面是我写的一个简单的json数据操作工具，能够完成简单的数据分析工作，后续会不断完善的

# coding=utf-8

import logging

import sys

import ujson as json

logging.basicConfig(

    stream=sys.stdout,

    format="%(asctime)s [%(module)s][%(funcName)s][%(lineno)s] \n%(levelname)s: [%(message)s]\n",

)

log = logging.getLogger(__name__)

"""

'asctime',

'created',

'filename',

'funcName',

'levelname',

'levelno',

'lineno',

'module',

'msecs',

'message',

'name',

'pathname',

'process',

'processName',

'relativeCreated',

'thread',

'threadName'

"""

class pipe(object):

    def __init__(self, data=None):

        self._d = data

    def pipe(self, func):

        self._d = func(self._d)

        return self

    def result(self):

        return self._d

class Field(object):

    def __init__(self, data=None):

        self._d = data or {}

    def to_dict(self):

        return self._d

    def set(self, **kwargs):

        self._d.update(kwargs)

        return self

    def __setitem__(self, i, y):

        self._d[i] = y

    def __getitem__(self, y):

        if isinstance(y, (str, unicode)):

            return self._d.get(y)

        if isinstance(y, list):

            return [self._d.get(i) for i in y]

    def __delitem__(self, y):

        if not isinstance(y, list):

            y = [y]

        for i in y:

            try:

                del self._d[i]

            except:

                pass

    def drop(self, *y):

        del self[y]

        return self

class KTable(object):

    def __init__(self, data=None, header=None):

        data = data or []

        self._d = {}

        self._header = header

        self.append(data)

    def __set(self, i, y=None):

        if isinstance(i, int):

            try:

                self._d[i].set(**y)

            except:

                self._d[i] = Field(y)

        else:

            k, v = i

            self._d[k][v] = y

    def __setitem__(self, i, y=None):

        self.__set(i, y=y)

    def set(self, i, y=None):

        self.__set(i, y=y)

        return self

    def append(self, y=None):

        if not isinstance(y, list):

            y = [y]

        for i in y:

            try:

                self[max(self._d.keys()) + 1] = i

            except:

                self[0] = i

        return self

    def map(self, func, *sequence_1):

        if sequence_1 and isinstance(sequence_1[0], KTable):

            sequence_1 = [i._d.itervalues() for i in sequence_1]

        map(func, self._d.itervalues(), *sequence_1)

        return self

    def group_by(self, label, func=None):

        k_label = self._d[0].to_dict().keys() if self._d else []

        if not k_label:

            return self

        label = label if isinstance(label, list) else [label]

        [k_label.remove(i) for i in label]

        _d = {}

        for k in self._d.itervalues():

            _k = [k[i] for i in label]

            _v = {i: k[i] for i in k_label}

            try:

                _d[tuple(_k)].append(_v)

            except:

                _d[tuple(_k)] = [_v]

        _res = []

        for i, v in _d.iteritems():

            try:

                _v = dict(map(lambda x, y: (x, y), label, list(i)))

                _v.update(func(KTable(v)))

                _res.append(_v)

            except Exception, e:

                log.error("{},{}".format(i, e.message))

        return KTable(_res)

    def sort_by(self, label=None):

        if type(label) == str:

            return KTable(sorted(self.to_dict(), key=lambda x: x[label]))

        return self

    def echo(self, y=None):

        if not y:

            print self

        else:

            print self[y]

        return self

    def distinct(self):

        return KTable([dict(i) for i in {tuple(v.to_dict().items()) for v in self._d.itervalues()}])

    def drop(self, k):

        if getattr(k, '__call__'):

            for i in self._d.iterkeys():

                if k(self._d[i]):

                    del self._d[i]

        else:

            if not isinstance(k, list):

                k = [k]

            if isinstance(k[0], str):

                for i in self._d.iterkeys():

                    del self._d[i][k]

            else:

                for i in self._d.iterkeys():

                    del self._d[i]

        return self

    def min(self):

        pass

    def max(self):

        pass

    def mean(self):

        pass

    def __get(self, y):

        if isinstance(y, (int, str)):

            y = [y]

        if isinstance(y, tuple):

            y = list(set((self._d.get(0) or Field()).to_dict().keys()) - set(y))

        if isinstance(y[0], int):

            return [(self._d.get(i) or Field()).to_dict() for i in y]

        else:

            self._header = y

            return [{i: v[i] for i in y} for v in self._d.itervalues()]

    def __getitem__(self, y):

        if callable(y):

            _d = []

            for i in self._d.iterkeys():

                _v = self._d[i]

                _v['_i'] = i

                if not y(_v):

                    continue

                _d.append(_v.to_dict())

            __v = KTable(_d, header=self._header)

            self._header = None

            return __v

        if not isinstance(y, (str, int)) and len(y) == 2 and isinstance(y[0], int) and isinstance(y[1], str):

            _d = self._d.get(y[0])

            if not _d:

                return None

            return _d[y[1]]

        __v = KTable(self.__get(y), header=self._header)

        self._header = None

        return __v

    @property

    def header(self):

        return self._header

    @header.setter

    def header(self, header=None):

        self._header = header

    def pipe(self, func):

        return func(self)

    def __len__(self):

        return len(self._d.keys())

    def to_json(self):

        return json.dumps([v.to_dict() for v in self._d.itervalues()])

    def to_dict(self):

        return [v.to_dict() for v in self._d.itervalues()]

    def __str__(self):

        print "--**-- data --**--"

        if not self._header:

            for v in self._d.itervalues():

                print v.to_dict()

        else:

            print u"".join(["%-35s" % i for i in self._header])

            _kk = self._d.keys()

            _kk.sort()

            for v in _kk:

                print u"".join(["{" + "{}".format(i) + ":<30}" for i in self._header]).format(**self._d[v].to_dict())

        print "--**-- end --**--"

        return ""

if __name__ == '__main__':

    tk = KTable([{

        "a": 1,

        "b": 2,

        "c": "rr"

    }, {

        "a": 1,

        "b": 2,

        "c": "rrr"

    }, {

        "a": 1,

        "b": 3,

        "c": "rr"

    }, {

        "a": 2,

        "b": 3,

        "c": "rrr"

    }])

    print tk['a'].to_dict()

    t = tk.map(lambda x: x.set(dd=0))

    t.header = None

    print t.map(lambda x: x.set(dd=0))

    print t.map(

        lambda x: x.set(w=x['c'], dd=x['dd'] + 1))[('a', 'b')][['c', 'dd']]  # 用元组取值为exclude,list为include

    print t.map(lambda x, y: x.set(w=x['a'] + y['a'], dd=x['dd'] + 1), t)

    print t[1]

    print t[lambda x: x['a'] == 1]

    print t[lambda x: x['_i'] == 1]

    print t['c'].distinct()

    a = t[['a', 'b']].distinct().to_dict()[0]

    print t[lambda x: x['a'] == 1 and x['b'] == 3][0, 'a']

    print t.group_by('a', lambda x: {

        "min": 1

    }).sort_by('a')

pandas协助工具的更多相关文章

Pandas 计算工具介绍
# 导入相关库 import numpy as np import pandas as pd 统计函数最常见的计算工具莫过于一些统计函数了.首先构建一个包含了用户年龄与收入的 DataFrame i ...
python数据分析学习(1)pandas一维工具Series讲解
目录一:pandas数据结构介绍 python是数据分析的主要工具,它包含的数据结构和数据处理工具的设计让python在数据分析领域变得十分快捷.它以NumPy为基础,并对于需要类似 for循环 ...
Pandas IO工具
Pandas I/O API是一套像pd.read_csv()一样返回Pandas对象的顶级读取器函数. 读取文本文件(或平面文件)的两个主要功能是read_csv()和read_table().它们 ...
smbmnt - 装载 SMB 文件系统的协助工具
总览 smbmnt mount-point [ -s share ] [ -r ] [ -u uid ] [ -g gid ] [ -f mask ] [ -d mask ] 描述 smbmnt 用于 ...
移动应用开发过程中需要哪些IOS APP工具
虽说如今要开发一款IOS app应用软件已经不是什么难事,app开发技术已经发展成熟,所以要制作一款适用于苹果IOS智能操作系统的app软件也挺容易的了.不过对于开发者来说,可以通过一些app工具来更 ...
GitHub上整理的一些工具
技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddit:同上 MSDN:微软相关的官方技术集中地,主要是文档类 infoq:企业级应用,关注软件开发领域 ...
GitHub上整理的一些工具[转载]
Source:http://segmentfault.com/q/1010000002404545 技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddi ...
GitHub 开源工具整理
技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddit:同上 MSDN:微软相关的官方技术集中地,主要是文档类 infoq:企业级应用,关注软件开发领域 ...
GitHub上整理的一些工具，求补充
http://segmentfault.com/q/1010000002404545 技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddit:同上 MS ...

随机推荐

MySql服务未知原因消失了的解决办法
一: 5.1及后续版本: 打开计算机命令窗口,切换至mysql安装目录,然后运行bin目录下的mysqld.exe,命令如下: D:\MySQL\bin>mysqld.exe -installS ...
谨慎修改Oracle数据库字符集（UTF8<->ZHS16GBK）
Preface Today,I'm gonna say something what is related with the character set in Oracle datab ...
mysql数据库迁移到oracle数据库后如何删除相同的数据
mysql数据库迁移到oracle数据库后如何删除相同的数据首先搞清楚有多少数据是重复的 select pid from product group by pid having count(pid ...
iOS原生混合RN开发最佳实践
iOS原生混合RN开发详解做过原生iOS开发或者Android开发的同学们肯定也都了解Hybrid,有一些Hybrid的开发经验,目前我们企业开发中运用最广泛的Hybrid App技术就是原生与H5 ...
卡常三连（快读快写+re）
快读: inline int in() { char ch; ; '))); a*=;a+=ch-'; ,a+=ch-'; return a; } 快写: inline void out(int a) ...
JavaScript 时间对象 date()
getYear() 获得的是距离1900年过了多少年 var d = new Date(); document.write(d+"<br />"); document. ...
hibernate的报错信息a different object with the same identifier value was already associated with the session解决办法
废话不多说,直接说原因,这是在hibernate中,有2个相同类型的实体类具有同样的主键标识符,然后调用update或者调用saveOrUpdate,我朋友出这个错的由于他想要update一条数据时, ...
解决echarts 鼠标悬浮提示文本提示问题。
参考文章:https://www.jianshu.com/p/aa585c304660 官方文章样式详解:http://echarts.baidu.com/option.html#tooltip.fo ...
JSP／Servlet开发——第十一章 Ajax交互扩展
1. jQuery实现Ajax的方法: ●除了$.ajax()方法以外,jQuery还提供了其他多种更简单的 Ajax 实现方法,如$.get().$.post().$.getJSON().对象.lo ...
go加密算法:非对称加密(三)--Elliptic
看了2星期的区块链原理与运行机制,加密这里开始变得有些生疏,花了一天时间复习了一些;看到了之前忽略的,也学会了椭圆曲线加密. //基础板:浅显易懂package main import ( " ...

pandas协助工具

pandas协助工具的更多相关文章

随机推荐

热门专题