临时处理一个Numpy的二进制文件,分析知道里面是dict类型,简单小记一下,如果Numpy和Python基础不熟悉可以看我之前写的文章

In [1]:
%%time

import numpy as np
 
Wall time: 135 ms
In [2]:
%%time

import pandas as pd
 
Wall time: 351 ms
In [3]:
%%time

df = pd.DataFrame(np.load("data.npy")) # 通过narry创建DataFrame
 
Wall time: 910 ms
In [4]:
%%time

df.head(10) # 快速预览前10行
 
Wall time: 1 ms
Out[4]:
 

  0
0 {'email': 'liurh@csdn.net', 'pwd': '9755DD0556...
1 {'email': 'fw19@sina.com', 'pwd': '6BB518D1A42...
2 {'email': 'whcheng@126.com', 'pwd': '0079ABBA6...
3 {'email': 'zh4ang@163.com', 'pwd': 'E23E561F02...
4 {'email': 'johnzhou8888@yahoo.com.cn', 'pwd': ...
5 {'email': 'zaza902@hotmail.com', 'pwd': '9B084...
6 {'email': 'yuping_zhong@163.com', 'pwd': '7D07...
7 {'email': 'annnntning@sina.com', 'pwd': '448A2...
8 {'email': 'sunnydinasun@sohu.com', 'pwd': 'DBF...
9 {'email': 'ysmrose@sohu.com', 'pwd': '22DDD26D...
In [5]:
%%time

# 提取email列
df['Email'] = df[0].map(lambda x : dict(x)["email"])
# 提取pwd列
df['MD5'] = df[0].map(lambda x : dict(x)["pwd"] )
# 删除无用列
del df[0]
 
Wall time: 1.05 s
In [6]:
%%time

df.size # 查看总共多少数据
 
Wall time: 0 ns
Out[6]:
2097148
In [7]:
%%time

df.shape
 
Wall time: 0 ns
Out[7]:
(1048574, 2)
In [8]:
%%time

df.head(10)
 
Wall time: 0 ns
Out[8]:
 

  Email MD5
0 liurh@csdn.net 9755DD05564EAD9EADCACE40B5A02711
1 fw19@sina.com 6BB518D1A42F22DA5CA62D5EE41C5D4F
2 whcheng@126.com 0079ABBA66856DAFDF2B9A6E0DB23A09
3 zh4ang@163.com E23E561F0202ACECA30B8F07A48AB8E9
4 johnzhou8888@yahoo.com.cn 0EB1A2DB91A2BF3FB6275DE659A25805
5 zaza902@hotmail.com 9B08473C992C07E98389ED1C280A634A
6 yuping_zhong@163.com 7D0710824FF191F6A0086A7E3891641E
7 annnntning@sina.com 448A2BCEE09A3B14C22DC000351216B7
8 sunnydinasun@sohu.com DBFBA02E366BAB58DF605D6475189A51
9 ysmrose@sohu.com 22DDD26D62AF8B1C4A216BE18FDFF5B2
In [9]:
%%time

df.T.to_json("user.json") # 重新保存为Json(转置只是为了存储成我们常见的json格式)
 
Wall time: 2.85 s

关于怎么知道是dict类型的扩展:可以加载看看:np.load("data.npy")

临时处理小记:把Numpy的narray二进制文件转换成json文件的更多相关文章

  1. 将Model对象转换成json文本或者json二进制文件

    将Model对象转换成json文本或者json二进制文件 https://github.com/casatwy/AnyJson 注意:经过测试,不能够直接处理字典或者数组 主要源码的注释 AJTran ...

  2. PHP取二进制文件头快速判断文件类型

    <?php /*文件扩展名说明 *7173 gif *255216 jpg *13780 png *6677 bmp *239187 txt,aspx,asp,sql *208207 xls.d ...

  3. numpy中三维数组转变成二维数组

    numpy中reshape()函数对三维数组进行转换成二维数组,见下面例子: >>>a=np.reshape(np.arange(18),(3,3,2)) >>> ...

  4. 【Python秘籍】numpy到tensor的转换

    在用pytorch训练神经网络时,我们常常需要在numpy的数组变量类型与pytorch中的tensor类型进行转换,今天给大家介绍一种它们之间互相转换的方法. 一.numpy到tensor 首先我们 ...

  5. PHP取二进制文件头快速判断文件类型的实现代码

    通过读取文件头信息来识别文件的真实类型. 一般我们都是按照文件扩展名来判断文件类型,但是这个很不靠谱,轻易就通过修改扩展名来躲避了,一般必须要读取文件信息来识别,PHP扩展中提供了类似 exif_im ...

  6. 从零开始学C++之IO流类库(三):文件的读写、二进制文件的读写、文件随机读写

    一.文件的读写 如前面所提,流的读写主要有<<, >>, get, put, read, write 等操作,ofstream 继承自ostream, ifstream 继承自 ...

  7. JAVA核心技术I---JAVA基础知识(二进制文件读写和zip文件读写)

    一:二进制文件读写 (一)写文件 –先创建文件,写入数据,关闭文件 –FileOutputStream, BufferedOutputStream,DataOutputStream –DataOutp ...

  8. pytorch_13_pytorch 中tensor,numpy,PIL的转换

    PIL:使用Python自带图像处理库读取出来的图片格式numpy:使用Python-opencv库读取出来的图片格式tensor:pytorch中训练时所采取的向量格式 import torch i ...

  9. tensorflow二进制文件读取与tfrecords文件读取

    1.知识点 """ TFRecords介绍: TFRecords是Tensorflow设计的一种内置文件格式,是一种二进制文件,它能更好的利用内存, 更方便复制和移动,为 ...

随机推荐

  1. js 精确验证身份证(地址编码、出生日期、校验位验证)

    //身份证号合法性验证 //支持15位和18位身份证号 //支持地址编码.出生日期.校验位验证 function IdentityCodeValid(code) { ::::::::::::::::: ...

  2. h5-语义化标签

    ###1.语义化标签 在h5之前,在开发过程中大量div的id名称重复,例如div id="footer"来标记页脚内容,所以html5元素引入了语义化标签(一组新的片段类元素)  ...

  3. java不同的包下相同的类名的问题与解决办法

    Java中的类以包进行分类组织,当程序中需要用到某个包下的类时,可以以该类的全限定名进行引用.这样,不同的包中的类就可以同名,不会产生混淆. 但是这样就可能导致引用的时候会产生一些问题. 第一个问题, ...

  4. day 7-6 GIL,死锁,递归锁与信号量,Event,queue,

    摘要: 1.死锁与递归锁 2.信号量 3.Event 4.Timer 5.GIL 6.Queue 7.什么时候该用多线程和多进程 一. 死锁与递归锁 所谓死锁: 是指两个或两个以上的进程或线程在执行过 ...

  5. 模仿jdk编译代码去除注释,多行注释

    package com.jachs.mvc; import java.*; import ch.qos.logback.classic.net.SyslogAppender; /**** * * @a ...

  6. scala mkstring

    如果你想要把集合元素转化为字符串,可能还会添加分隔符,前缀,后缀. Solution 使用mkString方法来打印一个集合内容,下面给一个简单的例子: scala> val a = Array ...

  7. Python深入类和对象

    一. 鸭子类型和多态 1.什么是鸭子类型: 在程序设计中,鸭子类型(英语:Duck typing)是动态类型和某些静态语言的一种对象推断风格."鸭子类型"像多态一样工作,但是没有继 ...

  8. linux pstree命令

    pstree命令可以使进程以tree的形式显示 pstree -ssystemd─┬─UVPHostd───6*[{UVPHostd}] ├─acpid ├─2*[agetty] ├─crond ├─ ...

  9. 重写TreeView模板来实现数据分层展示(二)

    前面一片文章实现TreeView的基本的模板重写,那么照着这个思路,我们再来写一个稍稍复杂的TreeView ,其它的内容都和前面系列内容相似,还是和之前文章介绍的一样,首先看看做出的DEMO的最终样 ...

  10. fdisk磁盘分区与挂载

    参考博客:https://blog.csdn.net/capecape/article/details/78499351?locationNum=6&fps=1 1.查看磁盘分区情况.root ...