『Pandas』数据读取&DataFrame切片

读取文件

numpy.loadtxt()

import numpy as np

dataset_filename = "affinity_dataset.txt"

X = np.loadtxt(dataset_filename)

n_samples, n_features = X.shape

print("This dataset has {0} samples and {1} features".format(n_samples, n_features))

This dataset has 100 samples and 5 features

pandas.read_csv()

import pandas as pd

dataset_filename = "affinity_dataset.txt"

Xp = pd.read_csv(dataset_filename, delimiter=' ', names=list('abcde'))

print(Xp.shape)

(100, 5)

检测一下输出，

print(X[:5])

print(Xp[:5])

print(type(Xp['a'][0]))

[[ 0.  0.  1.  1.  1.]

 [ 1.  1.  0.  1.  0.]

 [ 1.  0.  1.  1.  0.]

 [ 0.  0.  1.  1.  1.]

 [ 0.  1.  0.  0.  1.]]

   a  b  c  d  e

0  0  0  1  1  1

1  1  1  0  1  0

2  1  0  1  1  0

3  0  0  1  1  1

4  0  1  0  0  1

<class 'numpy.int64'>

DF.loc索引

当每列已有column name时，用 df [ 'a' ] 就能选取出一整列数据。如果你知道column names和index，且两者都很好输入，可以选择 .loc，

print(Xp.loc[0, 'a'], '\n' ,

      Xp.loc[0:3, ['a', 'b']], '\n' ,

      Xp.loc[[1, 5], ['b', 'c']])

DF.iloc索引

如果我们嫌column name太长了，输入不方便，有或者index是一列时间序列，更不好输入，那就可以选择 .iloc了。这边的 i 我觉得代表index，比较好记点。

print(Xp.iloc[1,1],'\n',

      Xp.iloc[0:3, [0,1]],'\n',

      Xp.iloc[[0, 3, 5], 0:2]  )

DF.ix索引

.ix 的功能就更强大了，它允许我们混合使用下标和名称进行选取。可以说它涵盖了前面所有的用法。基本上把前面的都换成df.ix 都能成功，但是有一点，就是

df.ix [ [ ..1.. ], [..2..] ], 1框内必须统一，必须同时是下标或者名称，2框也一样。 BTW， 1框是用来指定row，2框是指定column。

『Pandas』数据读取&DataFrame切片的更多相关文章

『TensorFlow』数据读取类_data.Dataset
一.资料参考原文: TensorFlow全新的数据读取方式:Dataset API入门教程 API接口简介: TensorFlow的数据集二.背景注意,在TensorFlow 1.3中,Data ...
『Matplotlib』数据可视化专项
一.相关知识官网介绍 matplotlib API 相关博客 matplotlib绘图基础漂亮插图demo 使用seaborn绘制漂亮的热度图 fig, ax = plt.subplots(2,2 ...
pandas 从txt读取DataFrame&DataFrame格式化保存到txt
前提首先保证你txt里的文本内容是有规律可循的(例如,列与列之间通过“\t”.“,”等指定的可识别分隔符分隔): 例如我需要读取的数据,(\t)分隔: (此文件内容是直接以DataFrame格式化写 ...
pandas中数据框DataFrame获取每一列最大值或最小值
1.python中数据框求每列的最大值和最小值 df.min() df.max()
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』SSD源码学习_其五：TFR数据读取&数据预处理
Fork版本项目地址:SSD 一.TFR数据读取创建slim.dataset.Dataset对象在train_ssd_network.py获取数据操作如下,首先需要slim.dataset.Dat ...
『Numpy』内存分析_高级切片和内存数据解析
在计算机中,没有任何数据类型是固定的,完全取决于如何看待这片数据的内存区域. 在numpy.ndarray.view中,提供对内存区域不同的切割方式,来完成数据类型的转换,而无须要对数据进行额外的co ...
pandas数据读取（DataFrame & Series）
1.pandas数据的读取 pandas需要先读取表格类型的数据,然后进行分析数据说明说明 pandas读取方法 csv.tsv.txt 用逗号分割.tab分割的纯文本文件 pd.read_csv ...
『TensorFlow』从磁盘读取数据
十图详解TensorFlow数据读取机制一.输入流水线读取数据流程 1). 创建文件名列表相关函数:tf.train.match_filenames_once 2). 创建文件名队列相关函数:t ...

随机推荐

fastDFS errcode:9 path:Bad file descriptor errcode:22 path:Invalid argument
fastDFS errcode:9 path:Bad file descriptor errcode:22 path:Invalid argument <error>status:4 er ...
Vlock用于有多个用户访问控制台的共享 Linux 系统
当你在共享的系统上工作时,你可能不希望其他用户偷窥你的控制台中看你在做什么.如果是这样,我知道有个简单的技巧来锁定自己的会话,同时仍然允许其他用户在其他虚拟控制台上使用该系统. 要感谢Vlock(Vi ...
WindowsServer-性能计数器
https://jingyan.baidu.com/article/59703552e764e48fc00740dd.html
C++ 电路布线/最短路径问题
问题描述用二维数组表示地图,若值为 1 则表示有障碍物,若值为 0 则表示可以通行. 输入: m*n 的二维数组,布线起点坐标,布线终点坐标. 输出: 最短布线距离以及对应的布线路径. 问题分析从 ...
原生JS操作AJAX
1,get方式的AJAX function sendAjaxReq() { //1,创建ajax引擎 XMLHttpRequest对象 var req = new XMLHttpRequest() | ...
keepalived+nginx实现HA高可用的web负载均衡
Keepalived 是一种高性能的服务器高可用或热备解决方案, Keepalived 可以用来防止服务器单点故障的发生,通过配合 Nginx 可以实现 web 前端服务的高可用.Keepalived ...
20145304 Exp6 信息搜集与漏洞扫描
20145304 Exp6 信息搜集与漏洞扫描实验后回答问题 (1)哪些组织负责DNS,IP的管理. NSI负责Internet顶级域名系统的注册.协调与维护,IAIA负责Internet的地址资源 ...
实验二Java面向对象程序设计
一.单元测试了解三种代码: 1.伪代码:类似于自然语言说明,描述实现逻辑思维 2.产品代码:程序员编辑的开发代码,要求可修改.可移植 3.测试代码:我理解是相当于开发软件在软件开放之前,程序员找到b ...
C# 图片和64位编码的转换
/* 将图片转换为64位编码 */ //找到文件夹 System.IO.DirectoryInfo dd = new System.IO.DirectoryInfo("C://qq" ...
第八章对称加密算法--AES
注意:本节内容主要参考自<Java加密与解密的艺术(第2版)>第7章“初等加密算法--对称加密算法” 8.1.AES 特点: 密钥建立时间短.灵敏性好.内存需求低(不管怎样,反正就是好) ...