本文主要讲Pandas 的Series和DataFrame 的相关属性和操作
1、Series的相关属性和操作
# --Series是一种类似于一维数组的对象,只能存放一维数组!由以下两部分组成:
# value:一组数据 ndarray类型
# index:相关数据的索引标签
#
# --Series 的创建:
# (1)由列表或numpy数组创建:默认索引为0到n-1的整数索引,
# (2)还可以通过index的参数指定索引

1.2、Series的索引和切片操作如下:
import pandas as pd
from pandas import Series,DataFrame
# 创建一个Series,index=['a','b','c']为显示索引:增强可读性
s = Series(data=[1,2,3],index=['a','b','c'])
#索引的使用:下面三种方式都可以
print(s.a)
print(s[0])
print(s['a'])
#----Series 的切片
print(s[0:1]) # --- 这种索引切片是不包含1的值的
print(s['a':'b'])
print(s[[0,1]])
print(s[['a','b']])

1.3、Series 的相关函数及其特性
s.head(n) 查看前面n个值
 s.tail(n) 分别查看后面n个值

s.unique() ---对Series a元素进行去重----
s = Series([1,1,3,5,7,7,9,45,65])
ns = s.unique() # ns 为 [1,3,5,7,9,45,65]
print(ns)
          Series加法运算: 两个Series 数组必须索引相同才能相加成功,不然就会出现缺失数据 NaN 的情况
s1 = Series(data=[1,2,3],index=['a','b','c'])
s2 = Series(data=[1,2,3],index=['a','d','c'])
s = s1 + s2
print(s) # s的结果: a 2.0
# b NaN
# c 6.0
# d NaN

        Series的索引可以为True/False:
print(s[[True,False,True,False]]) # --- 发现:如果索引为 False 时,值不显示

s.isnull() # --- 判断s中每个元素是否为NaN ,等于NaN返回True
s.notnull() # --- 判断s中每个元素是否不为NaN ,不等于NaN返回True

#---批量过滤NaN值----------
print(s[s.notnull()]) # s.notnull()返回的 True/False 数组,作为 s[]的索引
----------------------------------------------------------------------------------------------------------
2、DataFrame 的相关属性和操作
---定义:DataFrame 是一个表格,二维的数据结构
---DataFrame == mydql的table
---设计初衷:将Series 的一维数据结构扩展到多维

---DataFrame 既有行索引,还有列索引
行索引:index DataFrame会自动在每一行加上索引
列索引:columns 使用字典创建DataFrame后,columns参数将不可被使用
值:values 同Series 一样 传入的列与字典的键不匹配,则相应的值为NaN

---创建 DataFrame
import numpy as np
df = DataFrame(data = np.random.randint(0,100,size=(3,4)),index=['a','b','c'],columns=['A','B','C','D'])
print(df)
# A B C D
# a 45 63 88 52
# b 74 4 56 35
# c 58 22 14 25

 2.2、DataFrame 的属性 :index    columns    values    shape

        print('返回所有的值(3行4列)',df.values)
print('返回列索引',df.columns)
print('返回行索引',df.index)

使用 ndarray 创建 DataFrame:创建一个表格用于展现张三李四的java/python 成绩:
data ={
'张三':[120,120,120],
'李四':[22,34,34]
}
df = DataFrame(data= data,index=['语文','英语','数学'])
print(df)

---        张三 李四
  ---语文 120   22
  ---英语 120   34
  ---数学 120   34

2.3、使用DataFrame 的索引操作
(1)、对列进行索引>>>>默认列索引
print(df['张三'])
#语文 120
#英语 120
#数学 120
#Name: 张三, dtype: int64 print(df[['李四','张三']]) # --- 取两列,index取多列要加“[]”
#李四 张三
#语文 22 120
#英语 34 120
#数学 34 120  
        (2)、对行进行索引
使用df.loc[]加index进行索引 --隐式索引
使用df.iloc[]加整数进行索引 --显式索引
print('使用df.loc[]加index进行索引',df.loc['语文'])
#使用df.loc[]加index进行索引
#张三 120
#李四 22
Name: 语文, dtype: int64 print('使用df.loc[]取多行',df.loc[['语文','英语']]) # --- 取两行,index取多行要加“[]”
#使用df.loc[]取多行
#张三 李四
#语文 120 22
#英语 120 34 print('使用df.iloc[]加整数进行索引',df.iloc[0])
#使用df.iloc[]加整数进行索引
#张三 120
#李四 22
Name: 语文, dtype: int64 print('使用df.iloc[]取多行',df.iloc[[0,1]]) # --- 取两行,index取多行要加“[]”
#使用df.iloc[]取多行
# 张三 李四
#语文 120 22
#英语 120 34 
        (3)、对元素进行索引
默认df['张三']第一个索引为列索引,第二个为行索引
loc[] 第一个为行索引,第二个为列索引
print('对元素进行索引',df['张三']['语文'])
#对元素进行索引 120 print('使用df.loc[]对元素索引',df.loc['英语']['张三'])
#使用df.loc[]对元素索引 120 print('同上写法',df.loc['英语','张三'])
#同上写法 120

      (4)、取多个元素

“,”左边为行,右边为列

print('使用df.loc[]取多个元素',df.loc[['英语','语文'],'张三'])
#使用df.loc[]取多个元素

#英语 120 
#语文 120
#Name: 张三, dtype: int64

2.4、DataFrame 的切片操作

行切片: df[0:2]切片默认取得是行

print(df[0:2])
# 张三 李四
#语文 120 22
#英语 120 34

列切片 iloc : “,”左边为行,右边为列

print(df.iloc[:,0:1])
# 张三
# 语文 120
# 英语 120
# 数学 120

2.5、DataFrame 的运算操作

DataFrame 的运算和Series 一样:

在运算中自动对齐索引相同的数据

如果索引不对应就补NaN

重要:
      使用python操作符:以行为单位操作(参数必须是行),对所有行都有效。

使用pandas操作函数:
       axis = 0 以列为单位操作(参数必须是列),对所有列都有效
       axis = 1 以行为单位操作(参数必须是行),对所有行都有效
     【注意】fill_value在df和series之间运算时,不能使用

练习:

1、假设ddd是期中考试成绩,ddd2是期末考试成绩,请自由创建ddd2,并将其与ddd相加,求期中期末平均值。

2、假设张三期中考试数学被发现作弊,要记为0分,如何实现?

3、李四因为举报张三作弊立功,期中考试所有科目加100分,如何实现?

4、后来老师发现有一道题出错了,为了安抚学生情绪,给每位学生每个科目都加10分,如何实现?

df1 = DataFrame(data=np.random.randint(0,100,size=(5,3)), index=list("ABCDE"), columns=["python","java","php"])
df2 = DataFrame(data=np.random.randint(0,100,size=(5,3)), index=list("ABCDE"), columns=["python","java","php"])
display(df1, df2) 1.(df1 + df2)/2
2.df1.loc["B","java"] = 0
3.df1.loc["C"] += 100
4.df1 += 10
												

数据分析 Pandas 简介和它的的数据结构的更多相关文章

  1. Python数据分析Pandas库方法简介

    Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...

  2. python 数据分析--pandas

    接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...

  3. 利用Python进行数据分析——pandas入门

    利用Python进行数据分析--pandas入门 基于NumPy建立的 from pandas importSeries,DataFrame,import pandas as pd 一.两种数据结构 ...

  4. python库pandas简介

    pandas是基于numpy的数据分析模块,提供了大量标准模型和高效操作大型数据集所需要的工具. pandas主要提供了3种数据结构:1.Series,带标签的一维数组:2.DataFrame,带标签 ...

  5. 利用Python进行数据分析-Pandas(第一部分)

    利用Python进行数据分析-Pandas: 在Pandas库中最重要的两个数据类型,分别是Series和DataFrame.如下的内容主要围绕这两个方面展开叙述! 在进行数据分析时,我们知道有两个基 ...

  6. python之pandas简介

    一. Pandas简介 1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和 ...

  7. Pandas 简介

    Pandas 简介 pandas 是 python 内基于 NumPy 的一种工具,主要目的是为了解决数据分析任务.Pandas 包含了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具 ...

  8. Python数据分析--Pandas知识点(三)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...

  9. Python数据分析--Pandas知识点(二)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...

随机推荐

  1. vue 事件函数传参

    事件函数传参 在元素绑定事件时候,如果我们的函数没有传参,他也会有一个默认的传参值 event 但是如果我们的函数有传参,那么它必须作为做为最后一个传参值显示传递,且必须为$event 通过代码打印我 ...

  2. 一文搞懂Java引用拷贝、浅拷贝、深拷贝

    微信搜一搜 「bigsai」 专注于Java和数据结构与算法的铁铁 文章收录在github/bigsai-algorithm 在开发.刷题.面试中,我们可能会遇到将一个对象的属性赋值到另一个对象的情况 ...

  3. [日常摸鱼]poj1151Atlantis-扫描线

    题意:给一堆长宽平行于坐标轴的长方形求并的面积 我个沙茶快写了一晚上- 大概思想就是先根据$y$坐标排个序,把$y$坐标离散化一下,放到线段树里面维护,这里的写法是让线段树的节点储存这个点对应的整段线 ...

  4. pandas的学习4-处理丢失数据

    import pandas as pd import numpy as np ''' 有时候我们导入或处理数据, 会产生一些空的或者是 NaN 数据,如何删除或者是填补这些 NaN 数据就是我们今天所 ...

  5. vulstudy靶机搭建(kali)

    安装 安装docker apt-get install docker.io //# 安装docker pip install docker-compose //# 安装docker-compose g ...

  6. Docker 部署 _实现每日情话 定时推送(apscheduler)

    由于最近工作比较忙,后续博客可能更新不及时,哈哈 前言: 由于python对于微信推送不够友好,需要扫码登录,短信接口需要RMB.我就想到了qq邮箱发送到好友,然而微信有qq邮箱提醒功能,就实现了我需 ...

  7. Java学习_Java核心类

    字符串和编码 字符串在String内部是通过一个char[]数组表示的,因此,可以按下面的写法: String s2 = new String(new char[] {'H', 'e', 'l', ' ...

  8. Vue2+Koa2+Typescript前后端框架教程--04班级管理示例(路由调用控制器)

    上篇文章分享了简单的三层模式和基础文件夹的创建,本篇将以示例的形式详细具体的展示Router.Controller.Service.Model之间业务处理和数据传输. 1. 班级管理数据模型创建.数据 ...

  9. ubuntu系统64位dnw

    /* dnw2 linux main file. This depends on libusb. * * * * Author: Fox <hulifox008@163.com> * * ...

  10. Centos7无网络下安装mysql5.7——mysql-rpm安装

    本教程指将mysql安装到系统默认目录下,如想自定义修改目录,请在rpm安装时自行修改: rpm -ivh --prefix= /opt xxx.rpm #将xxx.rpm安装到/opt下 一.下载m ...