Numpy Pandas

数据分析 : 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律.

数据分析三剑客 - Numpy Pandas Matplotlib

# Numpy 基于一维或多维的数组    数组开辟的内存是连续的  数据容器 (是python的一个扩展程序库,支持大量的维度数组和矩阵运算,此外也针对数组原酸提供大量的数学函数库)

import numpy as np

ndarray 对象是用来存放同类型元素的多维数组,其中每个元素在内存中都有相同存储大小的区域

# array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0) 数据源 默认整型

arr1 = np.array([1,2,3,4,5])    一维

arr1 = np.array([[1,2,3],[3,4,"two"]])  二维

# 传进来的列表中包含了不同的数据类型,则统一为统一类型,优先级:str>float>int

# 加载一张图片进来

import matplotlib.pyplot as plt

img_arr = plt.imread('./toy.jpg') #读图片 图像

# img_arr     # 三维数组

plt.imshow(img_arr)    # 显示图片

img_arr = img_arr-10

plt.imshow(img_arr)
img_arr.shape   #数组的形状(px,px,维度)

--------------------------------------

np routines 函数创建
np.ones(shape,dtype,order)  # 最后是排序
np.zeros(shape,dtype,order) # float

np.full(shape=(5,6,3),fill_value=12) # 几行几列 几纬度  数据填充

np.linspace(0,100,10)  # 基于等差数列的一位数组(不能,参数没有shape)  最后是个数

np.arange(0,100,3)     # 一维数组  [起止)步长
---------------------------------------

# 随机性固定随机因子
　np.random.seed(10) #固定时间种子产生的随机数就固定下来了
　np.random.randint(0,100,size=(6,7)) #[ )

　np.random.randn(d0,d1,d2 .. .. dn) #高斯分布标准正态分布

　np.random.random(size=(4,5)) #[0.0, 1.0)半闭合

　np.eye(5) 返回一个二维数组，对角线上是1，其他地方是0. 2-D float

#  ndarray的属性

ndim 维度

shape 形状(各维度的长度)

size  总长度

dtype 元素类型

img_arr.ndim    3

img_arr.size    114027

img_arr.shape  (191, 199, 3)

img_arr.dtype  dtype('uint8')

type(img_arr)  numpy.ndarray

ndarray 索引  一维与列表一样,多维时候同理

arr1[0][0]

--------- 切片---------------

np.random.seed(1)

arr = np.random.randint(0,100,size=(5,6))

arr[:2]   # 获取前两行

arr[:,:2]    # 获取前两列     #(行,列,三维度)  左行右列

arr[0:2,:2]   # 前2行/2列

---------- 倒叙 ------------

# arr[::-1]    行倒叙

# arr[:,::-1]    列倒序

# arr[::-1,::-1]  行列都倒叙

# 图片各种翻转

plt.imshow(img_arr)

plt.imshow(img_arr[:,::-1,:])  # 左右转 列倒

plt.imshow(img_arr[::-1,:,:])   # 上下转 列倒序

plt.imshow(img_arr[::-1,::-1,::-1]) # 全倒序

变形 ?   reshape  参数是tuple

一维变二维   -1是自动计算

二维变一维   一维

# 合并三张照片-------------------------------

import matplotlib.pyplot as plt
img_arr = plt.imread('./toy.jpg')

im3 = np.concatenate((img_arr,img_arr,img_arr),1)  #级联

im9 = np.concatenate((im3,im3,im3),0)\

plt.imshow(im9)

# -- 切图 ----------------------------------

plt.imshow(img_arr)

plt.imshow(img_arr[40:110,50:133,:])

# 求和

a1.sum(axis=0) #a.sum(axis=None, dtype=None, out=None, keepdims=False)

# 排序

np.sort(a1,axis=1)  #不改变输入

ndarray.sort() 本地处理 不占用空间 但改变输入

级联需要注意:

    参数是列表: 一定要加[]  ()

    维度必须相同

    形状相符  维度一致时,横向级联行数一样,纵向亦然

    可通过axis 参数改变级联的方向

级联知识

所有赋值运算不会为ndarray的任何元素创建副本。对赋值后的对象的操作也对原来的对象生效。

arr = np.array([1,2,3,4,5])

a = arr.copy()  #创建副本

a[1] = 10

np.sum 和

np.max/ np.min 最大/小

np.mean() 平均值

ndarray的聚合操作

ndarray广播机制的三条规则:缺失维度的数组将维度补充为进行运算的数组的维度。缺失的数组元素使用已有元素进行补充

    规则一：为缺失的维度补1(进行运算的两个数组之间的维度只能相差一个维度)

    规则二：缺失元素用已有值填充

    规则三：缺失维度的数组只能有一行或者一列

广播机制

快速排序

    np.sort()与ndarray.sort()都可以，但有区别：

        np.sort()不改变输入

        ndarray.sort()本地处理，不占用空间，但改变输入

部分排序

    np.partition(a,k)

    有的时候我们不是对全部数据感兴趣，我们可能只对最小或最大的一部分感兴趣。

        当k为正时，我们想要得到最小的k个数

        当k为负时，我们想要得到最大的k个数

ndarray的排序

# Pandas

# 级联 维度一样,横向级联,纵向级联,形状相符
import numpy as np

a1 = np.random.randint(0,100,size=(4,5))

a2 = np.random.randint(0,100,size=(4,5))

a3 = np.random.randint(0,100,size=(4,4))

display(a1,a2,a3)

np.concatenate((a1,a2),axis=1)  #concatenate((a1, a2, ...), axis=0竖直轴向, out=None)

# 合并三张照片  九宫格图片

import matplotlib.pyplot as plt

img_arr = plt.imread('./toy.jpg')  #读取图片

plt.imshow(img_arr)  # 查看图片

im3 = np.concatenate((img_arr,img_arr,img_arr),1) #横向

im9 = np.concatenate((im3,im3,im3),0)  #纵向

plt.imshow(im9)
plt.imshow(img_arr[40:110,50:133,:])  #图片裁剪

a1 = np.random.randint(0,100,size=(4,5))

sum 求和

a1.sum(axis=0) #a.sum(axis=None, dtype=None, out=None, keepdims=False) 列
a1.sum(axis=1) # 行
a1.sum() #总和

排序
np.sort(a1,axis=0) #不改变输入(返回新的数组,原数组不变) axis = 1行 0列不指定的话就是的所有的都排序
a1.sort() #本地处理,不占用空间,但改变输入 --直接修改原数组,不推荐使用 a.sort(axis=-1, kind='quicksort', order=None)#Sort an array, in-place.

s1 = Series(data=[1,2,3,4,5]) # 隐式索引 默认索引

s2 = Series(data=[1,2,3,4,5],index=['a','b','c','d','e']) #显示索引

s1[0],

s2[1],

s2['a']

s2[['a','b','c']]  #拿多个值

s3 = Series(data=np.random.randint(0,100,size=(9)),name='haha')

　　s3    #用 numpy 创建Series  
dic = { 'english':100, 'yuwen':120 } #字典创建series
　　Series(data=dic) # 输出 类似于字典

s2.iloc[0:3] # iloc跟隐式 loc跟显示切片
s2['aaa']=1000 #相当于添加键值对
s2.index # 显式索引
s2.tail(2) #后几个
s2.head(2) #前几个

# 去重
s = Series(data=[1,3,1,2,4,5,3,2,3,5,6,7,4,2,4,5,5])

s.unique() # 返回值是 array => array([1, 3, 2, 4, 5, 6, 7], dtype=int64) 横排打印,series竖排打印,包含索引

# 排空

s1 = Series(data=[1,2,3,4,5],index=['a','b','c','e','f'])

s = s1 +  s2  # 索引与之对齐的数相加  显示隐式都可以

# 数据清洗 去空值

s.isnull() # True Falses.notnull() #True False

#s[[True,False,True,True,False,True,False]] # 只保留True对应的值   s[[0,1,2,3]]

s[s.notnull()]  #返回新的Series   s原始的数据不变

索引与之对齐的加减乘除/运算

DataFrame 是由Series组成的表格型数据结构值行索引列索引 //一维拓展多维

import pandas as pd

from pandas import Series,DataFrame

df = DataFrame(data=np.random.randint(60,120,size=(3,4)),index=['a','b','c'],columns=['A','B','C','D'])   #numpy数据源

#(data=None, index 行=None, columns 列=None, dtype=None, copy=False)  3行4列

dic = {
'zhangsan':[11,22,33,44],
'lisi':[0,1,2,3]
} #字典数据源
df = DataFrame(data=dic,index=['语文','数学','英语','化学'])

df['zhangsan'] #列索引取值,只能用显示索引
df[['lisi','zhangsan']] #取多列

df.loc['语文'] #取行 index
df.iloc[0] 整数

df.values #所有元素

df.index  #行索引 index  obj

df.columns = ['张','李'] #列索引修改 obj

df.shape   #(3,3) 形状

df.loc['英语','zhangsan'] # 先取行,再取列
df.loc[['英语','化学'],'zhangsan'] # 取多个值

df.iloc[:,1] #隐式索引左行右列

df[0:2] #行切片前两行
df.iloc[:,0:2] #列切片前两列

df['lisi'] #索引拿到列
df.loc[:,'lisi':'zhangsan'] #通过切片切出前两列

df.loc[['语文','数学']] #索引取行
df['语文':'数学'] #切片取行
df.loc['语文','zhangsan'] # 通过索引取元素

-----------------------------------------------

dic = {
'zhangsan':[11,22,33,44],
'lisi':[0,1,2,3]
}
df = DataFrame(data=dic,index=['语文','数学','英语','化学'])
df_qz = df
qimo = df_qz
qimo['zhangsan']=[88,99,100,110]
(df_qz+qimo)/2 　　　　　　　　　　 #期中期末平均成绩
df_qz.loc['数学','zhangsan']=0 #数学改0分
df_qz['lisi'] =df_qz['lisi']+100 #lisi所有成绩加100
df_qz = df_qz + 10 　　　　　　　 #所有人的各门课都加10

Numpy Pandas的更多相关文章

Ipython自动导入Numpy,pandas等模块
一.引言最近在学习numpy,书上要求安装一个Ipythpn,可以自动导入Numpy,pandas等数据分析的模块,可是当我安装后,并不能自动导入numpy模块,还需要自己import.我就去查了一 ...
Numpy&Pandas
Numpy & Pandas 简介此篇笔记参考来源为<莫烦Python> 运算速度快:numpy 和 pandas 都是采用 C 语言编写, pandas 又是基于 numpy, ...
python 数据分析工具之 numpy pandas matplotlib
作为一个网络技术人员,机器学习是一种很有必要学习的技术,在这个数据爆炸的时代更是如此. python做数据分析,最常用以下几个库 numpy pandas matplotlib 一.Numpy库为了 ...
有关python numpy pandas scipy 等能在YARN集群上运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
第一章：AI人工智能の数据预处理编程实战 Numpy, Pandas, Matplotlib, Scikit-Learn
本课主题数据中 Independent 变量和 Dependent 变量 Python 数据预处理的三大神器:Numpy.Pandas.Matplotlib Scikit-Learn 的机器学习实战 ...
Numpy+Pandas读取数据
1.为什么使用Numpy+Pandas 在使用Numpy读取csv文件时,文件中含有字符串时,会出现ValueError错误 2.Pandas读取csv文件:
linux下安装numpy,pandas,scipy,matplotlib,scikit-learn
python在数据科学方面需要用到的库: a.Numpy:科学计算库.提供矩阵运算的库. b.Pandas:数据分析处理库 c.scipy:数值计算库.提供数值积分和常微分方程组求解算法.提供了一个非 ...
Python: NumPy, Pandas学习资料
NumPy 学习资料书籍 NumPy Cookbook_[Idris2012] NumPy Beginner's Guide,3rd_[Idris2015] Python数据分析基础教程:NumPy ...
常用统计分析python包开源学习代码 numpy pandas matplotlib
常用统计分析python包开源学习代码 numpy pandas matplotlib 待办 https://github.com/zmzhouXJTU/Python-Data-Analysis

随机推荐

AD转换器的主要技术指标
1)分辩率(Resolution) 指数字量变化一个最小量时模拟信号的变化量,定义为满刻度与2n的比值.分辩率又称精度,通常以数字信号的位数来表示. 2) 转换速率(Conversion Ra ...
linux安装Zookeeper及redis集群
亲测有效: 1.linux下安装zookeeper:https://www.cnblogs.com/zuolun2017/p/8186254.html 2.linux下安装redis集群:https: ...
tp5 使用phpword 替换word模板并利用com组件转换pdf
tp5 使用phpword 替换word模板并利用com组件转换pdf 一.首先composer安装PHPword,就不多说了二.然后是把模板中要替换的部分用变量代替三.把原始的模板文件放入项 ...
线程同步器CountDownLatch
Java程序有的时候在主线程中会创建多个线程去执行任务,然后在主线程执行完毕之前,把所有线程的任务进行汇总,以前可以用线程的join方法,但是这个方法不够灵活,我们可以使用CountDownLatch ...
ftp的相关配置
参考 https://www.cnblogs.com/hexige/p/7809481.html 访问参数
AcWing 893. 集合-Nim游戏
//只能拿某些特定个数的石子 #include <cstring> #include <iostream> #include <algorithm> #includ ...
阿里云的maven仓库地址
<mirror> <id>nexus-aliyun</id> <mirrorOf>central</mirrorOf> <name&g ...
516，base64的原理及优缺点
优点是可以加密,减少了http请求缺点是需要消耗cpu进行编解码适用于小图片 base的体积约为原图的4/3
HDU 3530
新手理解(可能有理解错误的地方,请指教,嘿嘿) #include<stdio.h> #include<string.h> #include<math.h> #inc ...
mybatis报错：A query was run and no Result Maps were found for the Mapped Statement
转自:https://blog.csdn.net/u013399093/article/details/53087469 今天编辑mybatis的xml文件,出现如下错误: 程序出现异常[A quer ...

Numpy Pandas

Numpy Pandas的更多相关文章

随机推荐

热门专题