利用Python进行数据分析：【NumPy】

一、NumPy：数组计算
1、NumPy是高性能科学计算和数据分析的基础包。它是pandas等其他各种工具的基础。
2、NumPy的主要功能：

# ndarray，一个多维数组结构，高效且节省空间

# 无需循环对整组数据进行快速运算的数学函数

# *读写磁盘数据的工具以及用于操作内存映射文件的工具

# *线性代数、随机数生成和傅里叶变换功能

# *用于集成C、C++等代码的工具

3、安装方法：pip install numpy

二、NumPy：ndarray-多维数组对象
1、创建ndarray：np.array()
2、ndarray是多维数组结构，与列表的区别是：
　　--数组对象内的元素类型必须相同
　　--数组大小不可修改
3、常用属性：

　　--T 数组的转置（对高维数组而言）
　　--dtype 数组元素的数据类型
　　--size 数组元素的个数
　　--ndim 数组的维数
　　--shape 数组的维度大小（以元组形式）
4、常用方法

# array.shape                         array的规格

# array.ndim

# array.dtype                         array的数据规格

# numpy.zeros(dim1,dim2)              创建dim1*dim2的零矩阵

# numpy.arange

# numpy.eye(n) /numpy.identity(n)     创建n*n单位矩阵

# numpy.array([…data…], dtype=float64 )

# array.astype(numpy.float64)         更换矩阵的数据形式

# array.astype(float)                 更换矩阵的数据形式

# array * array                       矩阵点乘

# array[a:b]                          切片

# array.copy()                        得到ndarray的副本，而不是视图

# array [a] [b]=array [ a, b ]        两者等价

# name=np.array(['bob','joe','will']) res=name==’bob’ res= array([ True, False, False], dtype=bool)

# data[True,False,…..]                索引，只索取为True的部分，去掉False部分

# 通过布尔型索引选取数组中的数据，将总是创建数据的副本。

# data[ [4,3,0,6] ]                   索引，将第4,3,0,6行摘取出来，组成新数组

# data[-1]=data[data.__len__()-1]

# numpy.reshape(a,b)                  将a*b的一维数组排列为a*b的形式

# array([a,b,c,d],[d,e,f,g])          返回一维数组，分别为[a,d],[b,e],[c,f],[d,g]

# array[ [a,b,c,d] ][:,[e,f,g,h] ]=array[ numpy.ix_( [a,b,c,d],[e,f,g,h] ) ]

# array.T                             array的转置

# numpy.random.randn(a,b)             生成a*b的随机数组

# numpy.dot(matrix_1,matrix_2)        矩阵乘法

# array.transpose( (1,0,2,etc.) )     对于高维数组，转置需要一个由轴编号组成的元组

三、NumPy：ndarray-数据类型

# ndarray数据类型：dtype：

# 布尔型：bool_

# 整型：int_ int8 int16 int32 int64

# 无符号整型：uint8 uint16 uint32 uint64

# 浮点型：float_ float16 float32 float64

# 复数型：complex_ complex64 complex128

四、NumPy：ndarray-创建

# array()         将列表转换为数组，可选择显式指定dtype

# arange()        range的numpy版，支持浮点数

# linspace()      类似arange()，第三个参数为数组长度

# zeros()         根据指定形状和dtype创建全0数组

# ones()          根据指定形状和dtype创建全1数组

# empty()         根据指定形状和dtype创建空数组（随机值）

# eye()           根据指定边长和dtype创建单位矩阵

五、NumPy：索引和切片

# 1、数组和标量之间的运算

#     a+1    a*3    1//a    a**0.5

# 2、同样大小数组之间的运算

#     a+b    a/b    a**b

# 3、数组的索引：

#     一维数组：a[5]

#     多维数组：

#         列表式写法：a[2][3]

#         新式写法：a[2,3] (推荐)

#    数组的切片：

#         一维数组：a[5:8]    a[4:]        a[2:10] = 1

#         多维数组：a[1:2, 3:4]    a[:,3:5]        a[:,1]

# 4、强调：与列表不同，数组切片时并不会自动复制，在切片数组上的修改会影响原数组。    【解决方法：copy()】

六、NumPy：布尔型索引

问题：给一个数组，选出数组中所有大于5的数。

　　答案：a[a>5]

　　原理：

　　　　a>5会对a中的每一个元素进行判断，返回一个布尔数组

　　　　布尔型索引：将同样大小的布尔数组传进索引，会返回一个由所有True对应位置的元素的数组

问题2：给一个数组，选出数组中所有大于5的偶数。

问题3：给一个数组，选出数组中所有大于5的数和偶数。

　　答案：

　　　　　a[(a>5) & (a%2==0)]

　　　　　a[(a>5) | (a%2==0)]

# import numpy as np

# a = np.array([1,2,3,4,5,4,7,8,9,10])

# a[a>5&(a%2==0)]  #注意加括号，不叫括号错误，如下

# 输出：array([ 1,  2,  3,  4,  5,  4,  7,  8,  9, 10])

# a[(a>5)&(a%2==0)]

# 输出：array([ 8, 10])

七、NumPy：花式索引*

问题1：对于一个数组，选出其第1，3，4，6，7个元素，组成新的二维数组。

答案：a[[1,3,4,6,7]]

问题2：对一个二维数组，选出其第一列和第三列，组成新的二维数组。

答案：a[:,[1,3]]

八、NumPy：通用函数
通用函数：能同时对数组中所有元素进行运算的函数

【一元函数】：abs, sqrt, exp, log, ceil, floor, rint, trunc, modf,

# numpy.sqrt(array)                   平方根函数

# numpy.exp(array)                    e^array[i]的数组

# numpy.abs/fabs(array)               计算绝对值

# numpy.square(array)                 计算各元素的平方 等于array**2

# numpy.log/log10/log2(array)         计算各元素的各种对数

# numpy.sign(array)                   计算各元素正负号

# numpy.isnan(array)                  计算各元素是否为NaN

# numpy.isinf(array)                  计算各元素是否为NaN

# numpy.cos/cosh/sin/sinh/tan/tanh(array) 三角函数

# numpy.modf(array)                   将array中值得整数和小数分离，作两个数组返回

# numpy.ceil(array)                   向上取整,也就是取比这个数大的整数

# numpy.floor(array)                  向下取整,也就是取比这个数小的整数

# numpy.rint(array)                   四舍五入

# numpy.trunc(array)                  向0取整

# numpy.cos(array)                       正弦值

# numpy.sin(array)                    余弦值

# numpy.tan(array)                    正切值 

【二元函数】：add, substract, multiply, divide, power, mod,

# numpy.add(array1,array2)            元素级加法

# numpy.subtract(array1,array2)       元素级减法

# numpy.multiply(array1,array2)       元素级乘法

# numpy.divide(array1,array2)         元素级除法 array1./array2

# numpy.power(array1,array2)          元素级指数 array1.^array2

# numpy.maximum/minimum(array1,aray2) 元素级最大值

# numpy.fmax/fmin(array1,array2)      元素级最大值，忽略NaN

# numpy.mod(array1,array2)            元素级求模

# numpy.copysign(array1,array2)       将第二个数组中值得符号复制给第一个数组中值

# numpy.greater/greater_equal/less/less_equal/equal/not_equal (array1,array2)

# 元素级比较运算，产生布尔数组

# numpy.logical_end/logical_or/logic_xor(array1,array2)元素级的真值逻辑运算

九、补充知识：浮点数特殊值
1、浮点数：float
2、浮点数有两个特殊值：
　　--nan(Not a Number)：不等于任何浮点数（nan != nan）
　　--inf(infinity)：比任何浮点数都大
　　--在数据分析中，nan常被表示为数据缺失值
2、NumPy中创建特殊值：np.nan np.inf
3、在数据分析中，nan常被用作表示数据缺失值
既然nan连自己都不相等，那么怎么判断是不是NAN呢？
用a==a 只要返回False就能判断

十、NumPy：数学和统计方法

常用函数：

# sum    求和

# cumsum 求前缀和

# mean    求平均数

# std    求标准差

# var    求方差

# min    求最小值

# max    求最大值

# argmin    求最小值索引

# argmax    求最大值索引

十一、NumPy：随机数生成
随机数生成函数在np.random子包内

常用函数：

# rand    给定形状产生随机数组（0到1之间的数）

# randint    给定形状产生随机整数

# choice    给定形状产生随机选择

# shuffle    与random.shuffle相同

# uniform    给定形状产生随机数组

利用Python进行数据分析：【NumPy】的更多相关文章

利用Python进行数据分析——Numpy基础：数组和矢量计算
利用Python进行数据分析--Numpy基础:数组和矢量计算 ndarry,一个具有矢量运算和复杂广播能力快速节省空间的多维数组对整组数据进行快速运算的标准数学函数,无需for-loop 用于读写 ...
利用python进行数据分析--numpy基础
随书练习,第四章 NumPy基础:数组和矢量运算 # coding: utf-8 # In[1]: # 加注释的三个方法1.用一对"""括起来要注释的代码块. # 2. ...
利用Python进行数据分析(5) NumPy基础: ndarray索引和切片
概念理解索引即通过一个无符号整数值获取数组里的值. 切片即对数组里某个片段的描述. 一维数组一维数组的索引一维数组的索引和Python列表的功能类似: 一维数组的切片一维数组的切片语法格式为a ...
利用Python进行数据分析(4) NumPy基础: ndarray简单介绍
一.NumPy 是什么 NumPy 是 Python 科学计算的基础包,它专为进行严格的数字处理而产生.在之前的随笔里已有更加详细的介绍,这里不再赘述. 利用 Python 进行数据分析(一)简单介绍 ...
《利用Python进行数据分析·第2版》第四章 Numpy基础：数组和矢量计算
<利用Python进行数据分析·第2版>第四章 Numpy基础:数组和矢量计算 numpy高效处理大数组的数据原因: numpy是在一个连续的内存块中存储数据,独立于其他python内置对 ...
高阶NumPy知识图谱-《利用Python进行数据分析》
所有内容整理自<利用Python进行数据分析>,使用MindMaster Pro 7.3制作,emmx格式,源文件已经上传Github,需要的同学转左上角自行下载或者右击保存图片. 其他章 ...
利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
《利用python进行数据分析》读书笔记 --第一、二章准备与例子
http://www.cnblogs.com/batteryhp/p/4868348.html 第一章准备工作今天开始码这本书--<利用python进行数据分析>.R和python都得 ...
利用python进行数据分析之绘图和可视化
matplotlib API入门使用matplotlib的办法最常用的方式是pylab的ipython,pylab模式还会向ipython引入一大堆模块和函数提供一种更接近与matlab的界面,ma ...
利用Python进行数据分析——重要的Python库介绍
利用Python进行数据分析--重要的Python库介绍一.NumPy 用于数组执行元素级计算及直接对数组执行数学运算线性代数运算.傅里叶运算.随机数的生成用于C/C++等代码的集成二.pan ...

随机推荐

MSIL实用指南-this的生成
C#关键字是非静态方法体内部,用Ldarg_0指代this例子ilGenerator.Emit(OpCodes.Ldarg_0);
Jconsole/jvisualvm远程监控weblogic中间件配置
1.进入linu操作界面,进入到启动服务目录下 2.选择要监控的服务的启动项,进入到编辑状态(注意:要先将该文件进行备份),如下图所示 3.修改USER_AGRS域,添加如下内容,注意修改IP USE ...
netcore 之动态代理（微服务专题）
动态代理配合rpc技术调用远程服务,不用关注细节的实现,让程序就像在本地调用以用. 因此动态代理在微服务系统中是不可或缺的一个技术.网上看到大部分案例都是通过反射自己实现,且相当复杂.编写和调试相当不 ...
Mac应用程序无法打开或文件损坏的处理方法你知道吗？
很多用户在安装Mac软件的时候,经常会遇到提示“xxx.app已损坏,打不开.您应该将它移到废纸篓“或”打不开的xxx.app,因为它来自身份不明的开发者”,如下图的样子: 真的损坏了么?是不是真的要 ...
WebApi使用OAuth2认证
本篇文章实现了四种认证方式中的客户端模式和密码模式,未实现token持久化未介绍OAuth2的相关概念,全部是干货,可自己在网上搜索OAuth2相关知识,在这不做过多阐述一.引用OAuth2所需的 ...
Atcoder D - Widespread （二分）
题目链接:http://abc063.contest.atcoder.jp/tasks/arc075_b 题解:直接二分答案然后再判断(a-b)来替代不足的.看代码比较好理解,水题. #include ...
codeforces 808 E. Selling Souvenirs (dp+二分+思维)
题目链接:http://codeforces.com/contest/808/problem/E 题意:最多有100000个物品最大能放下300000的背包,每个物品都有权值和重量,为能够带的最大权值 ...
Hexo博客Next v7.X 主题升级,美化警示录
本文转载于:Hexo博客Next v7.X 主题升级,美化警示录丨奥怪的小栈前言经历了好几天(懒癌晚期懒得数了)的与主题升级斗争后,我终于完成基本上完成了next主题的升级!升到了V7.3!哈哈哈 ...
一文读懂 Android TouchEvent 事件分发、拦截、处理过程
什么是事件?事件是用户触摸手机屏幕,引起的一系列TouchEvent,包括ACTION_DOWN.ACTION_MOVE.ACTION_UP.ACTION_CANCEL等,这些action组合后变成点 ...
阿里《JAVA实习生入职测试题—2019最新》之答案详解（连载一）
力争清晰完整准确(逐步完善,持续更新) 1.String类为什么是final的首先分析String的源码: public final class String implements java.io. ...

利用Python进行数据分析：【NumPy】

利用Python进行数据分析：【NumPy】的更多相关文章

随机推荐

热门专题