[读书笔记] Python数据分析 (四) 数组和矢量计算
Numpy:高性能计算和数学分析的基础包
- ndarray, 一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组
- 用于对数组数据进行快速运算的标准数学函数
- 用于读写磁盘数据的工具和用于操作内存映射文件的工具
- 线性代数,随机数生成,傅里叶变换
- 用于集成C,C++,Fortran等语言编写的代码工具(很容易将数据传给低级语言编写的外部库,外部库也能以Numpy数组形式将数据返回给python,使得python成为包装c/c++/Fortran历史代码库选择)
ndarray: N维数组对象,快速而灵活的大数据容器集,通用同构数据容器。
data.shape: 一个各维度大小的元组
data.dtype: 说明数组数据类型的对象
如何创建:
array()函数
zeros(): 全零
ones(): 全一
empty(): 垃圾值
arrange(): python内置函数range的数组版
所有数据类型默认float64
astype()类型转换:
数组和标量之间的运算:
相同大小之间的组和数组,数组与标量之间的运算都会将运算用到元素级
不同大小数组之间的运算叫做广播(broadcasting)
基本索引和切片:
和列表最重要的区别在于, 数组的切片是原始数组的视图(数据不会复制,视图上任何修改都会反映到源数组上)
原因:Numpy设计的目的是处理大数据,所以假如Numpy坚持将数据复制来复制去会产生性能和内存的问题
显示复制:copy()方法
基本的索引和切片:
切片的时候区间同样是左开右闭:
布尔值索引:布尔数组的长度必须和被索引的轴长度一致
通过布尔索引选取数组中的数据,将总是创建数据的副本,即使返回一模一样的数组也是这样
python 中的 and 和 or 在布尔数组中无效
花式索引:利用整数数组进行索引
和切片不一样总是将数据复制到新的数组当中
数组转置和轴对换
transpose()方法和T属性
高维数组转置: swapaxes transpose方法
快速的元素级数组函数
一元函数
二元函数
利用数组进行数据处理
矢量化:用数组表达式代替循环,矢量化数组运算比等价的纯python方式快1-2个数量级(甚至更多)
将条件逻辑转换为数组运算
np.where()
数学和统计方法
用于布尔型数组的方法
any():测试数组中是否存在一个或者多个True
all(): 检查数组中所有值是否都是True
排序:
顶级方法np.sort()返回数组已排序副本
属性sort()修改数组本身
唯一化及其他的集合逻辑
np.unique()唯一化
np.in1d()测试数组中值在另一个数组中的成员资格
集合函数:
数组文件输入输出
np.save()/np.savez()
np.load()
线性代数
dot():既是数组方法也是numpy命名空间中的一个函数
numpy.linalg库中有一组标准矩阵分解运算以及求诸如逆和行列式之类的东西
随机数生成
[读书笔记] Python数据分析 (四) 数组和矢量计算的更多相关文章
- python numpy基础 数组和矢量计算
在python 中有时候我们用数组操作数据可以极大的提升数据的处理效率, 类似于R的向量化操作,是的数据的操作趋于简单化,在python 中是使用numpy模块可以进行数组和矢量计算. 下面来看下简单 ...
- [读书笔记] Python数据分析 (三) IPython
1. 什么是IPython IPyhton 本身没有提供任何的计算或者数据分析功能,在交互式计算和软件开发者两个方面最大化地提高生产力,execute-explore instead of edit- ...
- [读书笔记] Python数据分析 (五) pandas入门
pandas: 基于Numpy构建的数据分析库 pandas数据结构:Series, DataFrame Series: 带有数据标签的类一维数组对象(也可看成字典) values, index 缺失 ...
- [读书笔记] Python数据分析 (一) 准备工作
1. python中数据结构:矩阵,数组,数据框,通过关键列相互联系的多个表(SQL主键,外键),时间序列 2. python 解释型语言,程序员时间和CPU时间衡量,高频交易系统 3. 全局解释器锁 ...
- [读书笔记] Python数据分析 (二) 引言
1. 数据分析的任务:数据读写,数据准备(清洗,修整,规范化,重塑,切片切块,变形),转换,建模计算,呈现(模型/数据) 2. 数据集: bit.ly的1.usa.gov数据:URL缩短服务bit ...
- [读书笔记] Python 数据分析 (十二)高级NumPy
da array: 一个快速而灵活的同构多维大数据集容器,可以利用这种数组对整块的数据进行一些数学运算 数据指针,系统内存的一部分 数据类型 data type/dtype 指示数据大小的元组 str ...
- [读书笔记] Python 数据分析 (八)画图和数据可视化
ipython3 --pyplot pyplot: matplotlib 画图的交互使用环境
- [读书笔记] Python 数据分析 (十一)经济和金融数据应用
resample: 重采样函数,可以按照时间来提高或者降低采样频率,fill_method可以使用不同的填充方式. pandas.data_range 的freq参数枚举: Alias Descrip ...
- 《利用python进行数据分析》读书笔记--第四章 numpy基础:数组和矢量计算
http://www.cnblogs.com/batteryhp/p/5000104.html 第四章 Numpy基础:数组和矢量计算 第一部分:numpy的ndarray:一种多维数组对象 实话说, ...
随机推荐
- Project Euler 42 Coded triangle numbers
题意:三角形数序列的第n项由公式tn = 1/2n(n+1)给出:因此前十个三角形数是: 1, 3, 6, 10, 15, 21, 28, 36, 45, 55, - 将一个单词的每个字母分别转化为其 ...
- nyoj2-吝啬的国度
吝啬的国度 时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述 在一个吝啬的国度里有N个城市,这N个城市间只有N-1条路把这个N个城市连接起来.现在,Tom在第S号城市,他有 ...
- HDU 5126 stars (四维偏序+树状数组)
题目大意:略 题目传送门 四维偏序板子题 把插入操作和询问操作抽象成$(x,y,z,t)$这样的四元组 询问操作拆分成八个询问容斥 此外$x,y,z$可能很大,需要离散 直接处理四维偏序很困难,考虑降 ...
- MAVEN 构建包的引用
1.什么叫构建包的引用? 当你存在两个maven项目分别是项目A,项目B时,且项目B要引用项目A的方法,那么你就用把项目A打成*.jar架包,放到本地的Maven仓库提供给项目B去引用. A.用命令到 ...
- ubuntu17.04中启动tnsorboard过程
ubuntu17.04中启动tnsorboard过程 首先激活tensorboard,找到根目录文件(注:跟tensorflow文件同级)找到tensorboard文件的main.py文件 然后找到程 ...
- mysql 插入更新在一条sql ON DUPLICATE KEY UPDATE
有时候需要进行数据操作的,如果有数据则更新数据, 没有数据则插入. 以往的做法是先查询,再根据查询结果进行判断,执行插入或更新操作 其实 有一种 ON DUPLICATE KEY UPDATE 语法, ...
- (OpenExplorer For Eclipse)Eclipse 中打开工程目录的插件(转)
我们想在Eclipse中的打开工程目录,Eclipse 自身没有这个功能,我们可以安装一个插件来实现这个功能.具体的操作方法如下: (1).到以下链接中下载插件:https://github.com/ ...
- T4系列文章之1:认识T4
一.导读 MSDN:Code Generation and T4 Text Templates 博客园:编写T4模板进行代码生成 Oleg Sych系列文章:http://www.olegsych.c ...
- javascript操作window对象
document.defaultView或全局变量window--获取一个window对象. 1)获取窗体信息 innerHeight.innerWidth--获取窗体内容区域的高度.宽度. oute ...
- C++表达式求值(利用数据结构栈)
唉,刚刚用C++又又一次写了一个较完好的表达式求值程序,最后精简后程序还不到100行.这不经让我 想到了大一上学期刚学c语言时自己费了好大的劲,写了几百行并且功能还不是非常齐全(当时还不能计算有括号的 ...