利用python进行数据分析--numpy基础
随书练习,第四章 NumPy基础:数组和矢量运算
# coding: utf-8 # In[1]: # 加注释的三个方法1.用一对"""括起来要注释的代码块。
# 2.用一对'''括起来要注释的代码块。
# 3.选中要注释的代码,按下ctrl+/注释。
# from numpy import *
import numpy as np # In[2]: data=[[0.9526,-0.246,-0.8856],
[0.5639,0.2379,0.9104]] # In[3]: data # In[4]: data=np.array(data) #构造数组,输出结果中加了小括号 # In[5]: data # In[6]: data*10 #利用数组对整块数据进行数学运算 # In[7]: data+data # In[8]: data.shape #数组是一个同构数据多维容器,所有元素必须是相同类型的,shape表示维度大小 # In[9]: data.dtype #dtype说明数组数据类型 # In[10]: # ------array函数:接受一切序列型对象(包括其他数组),产生一个新的数组 # In[11]: data1 = [6,7.5,8,0,1] # In[12]: arr1 = np.array(data1) # In[13]: arr1 # In[14]: data11 = np.array([1,2,3]) # In[15]: data11 # In[16]: arr11= np.array(data11) #接受对象为其他数组 # In[17]: arr11 # In[18]: data2 = [[1,2,3,4],[5,6,7,8]] # In[19]: arr2 = np.array(data2) # In[20]: arr2 # In[21]: arr2.ndim #dim是dimension维度的缩写 # In[22]: arr2.shape # In[23]: data22 = [[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]] # In[24]: arr22 = np.array(data22) # In[25]: arr22 #维度为3的数组 # In[26]: arr22.ndim # In[27]: arr22.shape # In[28]: arr1.dtype #np.array自行推断出一个合适的数据类型 # In[29]: arr2.dtype # In[30]: np.zeros(10) # In[31]: np.zeros((3,6)) # In[32]: np.empty((2,3,2)) #返回一些未初始化的垃圾值 # In[33]: np.arange(15) #arange是python内置函数range的数组版 # In[34]: np.arange(0,100,10) #创建一个[0,100)范围内步长为10的数组 # In[35]: #数组常见函数:array,asarray(同上,若输入本身为ndarray,则不复制),arange,ones,ones_like,zeros,zeros_like,empty,empty_like,eye,identity # In[36]: np.ones_like(arr2) # In[37]: np.ones((2,2,6)) #两层括号,一层表示函数,一层表示形状的list # In[38]: np.identity(5) #对角线为1的方形矩阵 # In[39]: np.eye(5) # In[40]: np.eye(5,k=1) # In[41]: np.eye(5,4,k=-1) #可以创建矩形矩阵,k表示偏离对角线的位置 # In[42]: arr1 = np.array([1,2,3],dtype=np.float64) # In[43]: arr2 = np.array([1,2,3],dtype=np.int32) # In[44]: arr1.dtype # In[45]: arr2.dtype # In[46]: #两个特殊的数据类型:string_字符串类型 unicode_固定长度的unicode类型,这两个数据类型表示中有一个小的下划线 # In[47]: arr3 = np.array(['a','b','c'],dtype=np.string_) # In[48]: arr3.dtype # In[49]: arr = np.array([1,2,3,4,5]) # In[50]: arr.dtype # In[51]: float_arr = arr.astype(np.float64) #astype的用法 # In[52]: float_arr.dtype # In[53]: arr = np.array([3.7,-1.2,-2.6,0.5,12.9,10.1]) # In[54]: arr # In[55]: arr.astype(np.int32) #结果中小数部分被截断 # In[56]: arr #但是并未改变原始数据,只是外在表现形式变了 # In[57]: arr.astype(np.float64) # In[58]: numberic_strings = np.array(['1.25','-9.6',''],dtype=np.string_) # In[59]: numberic_strings.astype(np.float64) #可以把本身是数字的字符串类型转换为浮点型数字格式的 # In[60]: int_array = np.arange(10) # In[61]: calibers = np.array([.22,.270,.357,.380,.44,.50],dtype=np.float64) # In[62]: int_array.astype(calibers.dtype) # In[63]: empty_unit32 = np.empty(8,dtype='u4') #可以用简洁的类型代码表示 # In[64]: empty_unit32 # In[65]: arr = np.array([[1.,2.,3.],[4.,5.,6.]]) # In[66]: arr # In[67]: arr*arr #大小相等的数组之间应用到元素级 # In[68]: arr-arr # In[69]: 1/arr #标量与数组同样传播至元素级 # In[70]: arr**0.5 #指数运算 # In[71]: arr = np.arange(10) # In[72]: arr # In[73]: arr[5] # In[74]: arr[5:8] # In[75]: arr[5:8]=12 #对切片赋值改变原始数据 # In[76]: arr # In[77]: arr_slice = arr[5:8] #前包含后不包含 # In[78]: arr_slice[1] = 12345 # In[79]: arr # In[80]: arr_slice[:] = 64 # In[81]: arr # In[82]: arr_slice1 = arr[1:8:2] #起点,终点,步长 # In[83]: arr_slice1[:] = 3 # In[84]: arr # In[85]: arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]]) # In[86]: arr2d[2] # In[87]: arr2d[0][2] # In[88]: arr2d[0,2] # In[89]: arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]]) # In[90]: arr3d # In[91]: arr3d[0] # In[92]: old_values = arr3d[0].copy() # In[93]: arr3d[0] = 42 # In[94]: arr3d # In[95]: arr3d[0] = old_values # In[96]: arr3d # In[97]: arr3d[1,0] # In[98]: arr[1:6] # In[99]: arr2d # In[100]: arr2d[:2] # In[101]: arr2d[:2,1:] # In[102]: arr2d[1,:2] # In[103]: arr2d[2,:1] # In[104]: arr2d[:,:1] # In[105]: arr2d[:2,1:] = 0 # In[106]: arr2d # In[107]: names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe']) # In[108]: data = np.random.randn(7,4) # In[109]: names # In[110]: data # In[111]: names == 'Bob' # In[112]: data[names == 'Bob'] # In[113]: data[names == 'Bob',2:] # In[114]: data[names == 'Bob',3] # In[115]: names != 'Bob' # In[116]: data[names != 'Bob'] # In[117]: mask = (names == 'Bob')|(names == 'Will') #python关键字and和or在布尔型数组中无效 # In[118]: mask # In[119]: data[mask] # In[120]: data[data<0] = 0 # In[121]: data # In[122]: data[names != 'Joe'] = 7 # In[123]: data # In[124]: arr = np.empty((8,4)) # In[125]: for i in range(8):
arr[i] = i # In[126]: arr # In[127]: arr[[4,3,0,6]] # In[128]: arr[[-3,-5,-7]] # In[129]: arr = np.arange(32).reshape((8,4)) # In[130]: arr # In[131]: arr[[1,5,7,2],[0,3,1,2]] #结果竟然不是矩阵!!!!! # In[132]: arr[[1,5,7,2]][:,[0,3,1,2]] #结果为矩阵 # In[133]: arr[np.ix_([1,5,7,2],[0,3,1,2])] #使用函数np.ix_函数 # In[134]: arr = np.arange(15).reshape((3,5)) # In[135]: arr # In[136]: arr.T #转置 # In[137]: arr = np.random.randn(6,3) # In[138]: np.dot(arr.T,arr) # In[139]: arr = np.arange(16).reshape((2,2,4)) # In[140]: arr # In[141]: arr.transpose((1,0,2)) #转置,索引(0,1,2)按照(1,0,2)的顺序重新设置 # In[142]: arr # In[143]: arr.swapaxes(1,2) #y轴和z轴互换 # In[144]: arr = np.arange(10) # In[145]: np.sqrt(arr) #元素级函数,开方 # In[146]: np.exp(arr) #指数e的arr次方 # In[147]: x = np.random.randn(8) # In[148]: y = np.random.randn(8) # In[149]: x # In[150]: y # In[151]: np.maximum(x,y) #元素级最大值,相对位置一一比较取较大值 # In[152]: arr= np.random.randn(7)*5 # In[153]: arr # In[154]: np.modf(arr) #小数部分和整数部分分离 ,符号均保留 # In[155]: #一元函数 # In[156]: np.abs(arr) #取绝对值 # In[157]: np.fabs(arr) #取绝对值,对于非复数运算速度更快 # In[158]: np.square(arr) #平方 # In[159]: np.log(arr) # In[160]: np.log10(arr) # In[161]: np.log2(arr) # In[162]: np.log1p(arr) #log(1+arr) # In[163]: np.sign(arr) #计算各元素的正负号 # In[164]: np.ceil(arr) #计算各元素的大于等于该值的最小整数 # In[165]: np.floor(arr) #计算各元素的小于等于该值的最大整数 # In[166]: np.rint(arr) #将各元素四舍五入到最接近的整数 # In[167]: np.isnan(arr) #返回一个哪些值是NAN的布尔型数组 # In[168]: np.isfinite(arr) #返回一个哪些值是有穷的布尔型数组 # In[169]: np.isinf(arr) #返回一个哪些值是无穷的布尔型数组 # In[170]: np.cos(arr) #三角函数,其他还有cosh,sin,sinh,tan,tanh;;;;反三角函数:arccos,arccosh,arcsin,arcsinh,arctan,arctanh # In[171]: np.logical_not(arr) #计算各元素not x 的真值,非0即为真 # In[172]: arr # In[173]: #二元函数--元素级 # In[174]: arr1 = np.random.randn(5) # In[175]: arr2 = np.random.randn(5) # In[176]: arr1 # In[177]: arr2 # In[178]: np.add(arr1,arr2) # In[179]: np.subtract(arr1,arr2) # 从第一个数组中减去第二个数组中的元素 # In[180]: np.multiply(arr1,arr2) #数组元素相乘 # In[181]: np.divide(arr1,arr2) # 除法 # In[182]: np.floor_divide(arr1,arr2) #除法,丢弃余数 # In[183]: np.power(arr1,arr2) #arr1的arr2次方 # In[184]: np.maximum(arr1,arr2) # In[185]: np.fmax(arr1,arr2) #同上,元素级最大值,忽略NaN # In[186]: np.minimum(arr1,arr2) # In[187]: np.fmin(arr1,arr2) # In[188]: np.mod(arr1,arr2) #除法的余数 # In[189]: np.copysign(arr1,arr2) #将第二组的值的符号赋给第一组的值 # In[190]: np.greater(arr1,arr2) #其他类似还有:greater_equal,less,less_equal,equal,not_equal # In[191]: np.logical_and(arr1,arr2) #其他类似还有:logical_or,logical_xor # In[192]: points = np.arange(-5,5,0.01) #1000个间隔相等的点 # In[193]: xs,ys = np.meshgrid(points,points) # In[194]: ys # In[195]: xs # In[196]: import matplotlib.pyplot as plt #引入绘图模块 # In[197]: z = np.sqrt(xs**2+ys**2) # In[198]: z # In[199]: plt.imshow(z,cmap=plt.cm.gray)
plt.colorbar() # In[200]: plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values") # In[201]: xarr = np.array([1.1,1.2,1.3,1.4,1.5]) # In[202]: yarr = np.array([2.1,2.2,2.3,2.4,2.5]) # In[203]: cond = np.array([True, False, True, True, False]) # In[204]: result = [(x if c else y)
for x,y,c in zip(xarr,yarr,cond)] # In[205]: result #处理速度慢,无法用于多维数组 # In[206]: result = np.where(cond,xarr,yarr) # In[207]: result # In[208]: arr = np.random.randn(4,4) # In[209]: arr # In[210]: np.where(arr>0,2,-2) #将正值设置为2,负值设置为-2 # In[211]: np.where(arr>0,2,arr) #只将正值设置为2 # In[212]: arr = np.random.randn(5,4) # In[213]: arr # In[214]: arr.mean() #数学和统计函数 # In[215]: np.mean(arr) # In[216]: arr.sum() # In[217]: arr.mean(axis=1) # In[218]: arr.sum(0) # In[219]: arr = np.array([[0,1,2],[3,4,5],[6,7,8]]) # In[220]: arr.cumsum(0) #求累计和 # In[221]: arr.cumprod(1) #求累计积 # In[222]: arr.cumsum() # In[223]: arr.min(1) # In[224]: arr.max() # In[225]: arr.argmax() #最大值的索引 # In[226]: arr.argmax(0) # In[227]: arr.std() #标准差 # In[228]: arr.var() #方差 # In[229]: arr = np.random.randn(100) # In[230]: (arr>0).sum() #正值的数量 # In[231]: bools = np.array([False,False,True,False]) # In[232]: bools.any() #测试数组中是否有一个或多个True # In[233]: bools.all() #检查数组中是否都是True # In[234]: arr = np.random.randn(8) # In[235]: arr # In[236]: arr.sort() #改变原数组 # In[237]: arr # In[238]: arr = np.random.randn(5,3) # In[239]: arr # In[240]: arr.sort(1) #在某轴向排序,改变原数组 # In[241]: arr # In[242]: arr = np.random.randn(5,3) # In[243]: arr # In[244]: np.sort(arr,1) #在某轴向排序,不改变原数组 # In[245]: arr # In[246]: large_arr = np.random.randn(1000) # In[247]: large_arr.sort() # In[248]: large_arr[int(0.05*len(large_arr))] #5%分位数 # In[249]: names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe']) # In[250]: np.unique(names) #找出唯一值并排序 # In[251]: ints = np.array([3,3,3,2,2,1,1,4,4]) # In[252]: np.unique(ints) # In[253]: set(ints) # In[254]: values = np.array([6,0,0,3,2,5,6]) # In[255]: np.in1d(values,[2,3,6]) #测试一个数组中的值在另一个数组中是否存在 # In[256]: np.intersect1d(values,[2,3,4]) #求交集 # In[257]: np.union1d(values,[2,3,4]) # 求并集 # In[258]: np.setdiff1d(values,[2,3,4]) #在前面数组不在后面数组 # In[259]: np.setxor1d(values,[2,3,4])#存在于一个数组但不同时存在于两个数组 # In[260]: arr = np.arange(10) # In[261]: np.save('some_array',arr) # In[262]: arr = arr+1 # In[263]: arr # In[264]: np.load('some_array.npy') # In[265]: np.savez('array_archive.npz',a=arr,b=arr) # In[266]: arch = np.load('array_archive.npz') # In[267]: arch['b'] # In[268]: get_ipython().system('type "C:\\Users\\admin\\Desktop\\array_ex.txt"') # In[269]: #arrs = np.loadtxt('C:\Users\admin\Desktop\array_ex.txt',delimiter=',') 出错了 # In[270]: x = np.array([[1,2,3],[4,5,6]]) # In[271]: y = np.array([[6,23],[-1,7],[8,9]]) # In[272]: x # In[273]: y # In[274]: x.dot(y)#相当于np.dot(x,y) # In[275]: np.dot(x,np.ones(3)) # In[276]: from numpy.linalg import inv,qr # In[277]: X = np.random.randn(5,5) # In[278]: mat = X.T.dot(X) # In[279]: inv(mat) #求逆 # In[280]: mat.dot(inv(mat)) # In[281]: q,r = qr(mat) #计算QR分解 # In[282]: r # In[283]: #常用的numpy.linalg函数:det:计算矩阵行列式;eig:计算方阵的本征值和本征向量;solve:解线性方程组;lstsq:最小二乘解 # In[284]: x = np.arange(9).reshape(3,3) # In[285]: x # In[286]: y = np.diag(x) #diag函数:返回方阵的对角线元素,或将一维数组转换为方阵 # In[287]: y # In[288]: y = np.diag(y) # In[289]: y # In[290]: y = np.trace(x) #trace函数:计算对角线元素的和 # In[291]: y # In[292]: #随机数生成 # In[296]: a = np.random.permutation(np.arange(5)) #permutation返回一个序列的随机排列 # In[297]: a # In[299]: np.random.randint(0,10) #在给定上下限内随机选取整数 # In[300]: #模拟随机漫步 # In[301]: nsteps = 1000 # In[308]: draws = np.random.randint(0,2,size=nsteps) # In[309]: steps = np.where(draws > 0,1,-1) # In[310]: walk = steps.cumsum() # In[311]: walk.min() # In[312]: walk.max() # In[314]: (np.abs(walk) >= 10).argmax() #argmax第一个最大值的索引,由于整个布尔型数组中只有0,1两个数,1即为最大值 # In[315]: #一次模拟多个随机漫步:5000个 # In[316]: nwalks = 5000 # In[317]: nsteps = 1000 # In[318]: draws = np.random.randint(0,2,size=(nwalks,nsteps)) # In[319]: steps = np.where(draws > 0,1,-1) # In[322]: walks = steps.cumsum(1) # In[323]: walks # In[324]: walks.max() # In[325]: walks.min() # In[326]: hits30 = (np.abs(walks) >= 30).any(1) # In[327]: hits30 # In[328]: hits30.sum() # In[329]: crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1) # In[331]: crossing_times.mean()
利用python进行数据分析--numpy基础的更多相关文章
- 利用Python进行数据分析——Numpy基础:数组和矢量计算
利用Python进行数据分析--Numpy基础:数组和矢量计算 ndarry,一个具有矢量运算和复杂广播能力快速节省空间的多维数组 对整组数据进行快速运算的标准数学函数,无需for-loop 用于读写 ...
- 利用Python进行数据分析_Numpy_基础_2
Numpy数据类型包括: int8.uint8.int16.uint16.int32.uint32.int64.uint64.float16.float32.float64.float128.co ...
- 利用Python进行数据分析_Numpy_基础_1
ndarray:多维数组 ndarray 每个数组元素必须是相同类型,每个数组都有shape和dtype对象. shape 表示数组大小 dtype 表示数组数据类型 array 如何创建一个数组? ...
- 利用Python进行数据分析_Numpy_基础_3
通用函数:快速的元素级数组函数 通用函数,是指对数组中的数据执行元素级运算的函数:接受一个或多个标量值,并产生一个或多个标量值. sqrt 求平方根 np.sqrt(arr) exp 计算各元素指数 ...
- 利用Python进行数据分析(5) NumPy基础: ndarray索引和切片
概念理解 索引即通过一个无符号整数值获取数组里的值. 切片即对数组里某个片段的描述. 一维数组 一维数组的索引 一维数组的索引和Python列表的功能类似: 一维数组的切片 一维数组的切片语法格式为a ...
- 利用Python进行数据分析(4) NumPy基础: ndarray简单介绍
一.NumPy 是什么 NumPy 是 Python 科学计算的基础包,它专为进行严格的数字处理而产生.在之前的随笔里已有更加详细的介绍,这里不再赘述. 利用 Python 进行数据分析(一)简单介绍 ...
- 《利用Python进行数据分析·第2版》第四章 Numpy基础:数组和矢量计算
<利用Python进行数据分析·第2版>第四章 Numpy基础:数组和矢量计算 numpy高效处理大数组的数据原因: numpy是在一个连续的内存块中存储数据,独立于其他python内置对 ...
- 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
- 利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
随机推荐
- git自动上传脚本及基本代码
git_auto.bat git add . git add -A git add -u git commit -m "text" git pull --rebase origin ...
- [转帖]虚拟内存探究 -- 第一篇:C strings & /proc
虚拟内存探究 -- 第一篇:C strings & /proc http://blog.coderhuo.tech/2017/10/12/Virtual_Memory_C_strings_pr ...
- Tarjan水题系列(3):HNOI2006 潘多拉的魔盒
题目: 链接 大意: 盒子与盒子之间的关系构成一个有向图 求图上包含节点数最多的路径的节点数 思路: 有向图上求包含节点数最多的路径的节点数 可直接使用tarjan缩点后拓扑dp求得 在此不赘述 此题 ...
- SSM框架中数据库无法连接的问题
首先是SSM框架中所有的配置都是没有问题的,而且项目在其他人的环境上也能正常访问数据库:那么最有可能的就是数据库版本的问题导致数据库连接不上,服务器给我的报错是: 15:37:25.902 [C3P0 ...
- tensorflow学习笔记六----------神经网络
使用mnist数据集进行神经网络的构建 import numpy as np import tensorflow as tf import matplotlib.pyplot as plt from ...
- 列表and元组操作
一.列表 列表是我们以后比较常用的数据类型之一,通过列表我们可以实现对数据的存储.修改等操作. 首先,我们看一下列表的定义: 有了列表以后,我们可以通过下标来访问列表中的元素.注意:下表是从0开始的 ...
- 重写select
select 模拟 目前仿写select的方式 给tableIndex 来使 div(无法获取焦点的元素)来获取元素,这样便可以在失去焦点时,是否将下拉框收回 通过 document的点击,来判断是否 ...
- vue中项目如何引入sass (vue-cli项目)
1.进入项目目录 2.安装sass的依赖 npm install --save-dev sass-loader npm install --save-dev node-sass 3.在build文件夹 ...
- Codeforces 960 二进制构造子序列 完全二叉树shift模拟 主席树/MAP DP
A #include <bits/stdc++.h> #define PI acos(-1.0) #define mem(a,b) memset((a),b,sizeof(a)) #def ...
- Codeforces 957 水位标记思维题
A #include <bits/stdc++.h> #define PI acos(-1.0) #define mem(a,b) memset((a),b,sizeof(a)) #def ...