Numpy基本使用方法

第一节

创建数组

import numpy as np

import random

# 创建数组

a = [1, 2, 3, 4, 5]

a1 = np.array(a)

print(a1)  # [1 2 3 4 5]

b = range(10)

b1 = np.array(b)

print(b1)  # [0 1 2 3 4 5 6 7 8 9]

数组的类名

# 数组的类名

print(type(a1))  # <class 'numpy.ndarray'>

print(type(b1))  # <class 'numpy.ndarray'>

数据的类型

# 数据的类型

print(a1.dtype)  # int32

c1 = np.array([random.random() for i in range(10)])

print(c1)

# [0.65076793 0.78410146 0.94405112 0.58741766 0.23018049 0.80708392 0.5297858  0.14736833 0.53402873 0.21310533]

print(c1.dtype)  # float64

d1 = np.array([True, False, False, True])

print(d1.dtype)  # bool

指定数组类型

# 指定数组类型

a2 = np.array(a, dtype=float)

print(a2.dtype)  # float64

a3 = np.array(a, dtype="float")

print(a2.dtype)  # float64

修改数组类型

# 修改数组类型

d2 = d1.astype(int)

print(d2)  # [1 0 0 1]

print(d2.dtype)  # int32

a4 = a1.astype(dtype="float")

print(a4)  # [1. 2. 3. 4. 5.]

print(a4.dtype)  # float64

修改浮点型小数位

# 修改浮点型小数位

print(c1)

# 156 0.41847005 0.27127742 0.59553829 0.40378794 0.90308214 0.86897877 0.20906481 0.1832515]

c2 = c1.round(2)  # 保留两位小数

print(c2)

# [0.35 0.78 0.93 0.63 0.81 0.15 0.95 0.21 0.29 0.48]

完整代码

import numpy as np

import random

# 创建数组

a = [1, 2, 3, 4, 5]

a1 = np.array(a)

print(a1)  # [1 2 3 4 5]

b = range(10)

b1 = np.array(b)

print(b1)  # [0 1 2 3 4 5 6 7 8 9]

# 数组的类名

print(type(a1))  # <class 'numpy.ndarray'>

print(type(b1))  # <class 'numpy.ndarray'>

# 数据的类型

print(a1.dtype)  # int32

c1 = np.array([random.random() for i in range(10)])

print(c1)

# [0.65076793 0.78410146 0.94405112 0.58741766 0.23018049 0.80708392 0.5297858  0.14736833 0.53402873 0.21310533]

print(c1.dtype)  # float64

d1 = np.array([True, False, False, True])

print(d1.dtype)  # bool

# 指定数组类型

a2 = np.array(a, dtype=float)

print(a2.dtype)  # float64

a3 = np.array(a, dtype="float")

print(a2.dtype)  # float64

# 修改数组类型

d2 = d1.astype(int)

print(d2)  # [1 0 0 1]

print(d2.dtype)  # int32

a4 = a1.astype(dtype="float")

print(a4)  # [1. 2. 3. 4. 5.]

print(a4.dtype)  # float64

# 修改浮点型小数位

print(c1)

# 156 0.41847005 0.27127742 0.59553829 0.40378794 0.90308214 0.86897877 0.20906481 0.1832515]

c2 = c1.round(2)  # 保留两位小数

print(c2)

# [0.35 0.78 0.93 0.63 0.81 0.15 0.95 0.21 0.29 0.48]

第二节

数组的形状

import numpy as np

# 数组的形状

a = np.array([[3, 4, 5, 6, 7, 8], [4, 5, 6, 7, 8, 9]])

print(a.shape)  # (2, 6) 2行6列

修改数组的形状

# 修改数组的形状

a1 = a.reshape(3, 4)  # 修改为3行4列

print(a1.shape)  # (3, 4) 3行4列

print(a1)

"""

[[3 4 5 6]

 [7 8 4 5]

 [6 7 8 9]]

"""

print(a.shape)  # (2, 6) 修改数组形状会指向新的对象，不会修改原数组本身

把数据转换成一维数组

# 把数据转换成一维数组

a2 = a.flatten()

print(a2)  # [3 4 5 6 7 8 4 5 6 7 8 9]

数组的计算/广播机制，在运算过程中加减乘除的值被广播到所有元素上

# 数组的计算/广播机制，在运算过程中加减乘除的值被广播到所有元素上

b = a*10

print(b)  # [[30 40 50 60 70 80][40 50 60 70 80 90]]

c = np.arange(20)

print(c)  # [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]

c1 = c.reshape(4, 5)

print(c1)

"""

[[0  1  2  3  4]

 [5  6  7  8  9]

 [10 11 12 13 14]

 [15 16 17 18 19]]

"""

d = np.array([1, 1, 1, 1, 1])

d1 = d.reshape(1, 5)

print(d1)  # [[1 1 1 1 1]] (1, 5)

print(c1 - d1)

"""

所有元素全部 -1，即所有行全部减d1这个1行5列的数组

[[-1  0  1  2  3]

 [4  5  6  7  8]

 [9 10 11 12 13]

 [14 15 16 17 18]]

 """

# 广播的原则：如果两个数组的后缘维度（trailing dimension，即从末尾开始算起的维度）的轴长度相符，或其中的一方的长度为1，则认为它们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行。

完整代码

import numpy as np

# 数组的形状

a = np.array([[3, 4, 5, 6, 7, 8], [4, 5, 6, 7, 8, 9]])

print(a.shape)  # (2, 6) 2行6列

# 修改数组的形状

a1 = a.reshape(3, 4)  # 修改为3行4列

print(a1.shape)  # (3, 4) 3行4列

print(a1)

"""

[[3 4 5 6]

 [7 8 4 5]

 [6 7 8 9]]

"""

print(a.shape)  # (2, 6) 修改数组形状会指向新的对象，不会修改原数组本身

# 把数据转换成一维数组

a2 = a.flatten()

print(a2)  # [3 4 5 6 7 8 4 5 6 7 8 9]

# 数组的计算/广播机制，在运算过程中加减乘除的值被广播到所有元素上

b = a*10

print(b)  # [[30 40 50 60 70 80][40 50 60 70 80 90]]

c = np.arange(20)

print(c)  # [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]

c1 = c.reshape(4, 5)

print(c1)

"""

[[0  1  2  3  4]

 [5  6  7  8  9]

 [10 11 12 13 14]

 [15 16 17 18 19]]

"""

d = np.array([1, 1, 1, 1, 1])

d1 = d.reshape(1, 5)

print(d1)  # [[1 1 1 1 1]] (1, 5)

print(c1 - d1)

"""

所有元素全部 -1，即所有行全部减d1这个1行5列的数组

[[-1  0  1  2  3]

 [4  5  6  7  8]

 [9 10 11 12 13]

 [14 15 16 17 18]]

 """

# 广播的原则：如果两个数组的后缘维度（trailing dimension，即从末尾开始算起的维度）的轴长度相符，或其中的一方的长度为1，则认为它们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行。

第三节

读取CSV文件

import numpy as np

us_file_path = "./youtube_video_data/US_video_data_numbers.csv"

# 将文件对象通过numpy.loadtxt方法 实例化

t2 = np.loadtxt(us_file_path, delimiter=",", dtype="int")

print(t2)

print(t2.shape)  # (1688, 4)

索引

# 取行

print(t2[2])  # 取索引为2的行，即第三行

""" [5845909  576597   39774  170708] """

# 取连续的多行

print(t2[2:])  # 取索引为2开始的所有行

"""[[5845909  576597   39774  170708]

 [2642103   24975    4542   12829]

 [1168130   96666     568    6666]

 ...

 [ 142463    4231     148     279]

 [2162240   41032    1384    4737]

 [ 515000   34727     195    4722]]

    """

# 取不连续的多行

print(t2[[2, 3, 4]])  # 取索引为2，3，4的行

""""

[[5845909  576597   39774  170708]

 [2642103   24975    4542   12829]

 [1168130   96666     568    6666]]

"""

# t2[2] = t2[2,] = t2[2, :] 效果是一样的，都是取索引为2的行

# 取列

print(t2[:, 0])  # 取索引为0的所有元素，即第一列

""" [4394029 7860119 5845909 ...  142463 2162240  515000] """

# 取连续多列

print(t2[:, 2:])  # 取索引为2的列开始往后所有的列

""" [[  5931  46245]

 [ 26679      0]

 [ 39774 170708]

 ...

 [   148    279]

 [  1384   4737]

 [   195   4722]] """

# 取不连续的多行

print(t2[:, [2, 3]])  # 取索引为2，3的列

""" [[  5931  46245]

 [ 26679      0]

 [ 39774 170708]

 ...

 [   148    279]

 [  1384   4737]

 [   195   4722]] """

# 取行和列交叉的值

print(t2[2, 3])  # 取第二行和第三列交叉的值

""" 170708 """

# 取多个不相邻的点

# 取出来的结果是（0，0） （2，1） （2，3）（行，列）

print(t2[[0, 2, 2], [0, 1, 3]])

""" [4394029  576597  170708] """

完整代码

import numpy as np

us_file_path = "./youtube_video_data/US_video_data_numbers.csv"

# 将文件对象通过numpy.loadtxt方法 实例化

t2 = np.loadtxt(us_file_path, delimiter=",", dtype="int")

print(t2)

print(t2.shape)  # (1688, 4)

# 取行

print(t2[2])  # 取索引为2的行，即第三行

""" [5845909  576597   39774  170708] """

# 取连续的多行

print(t2[2:])  # 取索引为2开始的所有行

"""[[5845909  576597   39774  170708]

 [2642103   24975    4542   12829]

 [1168130   96666     568    6666]

 ...

 [ 142463    4231     148     279]

 [2162240   41032    1384    4737]

 [ 515000   34727     195    4722]]

    """

# 取不连续的多行

print(t2[[2, 3, 4]])  # 取索引为2，3，4的行

""""

[[5845909  576597   39774  170708]

 [2642103   24975    4542   12829]

 [1168130   96666     568    6666]]

"""

# t2[2] = t2[2,] = t2[2, :] 效果是一样的，都是取索引为2的行

# 取列

print(t2[:, 0])  # 取索引为0的所有元素，即第一列

""" [4394029 7860119 5845909 ...  142463 2162240  515000] """

# 取连续多列

print(t2[:, 2:])  # 取索引为2的列开始往后所有的列

""" [[  5931  46245]

 [ 26679      0]

 [ 39774 170708]

 ...

 [   148    279]

 [  1384   4737]

 [   195   4722]] """

# 取不连续的多行

print(t2[:, [2, 3]])  # 取索引为2，3的列

""" [[  5931  46245]

 [ 26679      0]

 [ 39774 170708]

 ...

 [   148    279]

 [  1384   4737]

 [   195   4722]] """

# 取行和列交叉的值

print(t2[2, 3])  # 取第二行和第三列交叉的值

""" 170708 """

# 取多个不相邻的点

# 取出来的结果是（0，0） （2，1） （2，3）（行，列）

print(t2[[0, 2, 2], [0, 1, 3]])

""" [4394029  576597  170708] """

第四节

将数组中的nan更换为对应列的均值

import numpy as np

t = np.arange(24)

t1 = t.reshape(4, 6).astype("float")

t1[1, 2:] = np.nan

print(t1)

print("*"*100)

for i in range(t1.shape[1]):

    temp_col = t1[:, i]

    # nan == nan -> Ture

    # np.count_nonzero(temp_col != temp_col)返回的是对布尔类型的统计True=1，False=0、

    nan_num = np.count_nonzero(temp_col != temp_col)

    # print(temp_col != temp_col)

    """

    [False False False False]   0

    [False False False False]   0

    [False False False False]   0

    [True False False False]    1

    [True False False False]    1

    [True False False False]    1

    """

    if nan_num != 0:  # 不为零则说明这一列里面有nan

        # 将有nan的列中的不为nan的元素赋值给temp_not_nan_col

        temp_not_nan_col = temp_col[temp_col == temp_col]

        # 选中当前为nan的位置，把值赋值为不为nan的均值

        temp_col[np.isnan(temp_col)] = temp_not_nan_col.mean()

print(t1)

"""

result

[[ 0.  1.  2.  3.  4.  5.]

 [ 6.  7. nan nan nan nan]

 [12. 13. 14. 15. 16. 17.]

 [18. 19. 20. 21. 22. 23.]]

****************************************************************************************************

[[ 0.  1.  2.  3.  4.  5.]

 [ 6.  7. 12. 13. 14. 15.]

 [12. 13. 14. 15. 16. 17.]

 [18. 19. 20. 21. 22. 23.]]

"""

第五节

numpy与matplotlib结合

美国YTB视频评论的直方图

import numpy as np

from matplotlib import pyplot as plt

us_file_path = "./youtube_video_data/US_video_data_numbers.csv"

t_us = np.loadtxt(us_file_path, delimiter=",", dtype=int)

# 取评论的数据

t_us_comments = t_us[:, -1]

# 选择比5000小的数据

t_us_comments = t_us_comments[t_us_comments <= 1511]

# 组距

d = 50

# 组数 = （max-min）//组距

bin_nums = (t_us_comments.max() - t_us_comments.min()) // 5

print(bin_nums)

# 绘图

plt.figure(figsize=(20, 8), dpi=80)

plt.hist(t_us_comments, bin_nums)

plt.grid(alpha=0.4)

plt.show()

英国YTB视频评论和喜欢的散点图

import numpy as np

from matplotlib import pyplot as plt

uk_file_path = "./youtube_video_data/GB_video_data_numbers.csv"

t_uk = np.loadtxt(uk_file_path, delimiter=",", dtype=int)

# 选择喜欢的书比50万小的数据

t_uk = t_uk[t_uk[:, 1] <= 500000]

# 错误写法t_uk = t_uk[: , 1] <= 500000 这种写法反馈的是bool类型

# 分别取出喜欢的列，和评论的列

t_uk_comment = t_uk[:, -1]

t_uk_like = t_uk[:, 1]

# 绘图展示

plt.figure(figsize=(20, 8), dpi=80)

plt.scatter(t_uk_like, t_uk_comment)

plt.show()

Numpy基本使用方法的更多相关文章

numpy的使用方法
一.numpy快速入门 1.什么是numpy: numpy是python的一个矩阵类型,提供了大量矩阵处理的函数,非正式来说,就是一个使运算更容易,执行更迅速的库,因为它的内部运算是通过c语言而不是p ...
numpy.ndarray类型方法
numpy.ndarray 类numpy.ndarray(shape,dtype = float,buffer = None,offset = 0,strides = None,order = Non ...
numpy.random.seed()方法
先贴参考链接: https://stackoverflow.com/questions/21494489/what-does-numpy-random-seed0-do numpy.random.se ...
Windows系统中python3.7安装数据可视化模块Matplotlib、numpy的各种方法汇总
安装环境:Windows10 64位Python3.7 32位确保已经安装PIP工具命令窗口输入PIP出现以下窗口说明PIP已经成功安装方法1:(1)在Matplotlib的官网下载电脑对应的版本 ...
Pytorch中的variable, tensor与numpy相互转化的方法
1.将numpy矩阵转换为Tensor张量 sub_ts = torch.from_numpy(sub_img) #sub_img为numpy类型 2.将Tensor张量转化为numpy矩阵 sub_ ...
numpy的random方法和常用数据类型
NumPy 的常用数据类型 np.random 随机数模块
05.其他创建numpy数组的方法
>>> import numpy as np >>> np.zeros(10,dtype=int) array([0, 0, 0, 0, 0, 0, 0, 0, 0 ...
Numpy求均值、中位数、众数的方法
首先需要数据源,这里随便写了一个: nums = [1,2,3,4] 求均值和中位数均可以使用numpy库的方法: import numpy as np #均值 np.mean(nums) #中位数 ...
Numpy的介绍与基本使用方法
1.什么是Numpy numpy官方文档:https://docs.scipy.org/doc/numpy/reference/?v=20190307135750 NumPy是一个功能强大的Pytho ...
Python3.1-标准库之Numpy
这系列用来介绍Python的标准库的支持Numpy部分.资料来自http://wiki.scipy.org/Tentative_NumPy_Tutorial,页面有许多链接,这里是直接翻译,所以会无法 ...

随机推荐

MySQL 查询索引失效及如何进行索引优化
本文为博主原创,未经允许不得转载: 我们都知道创建索引的目的是快速从整体集合中选择性地读取满足条件的一部分集合.mysql中一张表是可以支持多个索引的.但是,你写sql语句的时候,并没有主动指定使用哪 ...
SpringBoot中使用LocalDateTime踩坑记录
.markdown-body { line-height: 1.75; font-weight: 400; font-size: 16px; overflow-x: hidden; color: rg ...
python3之lambda表达式
技术背景 lambda表达式本身是一个非常基础的python函数语法,其基本功能跟使用def所定义的python函数是一样的,只是lambda表达式基本在一行以内就完整的表达了整个函数的运算逻辑.这里 ...
Prime Time - 介绍
Prime Time是对timing进行分析 Prime Time使用的是STA方法进行分析工具会有更新,但是核心内容是不变的 Prime Time(intro to STA) 没有PT工具的时候, ...
[转帖]11GR2数据库审计日志自动清理
审计日志如果把SYSTEM表空间撑爆,也会导致数据库停摆,且11g默认审计是开启状态. 今天就遇到了这样的情况,写了下面脚本来实现自动清理工作,记录操作过程. TRUNCATE TABLE SYS.A ...
[转帖]TiDB-unsafe recover(三台tikv宕机两台)
一.背景名称数量 tikv 3 副本 3 1.故障: 因为某些原因,两台tikv不可连接,出现region不能访问的故障 2.几条理论: 2.1.多副本原则存在一半以上的副本则集群访问不受影响( ...
[转帖]《Linux性能优化实战》笔记（七）—— CPU瓶颈快速分析及性能优化思路
相当于是前面篇章的小结一. CPU 性能指标常见指标包括: 平均负载 CPU 使用率(user.iowait.system.软硬中断等) 进程上下文切换(自愿.非自愿) CPU 缓存的命中率 CP ...
【转帖】text-davinci-003和ChatGPT之间的不同点
https://zhuanlan.zhihu.com/p/603709081 先看下GPT的发展时间线 InstructGPT(2022 年 1 月)是一系列 GPT-3 模型(包括 text-dav ...
Redis IO多线程的简要测试结果
Redis IO多线程的简要测试结果摘要最近想简单确认一下IO多线程的对吞吐量的提升情况. 正好手头有鲲鹏的机器, 所以想直接进行一下验证顺便用一下4216 进行一下对比. 发现在CPU核心比 ...
提高Android Studio的编译速度(更快出包减少等待)
硬件和软件的准备对于经常要出包而且一次要出多个渠道APK的同事来说,每次漫长的打包等待是一件消耗生命且无意义事情. google官方提高编译速度的文档:https://developer.andro ...

Numpy基本使用方法

Numpy基本使用方法

第一节

创建数组

数组的类名

数据的类型

指定数组类型

修改数组类型

修改浮点型小数位

完整代码

第二节

数组的形状

修改数组的形状

把数据转换成一维数组

数组的计算/广播机制，在运算过程中加减乘除的值被广播到所有元素上

完整代码

第三节

读取CSV文件

索引

完整代码

第四节

将数组中的nan更换为对应列的均值

第五节

numpy与matplotlib结合

美国YTB视频评论的直方图

英国YTB视频评论和喜欢的散点图

Numpy基本使用方法的更多相关文章

随机推荐

热门专题