【Python数据挖掘】第三篇--Numpy 和可视化

一、Numpy

数组是一系列同类型数据的集合，可以被非零整数进行索引，可以通过列表进行数组的初始化，数组也可以通过索引进行切片。

Numpy提供了几乎全部的科学计算方式。

# numpy 导入方式:

import numpy as np

①、创建数组：

1.简单一二维数组

np.array( [1,2,3,4] )                 #  一维数组

np.array( ['1',5,True] )              #  数组内容为字符型

np.array( [True,True] )               #  布尔型数组

np.array( [[1,2,3,4] , [5,6,7,8]] )   #  二维数组

2.范围函数生成一维数组:

np.arange([start,] stop[, step,], dtype=None)

np.arange(1,10)

# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

3.均分函数生成一维数组:(等差数列)

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

start : 初始值

stop : 末尾值

num : 生成的样本数 , 必须为非负数

endpoint : 默认True  , 数组最后一个元素为 stop项

# 数组step计算:

当 endpoint = True 时, step =  (end - start) / (num - 1)

当 endpoint = False 时, step =  (end - start) / num 

np.linspace(1,10,num=5,endpoint=False)

# array([ 1. ,  2.8,  4.6,  6.4,  8.2])

4.创建元素为1 的数组

np.ones(4)          #  一维数组  array([ 1.,  1.,  1.,  1.])

np.ones([4,5])      #  二维数组  4行5列

5.创建元素为0 的数组

np.zeros(4)          #  一维数组   array([ 0.,  0.,  0.,  0.])

np.zeros([4,5])      #  二维数组   4行5列

6.创建一定形状的数组

numpy.empty(shape, dtype=float, order='C')

np.empty([2,3])            # 创建2行3列数组

7.创建方阵型，行列相等，对角元素为1，其余元素为0

np.eye(4)                       #  4行4列 ,  元素为0 , 对角线元素为1

array([[ 1.,  0.,  0.,  0.],

       [ 0.,  1.,  0.,  0.],

       [ 0.,  0.,  1.,  0.],

       [ 0.,  0.,  0.,  1.]])

8.创建与某数组大小相同的数组，元素为0

arr1 = np.eye(4)              #  4行4列

arr2 = np.empty_like(arr1)    #  4行4列

9.Series转换Array

np.array(series)

②、Numpy下的random类创建随机数组

1.创建符合 [0:1) 均匀分布的数组

np.random.rand(d0, d1, ..., dn)

np.random.rand(4,5)          # 4行5列数组

2.创建符合标准正态分布的数组

np.random.randn(d0, d1, ..., dn)

np.random.randn(4,5)         # 4行5列数组

3.创建随机整数的数组 , (不包含)

np.random.randint(low, high=None, size=None, dtype='l')

np.random.randint(5, size=(2, 4))           # 生成0到4之间的 2 x 4数组

array([[4, 0, 2, 1],

       [3, 2, 2, 0]])

4.创建随机整数的数组 , (包含)

np.random.random_integers(low, high=None, size=None)

np.random.random_integers(5, size=(2, 4))   # 生成1到5之间的 2 x 4数组

array([[3, 3, 4, 3],

       [3, 4, 1, 5]])

5.创建 [0.0,1.0) 随机浮点数

np.random.random(size=None)

np.random.random_sample(size=None)

np.random.ranf(size=None)

np.random.sample(size=None)

np.random.random( (5,) )

np.random.random_sample( (4,5) )           # 4行5列 浮点数数组

6.从给定的1-D数组生成随机样本

np.random.choice(a, size=None, replace=True, p=None)

p：1-D array-like，可选 ( 设置概率 )与a中的每个条目相关联的概率。如果没有给出样本，则假设在a中的所有条目均匀分布。

np.random.choice(5, 3)                  #  从np.arange(5)生成大小为3的均匀随机样本：

np.random.choice(5, 3, replace=False)   #  从np.arange(5)生成大小为3的均匀随机样本，没有重复：

aa_milne_arr = ['pooh', 'rabbit', 'piglet', 'Christopher']

np.random.choice(aa_milne_arr, 5, p=[0.5, 0.1, 0.1, 0.3])

7.返回随机字节

np.random.bytes(length)

np.random.bytes(10)

# b'u\x1e\xd6\x8d\xf5]\xab6\xed\x0c'

③、重要属性

np.shape     # 查看数组的维度  如:  (4,)  一个数字代表1维 , (5,6) 代表二维,5行6列数组  , .....

np.size      # 查看数组元素总个数

np.ndim      # 查看数组维度数

len(array)   # 查看数组行数

④、重要方法

1. 给定条件判断元素

numpy.where(condition[, x, y])                #  根据条件，从x或y返回元素。

np.where(arr1 > 0 , True , False )

array([[False,  True,  True, False],

       [ True, False, False, False],

       [ True,  True,  True, False]], dtype=bool)

2.查找数组唯一元素

np.unique(ar, return_index=False, return_inverse=False, return_counts=False)[source]

return_counts = True   # 返回出现次数

np.unique([1, 1, 2, 2, 3, 3])

# array([1, 2, 3])

a = np.array([[1, 1], [2, 3]])

np.unique(a)

# array([1, 2, 3])

3.两个数组连接

np.concatenate((a1, a2, ...), axis=0)     # 沿现有轴连接数组序列。

a = np.array([[1, 2], [3, 4]])

b = np.array([[5, 6]])

np.concatenate((a, b), axis=0)

array([[1, 2],

       [3, 4],

       [5, 6]])

np.concatenate((a, b.T), axis=1)

⑤、索引与切片

⑥、数组计算

1.加法

a = np.array([1,2,3])

b = np.array([-1,2,-4])

np.add(x1, x2[, out]) = <ufunc 'add'>

np.add(a,b)              #  等效于 a + b

# array([ 0,  4, -1])

2.减法

np.subtract(x1, x2[, out]) = <ufunc 'subtract'>

np.subtract(a,b)       # a - b

3.乘法

np.multiply(x1, x2[, out]) = <ufunc 'multiply'>

np.multiply(a,b)       # a * b

4.除法

np.divide(x1, x2[, out]) = <ufunc 'divide'>

np.divide(a,b)         # a / b

5.点积 (相乘后把元素相加)

两矩阵的点积需要左边矩阵列与右边矩阵行数目相等

np.dot(a, b, out=None)

np.dot(a,b)

np.dot(a,b.T)

6.广播

两矩阵相加 , 类型shape不一样时 , 自动广播计算 ,作用在每一行每个元素

arr1 = np.random.randint(1,10,size=(3,4))

array([[3, 3, 4, 1],

       [8, 4, 8, 2],

       [6, 4, 4, 9]])

arr2 = np.array([2,2,2,2])

array([2, 2, 2, 2])

arr1 + arr2

array([[ 5,  5,  6,  3],

       [10,  6, 10,  4],

       [ 8,  6,  6, 11]])

# 方式二 :

arr1 + 6           # 每个元素都加6

7.求和

np.sum(a, axis=None, dtype=None, out=None, keepdims=<class numpy._globals._NoValue>)

# 给定轴上的数组元素的总和。

np.sum([0.5, 1.5])

#  2.0

np.sum([[0, 1], [0, 5]], axis=0)

#  array([0, 6])

np.sum([[0, 1], [0, 5]], axis=1)

#  array([1, 5])

8.求平均

np.mean(a, axis=None, dtype=None, out=None, keepdims=<class numpy._globals._NoValue>)

# 沿指定轴计算算术平均值。

a = np.array([[1, 2], [3, 4]])

np.mean(a)

#  2.5

np.mean(a, axis=0)

#  array([ 2.,  3.])

9.求平方根

np.sqrt(x[, out]) = <ufunc 'sqrt'>

# 按元素方式返回数组的正平方根。

np.sqrt([1,4,9])

# array([ 1.,  2.,  3.])

10.求指数

np.exp(x[, out]) = <ufunc 'exp'>

# 计算输入数组中所有元素的指数。

11.求绝对值

np.absolute(x[, out]) = <ufunc 'absolute'>

# 逐个计算绝对值。

x = np.array([-1.2, 1.2])

np.absolute(x)

# array([ 1.2,  1.2])

12.求自然对数

np.log(x[, out]) = <ufunc 'log'>

# 自然对数，逐元素。

⑦、线性代数计算

1.数组转置

arr1 = np.random.randint(0,10,size=(4,4))

np.transpose(arr1)            # arr1.T

2.矩阵的逆

a = np.array([[1,2],[4,7]])

np.linalg.inv(a)

array([[-7.,  2.],

       [ 4., -1.]])

3.沿数组的对角线返回总和

a = np.array([[1,2],[4,7],[5,2]])

np.trace(a)

# 8

4.正方形数组的特征值和右特征向量

w, v = np.linalg.eig(np.array([ [1, -1], [1, 1] ]))

w; v

array([ 1. + 1.j,  1. - 1.j])

array([[ 0.70710678+0.j        ,  0.70710678+0.j        ],

       [ 0.00000000-0.70710678j,  0.00000000+0.70710678j]])

二、可视化

①、matplotlib 导入方式:

【Python数据挖掘】第三篇--Numpy 和可视化的更多相关文章

python数据挖掘第三篇-垃圾短信文本分类
数据挖掘第三篇-文本分类文本分类总体上包括8个步骤.数据探索分析->数据抽取->文本预处理->分词->去除停用词->文本向量化表示->分类器->模型评估.重 ...
R数据挖掘第三篇：聚类的评估（簇数确定和轮廓系数）和可视化
在实际的聚类应用中,通常使用k-均值和k-中心化算法来进行聚类分析,这两种算法都需要输入簇数,为了保证聚类的质量,应该首先确定最佳的簇数,并使用轮廓系数来评估聚类的结果. 一,k-均值法确定最佳的簇数 ...
[Python笔记]第三篇:深浅拷贝、函数
本篇主要内容:深浅拷贝,自定义函数,三目运算,lambda表达式, 深浅拷贝一.数字和字符串对于数字和字符串而言,赋值.浅拷贝和深拷贝无意义,因为其永远指向同一个内存地址. import ...
Python基础第三篇
一.collections系列 Counter是对字典类型的补充,用于追踪值的出现次数,具备字典的所有功能 + 自己的功能 1.计数器Counter import collections a='aba ...
【python自动化第三篇：python入门进阶】
鸡汤: 多学习,多看书. 推荐书籍:<追风筝的人>,<林达看美国>,<白鹿原> 本节知识点集合及其操作文件操作函数与函数式编程递归一.集合及其操作集合( ...
python 【第三篇】：函数及参数
函数背景在学习函数之前,一直遵循:面向过程编程: 根据业务逻辑从上到下实现功能,其往往用一长段代码来实现指定功能,开发过程中最常见的操作就是粘贴复制,也就是将之前实现的代码块复制到现需功能处,如下: ...
第三篇：数据可视化 - ggplot2
前言 R语言的强大之处在于统计和作图.其中统计部分的内容很多很强大,因此会在以后的实例中逐步介绍:而作图部分的套路相对来说是比较固定的,现在可以先对它做一个总体的认识. 在上一篇文章中,介绍了使用gr ...
Python【第三篇】文件操作、字符编码
一.文件操作文件操作分为三个步骤:文件打开.操作文件.关闭文件,但是,我们可以用with来管理文件操作,这样就不需要手动来关闭文件. 实现原理: import contextlib @context ...
Python开发第三篇
函数一.函数参数传值形参:函数在定义的时候给定的参数实参:函数在运行时赋给的参数: def func(i):#i为定义时的参数,为形参 pass func(name)#name为运行时的参数,为 ...

随机推荐

Redis Cluster集群重启出现的问题
Redis Cluster集群重启出现的问题由于机器故障导致redis集群停止,再次重启集群出现如下错误:Redis Cluster集群重启出现的问题:[ERR] Node 192.168.3.1: ...
【C++札记】实现C++的string类
C++有了string类使得操作字符串变得很方便.有关string类,面试过程中也经常问到的就是自己实现一个sring类.下边实现个String类供大家参考: String.h #pragma onc ...
宁夏网络赛-F-Moving On
https://www.cnblogs.com/31415926535x/p/11440395.html 一道简单的Floyd题,,但是是动态加点求多次有限制的最短路,,感觉这个思想很好,,当然可以直 ...
springboot打成jar包后无法解压
springboot打成jar包后无法解压 Springboot打出来的jar,用压缩工具解压报错.Why? 先说解决办法. 1.解决办法 executable属性导致的,属性改成false后重新打包 ...
MY SQL 两种安装方式
MySQL基础知识-安装MySQL 前导: 昨天去参加了一个面试,公司不太大,是一家日资企业,在国内有几家分公司,面试官问到了MySQL的基本操作和性能优化,说了一大堆,倒是比较轻松的过了,但是面 ...
14-4 ADO.NET简介2
14-4-1Connection连接.关闭数据库 1.为了访问数据库,就要提供数据库连接类,在C#中,是通过Connection类来实现的.它有四种类型的连接方式: SQLConnection AD ...
3：基于乐观锁（两种）控制并发： version、external锁
ES是基于乐观锁进行并发控制的. 如果有并发的业务场景,可以直接使用ES内置乐观锁机制. 使用的时候,java程序需要先Get指定的记录,获取到版本号,然后Put的时候,带着该版本号,请求更新. ES ...
Python 3 MySQL数据库操作
import pymysql class Mysql_db(): def __init__(self,ip,username,password,db_name,table_name): self.ip ...
nlp-roadmap
nlp-roadmap https://github.com/graykode/nlp-roadmap nlp-roadmap is Natural Language Processing ROADM ...
Office 365 的安装与激活
(1)Office 365的安装,本处使用的是Office Tool Plus. (2)等待安装完成 (3)重头戏激活 , 使用命令行方式 (不推荐) 以下内容,新建文本文件,然后保存为.bat,再以 ...

【Python数据挖掘】第三篇--Numpy 和 可视化

二、可视化

【Python数据挖掘】第三篇--Numpy 和 可视化的更多相关文章

随机推荐

热门专题

【Python数据挖掘】第三篇--Numpy 和可视化

【Python数据挖掘】第三篇--Numpy 和可视化的更多相关文章