本文是Python大数据与机器学习系列文章中的第6篇，将介绍学习Python大数据与机器学习所必须的NumPy库。

通过本文系列文章您将能够学到的知识如下：

应用Python进行大数据与机器学习

应用Spark进行大数据分析

实现机器学习算法

学习使用NumPy库处理数值数据

学习使用Pandas库进行数据分析

学习使用Matplotlib库进行Python绘图

学习使用Seaborn库进行统计绘图

使用Plotly库进行动态可视化

使用SciKit-learn处理机器学习任务

K-Means聚类

逻辑回归

线性回归

随机森林与决策树

自然语言处理与垃圾邮件过滤

神经网络

支持向量机

另外小编也会拥抱变化，根据评论中的需求情况增加其它有意义的内容。例如增加一些相关面试题等等。

什么是NumPy

NumPy是非常重要的Python数值计算扩展库，基本整个Python大数据生态都依赖它，并且由于绑定了C语言库，因此速度非常快。可以说我们要学好Python大数据，必须要学的就是NumPy库了。

安装NumPy

如果你根据之前的文章安装了anaconda，那么你已经默认安装了NumPy库了。如想单独安装请继续往下看。

使用conda安装的命令：

conda install numpy

使用pip安装的命令：

pip install numpy

NumPy array

本系列文章主要用到的是numpy的array（数组）；

numpy array有两种基本形式：vector（向量）和matrics（矩阵）

vector是一维的，而matrics是二维的。

打开Jupyter，输入如下内容：

import numpy as np

my_list = [1,2,3]

arr = np.array(my_list)

arr

运行得到如下结果：

以上就是vector的一般形式

继续输入如下内容：

my_mat = [[1,2,3],[4,5,6],[7,8,9]]

np.array(my_mat)

运行得到如下结果：

以上就是二维matrics矩阵。

numpy有自己的range函数

np.arange(0,10)

运行结果如下：

还可以指定步长np.arange(0,10,2)

运行结果如下：

生成所有元素为0的向量np.zeros(3)

运行结果如下：

生成所有元素为0的矩阵np.zeros((5,5))

运行结果如下：

同样生成所有元素为1的向量和矩阵分表为np.ones(4),np.ones((2,3))

运行结果如下：

np.linspace(0,5,20)

第一个参数是起始点，第二个参数是结束点，第三个参数是从起点到终点距离分成多少份。

运行结果如下：

np.eye(4)生成4*4的主对角线为1的矩阵

运行结果如下：

np.random.rand(5)生成随机向量

运行结果如下：

np.random.rand(5,5)生成5*5的随机向量

运行结果如下：

np.random.randn(2)生成标准正态分布曲线。

运行结果如下：

np.random.randn(4,4)二维的标准正态分布曲线

运行结果如下：

提示：

在Jupyter输入框中按tab键可以提示联想菜单，按shift+tab可以提示函数用法

按tab键

按shift+tab键

np.random.randint(1,100)生成1个1到100之间的随机整数，不包含100

运行结果如下：

np.random.randint(1,100,10)生成10个1到100之间的随机整数，不包含100

运行结果如下：

array类型支持的一些函数：

reshape函数可以修改array的维数。例如：

arr = np.arange(25)

arr.reshape(5,5)

运行结果如下：

max函数：最大值

min函数：最小值

argmax函数：返回最大值的索引

argmin函数：返回最小值的索引

ranarr = np.random.randint(1,100,10)

ranarr.max()

ranarr.min()

ranarr.argmax()

ranarr.argmin()

运行结果如下：

shape函数，返回array的大小

dtype，返回数据类型

调用简化：

from numpy.random import randint

我们就可以直接使用randint了

randint(2,10)

运行结果如下：

Python大数据与机器学习之NumPy初体验的更多相关文章

零基础入门到精通：Python大数据与机器学习之Pandas-数据操作
在这里还是要推荐下我自己建的Python开发学习群:483546416,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python ...
零起点PYTHON足彩大数据与机器学习实盘分析
零起点PYTHON足彩大数据与机器学习实盘分析第1章足彩与数据分析 1 1.1 “阿尔法狗”与足彩 1 1.2 案例1-1:可怕的英国足球 3 1.3 关于足彩的几个误区 7 1.4 足彩·大事件 ...
《零起点，python大数据与量化交易》
<零起点,python大数据与量化交易>,这应该是国内第一部,关于python量化交易的书籍. 有出版社约稿,写本量化交易与大数据的书籍,因为好几年没写书了,再加上近期"前海智库 ...
H2O是开源基于大数据的机器学习库包
H2O是开源基于大数据的机器学习库包 H2O能够让Hadoop做数学,H2O是基于大数据的统计分析机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言 Excel或JSON等 ...
学习推荐《零起点Python大数据与量化交易》中文PDF+源代码
学习量化交易推荐学习国内关于Python大数据与量化交易的原创图书<零起点Python大数据与量化交易>. 配合zwPython开发平台和zwQuant开源量化软件学习,是一套完整的大数据 ...
零起点Python大数据与量化交易
零起点Python大数据与量化交易第1章从故事开始学量化 1 1.1 亿万富翁的“神奇公式” 2 1.1.1 案例1-1:亿万富翁的“神奇公式” 2 1.1.2 案例分析:Python图表 5 1 ...
【阿里云产品公测】结构化数据服务OTS之JavaSDK初体验
[阿里云产品公测]结构化数据服务OTS之JavaSDK初体验作者:阿里云用户蓝色之鹰一.OTS简单介绍 OTS 是构建在阿里云飞天分布式系统之上的NoSQL数据库服务,提供海量结构化数据的存储和实 ...
python大数据
http://blog.csdn.net/xnby/article/details/50782913 一句话总结:spark是一个基于内存的大数据计算框架, 上层包括了:Spark SQL类似Hive ...
使用 .NET 5 体验大数据和机器学习
翻译:精致码农-王亮原文:http://dwz.win/XnM .NET 5 旨在提供统一的运行时和框架,使其在各平台都有统一的运行时行为和开发体验.微软发布了与 .NET 协作的大数据(.NET ...

随机推荐

iOS 内存分配与分区
RAM ROM RAM:运行内存,不能掉电存储. ROM:存储性内存,可以掉电存储,例如内存卡.Flash. 由于 RAM 类型不具备掉电存储能力(即一掉电数据消失),所以 app 程序一般存放于 R ...
算法(algorithm)
算法是什么? 算法是指令的集合,是为解决特定问题而规定的一系列操作. 它是明确定义的可计算过程,以一个数据集合作为输入,并产生一个数据集合作为输出. 一个算法通常来说具有以下五个特性: 1.输入:一个 ...
Redis 练习（二）
需求: 为购物网站实现登录状态及浏览记录的维护进入时检查 token 是否已登录每次进入更新 token 最新进入时间记录用户浏览的商品信息(最多 25 个) 定时检查 token 数量,如果超 ...
springboot actuator 配置安全
springboot actuator监控是什么?类似php的phpinfor()函数,不过actuator更强大,可以查看的数据.状态更多.Actuator是Spring Boot提供的对应用系统的 ...
Java时间戳获取
Java时间戳获取方式: 1:New Date().getTime(); 2: System.currentTimeMillis();区别: New Date().getTime()的底层其实是Sys ...
Linux bash篇（二操作环境）
1.命令执行的顺序 (1).相对/绝对路径 (2).由alias找到的命令 (3).由bash内置的命令 (4).通过$PATH变量找到的第一个命令 2.第一篇讲到的bash在注销后就会无效,如果想保 ...
21 static 静态的使用及特点
/* * static:他是一个关键字,用来修饰成员变量和成员方法 * static特点: * 被所有的对象所共享 * 可以直接使用类名来调用 * 静态所修饰的成员加载优先于对象,随着类的加载而加载 ...
Git应用详解第七讲：Git refspec与远程分支的重要操作
前言前情提要:Git应用详解第六讲:Git协作与Git pull常见问题这一节来介绍本地仓库与远程仓库的分支映射关系:git refspec.彻底弄清楚本地仓库到底是如何与远程仓库进行联系的. 一 ...
ftl中几个特殊的用法
@ 注意${}为变量的渲染显示,即先计算后打印出来,而<>里面为定义等操作符的定义 ,而首尾2个<>中间部分一般为计算打印部分 @数据模型中如果不是以map数据来封装的,而是直 ...
<context:component-scan base-package=""> 与 <context:annotation-config 区别
<context:component-scan base-package=""> <context:annotation-config (2012-11-16 2 ...

Python大数据与机器学习之NumPy初体验

什么是NumPy

安装NumPy

NumPy array

Python大数据与机器学习之NumPy初体验的更多相关文章

随机推荐

热门专题