今日内容概要

numpy剩余的知识点
pandas模块

今日内容详细

二元函数

加                   add

减                   sub

乘                   mul

除                   div

平方                 power

数学统计方法

sum                 求和

cumsum              累计求和

mean                对整体求平均数

std                 标准差

var                 方差

min

max

argmin              求最小元素对应的索引

armax               求最大元素对应的索引

随机数

np.random.rand(2.5) # 随机0-1之间的小数

array([[0.65863779, 0.9994306 , 0.35758039, 0.02292617, 0.70794499],

       [0.15469852, 0.97426284, 0.25622487, 0.20442957, 0.95286145]])

np.random.randint(1,10) # 取给定的数之间的随机整数

4

np.random.choice([111,222,333,444,555]) # 从给定的数组中随机的取一个

333

res = [1,2,3,4,5,6,7,8,9,10,'J','Q','K','A']

np.random.shuffle(res)  # 随机打乱顺序

res

[1, 'Q', 'J', 6, 8, 'K', 2, 3, 'A', 7, 10, 4, 9, 5]

np.random.uniform([100,10,11,22]) # 指定数组位置产生对应的随机数

array([83.53838005,  5.4824623 ,  4.85571734,  7.33774372])

特殊值含义

1、nan(Not a Number):不等于任何浮点数(nan != nan)

       表示的意思是缺失值(pandas里面)

---------------------------------------------

2、inf(infinity):比任何浮点数都大

---------------------------------------------

Pandas模块

1.非常强大的python数据分析包

2.基于numpy构建的 所以学习起来会有一种似曾相识的感觉

2.pandas奠定了python在数据分析领域的一哥地位

主要功能

1.具有两大非常灵活强大的数据类型

   series

   DataFrame

2.集成时间模块

3.提供丰富的数学运算和操作(基于numpy)

4.针对缺失数据操作非常灵活

两大数据结构

python中的字典

     key：value的形式

             key是对value的描述性信息

             value就是具体的数据

     res = {

          'username':'jason',

          'password':123,

          'hobby':'read'

     }

Series

类似于字典的带有标签的数组

DataFrame
```
其实类似于excel表格数据
```
都是基于numpy构建出来的

公司中使用频繁的是DataFrame，而Series是构成DataFrame的基础，即一个DataFrame可能由N个Series构成

基本使用

一定要先导入pandas，约定俗成的导入语句书写

import pandas as pd

数据结构之Series

是一种类似于一维数组对象，由数据和相关的标签(索引)组成

Series的创建方式总共有四种

左侧In[*]  正在运行加载

In[数字]   加载或者运行成功

"""

在python中导入模块的时候 只会加载一次

之后导入相同的模块不会继续加载而是直接使用

上一次加载的结果

python会将所有导入的模块单独存放到一个文件中

      导入模块的时候会自动去文件中查找  如果有则直接使用

python解释器关闭之后该文件就会清空

"""

#第一种

# Series的创建

res = pd.Series([111,222,333,444,555])

res

0    111

1    222

2    333

3    444

4    555

dtype: int64 # 默认会自动帮你用索引作为数据的标签

# 第二种

# 2.指定元素的标签：个数一定要一致

res1 = pd.Series([111,222,333,444,555],index=['a','b','c','d','e'])

res1

a    111

b    222

c    333

d    444

e    555

dtype: int64

# 第三种

# 3.直接放字典

res2 = pd.Series({'username':'jason','password':123,'hobby':'read'})

res2

username    jason

password      123

hobby        read

dtype: object

# 第四种

pd.Series(0,index=['a','b','c'])

a    0

b    0

c    0

dtype: int64

'''

Series的结构

    左侧是标签

    右侧是数据

'''

缺失数据

'''前戏'''

# 第一步，创建一个字典，通过Series方式创建一个Series对象

st = {"tony":18,"yang":19,"bella":20,"cloud":21}

obj = pd.Series(st)

obj

tony     18

yang     19

bella    20

cloud    21

dtype: int64

--------------------------------------------

# 第二步

a = {'tony','yang','cloud','satan'} # 定义一个索引变量

-------------------------------------------

# 第三步

obj1 = pd.Series(st,index=a)

obj1   # 将第二步定义的a变量作为索引传入

yang     19.0

tony     18.0

satan     NaN

cloud    21.0

dtype: float64

# 因为rocky没有出现在st的键中，所以返回的是缺失值

特殊值的处理

1.isnull

2.notnull

3.dropna

4.fillna

obj1.isnull()

yang     False

tony     False

satan     True

cloud    False

dtype: bool

obj1.notnull()

yang      True

tony      True

satan    False

cloud     True

dtype: bool

3、

过滤缺失值 # 布尔型索引

obj1[obj1.notnull()]

yang     19.0

tony     18.0

cloud    21.0

dtype: float64

obj1.dropna()   # 默认不会改变原来数据

yang     19.0

tony     18.0

cloud    21.0

dtype: float64

obj1.dropna(inplace=True)  # 该参数默认是Flase不修改数据本身

obj1

tony     18.0

yang     19.0

cloud    21.0

dtype: float64

obj1.fillna(666)   # 默认也是不修改原来的数据的 要想直接修改加参数inplace=True即可

yang     19.0

tony     18.0

cloud    21.0

dtype: float64

yang     19.0

tony     18.0

satan     NaN

cloud    21.0

dtype: float64

'''

上述四个方法中

     方法3和4是使用频率最高的

'''

Series的各种特性

基于跟Numpy操作一致

1.ndarray直接创建Series：Series(array)

         Series可以直接将numpy中的一维数组转换（这里必须只能是一维）

        res = pd.Series(np.array([1,2,3,4,5,6]))

        res

        0    1

        1    2

        2    3

        3    4

        4    5

        5    6

        dtype: int32

        res1 = pd.Series(np.array([[1,2,3,4],[5,6,7,8]]))

        res1    # 报错

        Exception                                 Traceback (most recent call last)

<ipython-input-30-e48b7149c3f9> in <module>

----> 1 res1 = pd.Series(np.array([[1,2,3,4],[5,6,7,8]]))

      2 res1

C:\ProgramData\Anaconda3\lib\site-packages\pandas\core\series.py in __init__(self, data, index, dtype, name, copy, fastpath)

    309                     data = data.copy()

    310             else:

--> 311                 data = sanitize_array(data, index, dtype, copy, raise_cast_failure=True)

    312

    313                 data = SingleBlockManager(data, index, fastpath=True)

C:\ProgramData\Anaconda3\lib\site-packages\pandas\core\internals\construction.py in sanitize_array(data, index, dtype, copy, raise_cast_failure)

    727     elif subarr.ndim > 1:

    728         if isinstance(data, np.ndarray):

--> 729             raise Exception("Data must be 1-dimensional")

    730         else:

    731             subarr = com.asarray_tuplesafe(data, dtype=dtype)

Exception: Data must be 1-dimensional

2.与标量运算

    res = pd.Series([11,22,33,44,55])

    res

    0    11

    1    22

	2    33

	3    44

	4    55

	dtype: int64

    res * 2

    0     22

	1     44

	2     66

	3     88

	4    110

	dtype: int64

3.两个Series运算

      res * res

    0     121

	1     484

	2    1089

	3    1936

	4    3025

	dtype: int64

  res1 = pd.Series([1,2,3,4],index=['a','b','c','d'])

  res * res1

  	0   NaN

	1   NaN

	2   NaN

	3   NaN

	4   NaN

	a   NaN

	b   NaN

	c   NaN

	d   NaN

	dtype: float64

4.通用函数abs

   	res3 = pd.Series([-1,-2,-3,-4,5,6])

   	res3.abs()

   	0    1

	1    2

	2    3

	3    4

	4    5

	5    6

	dtype: int64

5.布尔值索引

6.统计函数

7.从字典创建Series：Series(dic)

8.In运算

    res4 = pd.Series({'username':'satan','password':987})

    res4

    username    satan

	password      987

	dtype: object

    'username' in res4

    True

    for i in res4: # 跟python中的字典不一样 这里直接拿数据而不是标签

    print(i)

    satan

	987

9.键索引与切片

10.其他函数等

小补充

# 当你的机器下载了anaconda之后无法正常呼起一个jupyter界面

1.先去你的cmd窗口检查是否可以正常运行

    ipython

    jupyter notebook

2.anaconda软件需要的资源其实有点多

3.你的默认浏览器没有设置好

在你的cmd窗口中输入jupyter notebook启动一个服务端， 不借助于anaconda

手动将网址复制到浏览器地址栏

直接使用即可

numpy最后一部分及pandas初识的更多相关文章

pandas初识
pandas初识 1.生成DataFrame型的数据 import pandas as pd import numpy as np dates = pd.date_range('20130101',p ...
numpy、scipy、pandas
以下分别是numpy.Scipy.pandas的简介.虽然这些包提供的一些结构比python自身的“更高级.更高效”,更高级是因为它们能完成更高级的任务,但是,学习的时候尽量不要和python割裂开认 ...
Anaconda 安装和使用Numpy、Scipy、pandas、Scikit-learn
Anaconda 安装和使用 https://www.cnblogs.com/liruihuan/p/9101613.html 最近看了些关于数据分析的书,想系统的整理下相关知识,算是学习笔记吧,也希 ...
numpy，matplotlib，pandas
目录 numpy模块 numpy简介 numpy使用 matplotlib模块条形图直方图折线图散点图+直线图 pandas模块 numpy模块 numpy简介 numpy官方文档:https ...
Python_科学计算平台__pypi体系的numpy、scipy、pandas、matplotlib库简介
1.numpy--基础,以矩阵为基础的数学计算模块,纯数学存储和处理大型矩阵. 这个是很基础的扩展,其余的扩展都是以此为基础. 快速学习入口 https://docs.scipy.org/doc/n ...
python-数据分析与展示（Numpy、matplotlib、pandas）---3
笔记内容整理自mooc上北京理工大学嵩天老师python系列课程数据分析与展示,本人小白一枚,如有不对,多加指正 0.pandas基于Numpy实现的,前者注重应用,后者注重结构 1.Series类型 ...
pandas 初识（四）
Pandas 和 sqlalchemy 配合实现分页查询 Mysql 并获取总条数 @api.route('/show', methods=["POST"]) def api_sh ...
pandas 初识（三）
Python Pandas 空值 pandas 判断指定列是否(全部)为NaN(空值) import pandas as pd import numpy as np df = pd.DataFrame ...
pandas 初识（一）
基本内容 Series: Series 是有一组数据(numpy的数据类型 numpy.ndarray)以及一组数据标签(即索引)组成,可以看成一个一个定长的有序字典(索引值到数据值的一个映射) ob ...

随机推荐

AWS SAA_C01 考试分享。
Saa-c01 经验分享! 序言1.介绍自己的情况,我是一个做后台开发的初级java程序员.还是处于在写业务逻辑的阶段,我对aws可谓是啥都不懂,纯种的小白,完全是从0基础开始学习的.希望分享一些我的 ...
debian老版本下载地址
https://cdimage.debian.org/cdimage/archive/
Centos下安装配置WordPress与nginx教程
感谢大佬:https://www.howtoing.com/how-to-install-wordpress-with-nginx-on-centos-6-2 WordPress是一个免费和开源网站和 ...
NSArray基本概念
1.NSArray的基本概念什么是NSArray? NSArray是OC中的数组类,开发中建议尽量使用NSArray替代C语言中的数组 C语言中数组的弊端 int array[4] = {10, 8 ...
linux安装python3.6.6和新建虚拟环境
基础准备修改本地时区 cp -rf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 安装epel yum源 yum -y install epel- ...
【转】性能测试报告模板 V1.0
1．测试项目概述与测试目的 1.1 项目概述本部分主要是针对即将进行压力测试的对象(接口.模块.进程或系统)进行概要的说明,让人明白该测试对象的主要功能与作用及相关背景. 1.2 测试目标简 ...
一文详解Kafka API
摘要:Kafka的API有Producer API,Consumer API还有自定义Interceptor (自定义拦截器),以及处理的流使用的Streams API和构建连接器的Kafka Con ...
浅谈java代理模式
讲解java代理模式目录讲解java代理模式何谓代理模式静态代理动态代理 JDK动态代理 CGLIB动态代理何谓代理模式代理模式,即Proxy Pattern,23种java常用设计模式 ...
Linux重定向输出到以当前时间命名的文件 / date命令格式化输出
1. 利用date命令重定向到以当前时间命名的文件例如: ls -l > mylog_$(date +"%Y-%m-%d_%H-%M-%S").log 或: ls -l & ...
Byobu安装与使用
机子为Ubuntu18 Byobu安装 sudo apt-get install byobu Byobu安装后默认禁用,需要启用Byobu,之后每次登陆自动启用Byobu byobu-enable 还 ...

numpy最后一部分及pandas初识

今日内容概要

今日内容详细

二元函数

数学统计方法

随机数

特殊值含义

Pandas模块

主要功能

两大数据结构

基本使用

数据结构之Series

缺失数据

特殊值的处理

Series的各种特性

小补充

numpy最后一部分及pandas初识的更多相关文章

随机推荐

热门专题