numpy和pandas简单使用

import numpy as np

import pandas as pd

一维数据分析

numpy中使用array, pandas中使用series

numpy一维数组array

1.基本使用

a= np.array([2,3,4,5])

array([2, 3, 4, 5])

a[0]

a[1:3]

array([3, 4])

a.dtype

dtype('int64')

2.向量化计算

a=np.array([1,2,3])

b=np.array([4,5,6])

a + b

array([5, 7, 9])

a * b

array([ 4, 10, 18])

3.统计功能

np.mean(a)

2.0

np.std(a)

0.816496580927726

pandas一维数据结构series

1.基本使用

stocks=pd.Series([54.74,190.0,173.14,1050.3,181.86,1139.49],index=['腾讯','阿里巴巴','苹果', '谷歌', 'Facebook', '亚马逊'])

描述统计信息

stocks.describe()

count       6.000000

mean      464.921667

std       491.284358

min        54.740000

25%       175.320000

50%       185.930000

75%       835.225000

max      1139.490000

dtype: float64

按照位置取值

stocks.iloc[0]

54.74

按照索引取值

stocks.loc['腾讯']

54.74

2.向量化计算

s1 = pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd'])

s2 = pd.Series([10,20,30,40], index=['a', 'b', 'e', 'f'])

s3 = s1 + s2

s3

a    11.0

b    22.0

c     NaN

d     NaN

e     NaN

f     NaN

dtype: float64

相同index名称相加，index不同默认结果为NaN
下面两种去除NaN的方法

s3.dropna()

a    11.0

b    22.0

dtype: float64

s3 = s1.add(s2, fill_value=0)

s3

a    11.0

b    22.0

c     3.0

d     4.0

e    30.0

f    40.0

dtype: float64

二维数据分析

numpy二维数组array

1.基本使用

a = np.array([[1,2,3, 4],

              [5,6,7,8],

              [9,10,11,12]])

a

array([[ 1,  2,  3,  4],

       [ 5,  6,  7,  8],

       [ 9, 10, 11, 12]])

a[0,2]

取第一行

a[0,:]

array([1, 2, 3, 4])

取第一列

a[:, 0]

array([1, 5, 9])

按行计算均值 axis=1 按行 axis=0 按列

a.mean(axis=1)

array([ 2.5,  6.5, 10.5])

pandas二维数据结构DataFrame

1.基本使用

向DataFrame中传入一个字典

salesDict = {

    '购药时间': ['2018-01-01 星期五', '2018-01-02 星期六', '2018-01-06 星期三'],

    '社保卡号': ['001616528', '001616528', '0012602828'],

    '商品编码': [236701, 236701, 236701],

    '商品名称': ['强力VC银翘片', '清热解毒口服液', '感康'],

    '销售数量': [6,1,2],

    '应收金额': [82.8,28,16.8],

    '实收金额': [69, 24.64, 15]

}

saleDf=pd.DataFrame(salesDict)

saleDf

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	购药时间	社保卡号	商品编码	商品名称	销售数量	应收金额	实收金额
0	2018-01-01 星期五	001616528	236701	强力VC银翘片	6	82.8	69.00
1	2018-01-02 星期六	001616528	236701	清热解毒口服液	1	28.0	24.64
2	2018-01-06 星期三	0012602828	236701	感康	2	16.8	15.00

使用OrderedDict保证数据有序

from collections import OrderedDict

salesOrderDict = OrderedDict(salesDict)

salesDf = pd.DataFrame(salesOrderDict)

salesDf

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	购药时间	社保卡号	商品编码	商品名称	销售数量	应收金额	实收金额
0	2018-01-01 星期五	001616528	236701	强力VC银翘片	6	82.8	69.00
1	2018-01-02 星期六	001616528	236701	清热解毒口服液	1	28.0	24.64
2	2018-01-06 星期三	0012602828	236701	感康	2	16.8	15.00

统计功能

salesDf.mean()

商品编码    236701.000000

销售数量         3.000000

应收金额        42.533333

实收金额        36.213333

dtype: float64

按照位置读取数据

salesDf.iloc[0,1]

'001616528'

读取第一行数据

salesDf.iloc[0,:]

购药时间    2018-01-01 星期五

社保卡号         001616528

商品编码            236701

商品名称           强力VC银翘片

销售数量                 6

应收金额              82.8

实收金额                69

Name: 0, dtype: object

读取第一列数据

salesDf.iloc[:,0]

0    2018-01-01 星期五

1    2018-01-02 星期六

2    2018-01-06 星期三

Name: 购药时间, dtype: object

按照列名称读取数据
读取某一列或某几列数据

salesDf.loc[:,'商品名称']

0    强力VC银翘片

1    清热解毒口服液

2         感康

Name: 商品名称, dtype: object

salesDf.loc[:, ['商品名称', '销售数量']]

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	商品名称	销售数量
0	强力VC银翘片	6
1	清热解毒口服液	1
2	感康	2

读取列数据的简单写法

salesDf['商品名称']

0    强力VC银翘片

1    清热解毒口服液

2         感康

Name: 商品名称, dtype: object

2.筛选查询

构建查询条件

querySet = salesDf.loc[:, '销售数量'] > 1

type(querySet)

pandas.core.series.Series

querySet

0     True

1    False

2     True

Name: 销售数量, dtype: bool

应用查询条件

salesDf.loc[querySet,:]

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	购药时间	社保卡号	商品编码	商品名称	销售数量	应收金额	实收金额
0	2018-01-01 星期五	001616528	236701	强力VC银翘片	6	82.8	69.0
2	2018-01-06 星期三	0012602828	236701	感康	2	16.8	15.0

3.pandas读取execl

这里依赖于xlrd

fileNameStr = './手机销售情况.xlsx'

xls = pd.ExcelFile(fileNameStr)

salesDf = xls.parse('Sheet1')

读取前5行

salesDf.head()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	商品名称	单价	销量
0	IphoneXsMax	9900	100000
1	IphoneXR	5000	500000
2	小米9	2999	2000000
3	IpadMini5	2999	100000000

查看数据类型

salesDf.loc[:, '单价'].dtype

dtype('int64')

salesDf.dtypes

商品名称    object

单价       int64

销量       int64

dtype: object

查看数据行数列数

salesDf.shape

(4, 3)

每一列的描述统计信息

salesDf.describe()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	单价	销量
count	4.000000	4.000000e+00
mean	5224.500000	2.565000e+07
std	3256.603599	4.957341e+07
min	2999.000000	1.000000e+05
25%	2999.000000	4.000000e+05
50%	3999.500000	1.250000e+06
75%	6225.000000	2.650000e+07
max	9900.000000	1.000000e+08

numpy和pandas简单使用的更多相关文章

python之pandas简单介绍及使用（一）
python之pandas简单介绍及使用(一) 一. Pandas简介1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据 ...
1.理解Numpy、pandas
之前一直做得只是采集数据,而没有再做后期对数据的处理分析工作,自己也是有意愿去往这些方向学习的,最近就在慢慢的接触. 首先简单理解一下numpy和pandas:一.NumPy:1.NumPy是高性能计 ...
python及numpy，pandas易混淆的点
https://blog.csdn.net/happyhorizion/article/details/77894035 初接触python觉得及其友好(类似matlab),尤其是一些令人拍案叫绝不可 ...
NumPy和Pandas常用库
NumPy和Pandas常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包.部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组. 用于对整组数 ...
numpy,scipy,pandas 和 matplotlib
numpy,scipy,pandas 和 matplotlib 本文会介绍numpy,scipy,pandas 和 matplotlib 的安装,环境为Windows10. 一般情况下,如果安装了Py ...
python安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...
如何快速地从mongo中提取数据到numpy以及pandas中去
mongo数据通常过于庞大,很难一下子放进内存里进行分析,如果直接在python里使用字典来存贮每一个文档,使用list来存储数据的话,将很快是内存沾满.型号拥有numpy和pandas import ...
numpy、pandas
numpy: 仨属性:ndim-维度个数:shape-维度大小:dtype-数据类型. numpy和pandas各def的axis缺省为0,作用于列,除DataFrame的.sort_index()和 ...
[转] python安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...

随机推荐

[转帖] k8s dashboard 的创建升级以及 admin token的创建和简单使用.
Kubernetes Dashboard中的身份认证详解 https://jimmysong.io/posts/kubernetes-dashboard-upgrade/ Thu Nov 2, 201 ...
Js单元测试工具以及粗浅的对我的快乐运算进行测试
1. Karma的介绍 Karma是Testacular的新名字,在2012年google开源了Testacular,2013年Testacular改名为Karma.Karma是一个让人感到非常神秘的 ...
DataGridView列标题居中，内容居中
//列标题居中 dataGridView1.ColumnHeadersDefaultCellStyle.Alignment = DataGridViewContentAlignment.MiddleC ...
移动的调试工具vConsole
在PC端写代码调试的时候,直接console.log()即可,但是在手机端怎么调试??最近发现一个很有用的插件vConsole 首先引入插件: 然后再文件中使用即可: 这样再手机中就会出现下面的标识, ...
ESLint的使用
ESLint是在ECMAScript/JavaScript代码中识别和报告模式匹配的工具,它的目标是保证代码的一致性和避免错误.在许多方面,它和JSLint.JSHint相似,除了少数的例外: ESL ...
c#public、private、protected、internal、protected internal
public 公有访问.不受任何限制.private 私有访问.只限于本类成员访问,子类,实例都不能访问.protected 保护访问.只限于本类和子类访问,实例不能访问.internal 内部访问. ...
Linux_Crontab命令
一.Crontab 字段名称说明范围分钟每小时中的第几分钟执行 0~59 小时每日的第几小时执行 0~23 日期每月的第几天执行 1~31 月历每年的第几月执行 1~12 星期每周的第 ...
【题解】Luogu P2047 社交网络总结（Floyd算法，最短路计数）
题目描述在社交网络(social network)的研究中,我们常常使用图论概念去解释一些社会现象.不妨看这样的一个问题.在一个社交圈子里有n个人,人与人之间有不同程度的关系.我们将这个关系网络对 ...
前端学习 -- Html&Css -- 相对定位绝对定位固定定位
相对定位 - 定位指的就是将指定的元素摆放到页面的任意位置,通过定位可以任意的摆放元素. - 通过position属性来设置元素的定位. -可选值: static:默认值,元素没有开启定位: rela ...
QWidget窗体中使用Q_OBJECT后无法添加背景图片或背景色
在继承自QWiget的窗体中,设置背景图片或背景色比较简单的方法是使用setStyleSheet()函数,比如在构造函数中可以这样来设置背景图片: this->setStyleSheet(&qu ...

numpy和pandas简单使用

numpy和pandas简单使用

一维数据分析

numpy一维数组array

pandas一维数据结构series

二维数据分析

numpy二维数组array

pandas二维数据结构DataFrame

numpy和pandas简单使用的更多相关文章

随机推荐

热门专题