一、ipython的简单使用

IPython:交互式的Python命令行

丰富的快捷键

TAB键自动完成

?：内省、命名空间搜索

!：执行系统命令

魔术命令：以%开始的命令

%run：执行文件代码

%paste：执行剪贴板代码

%timeit：评估运行时间

%pdb：自动调试

使用命令历史

获取输入输出结果

目录标签系统

IPython Notebook

jupyter notebook

在cmd上安装jupyter 然后运行 jupyter notebook 即可

NumPy模块：数组计算

NumPy是高性能科学计算和数据分析的基础包。它是pandas等其他各种工具的基础。

NumPy的主要功能：

ndarray，一个多维数组结构，高效且节省空间

无需循环对整组数据进行快速运算的数学函数

*读写磁盘数据的工具以及用于操作内存映射文件的工具

*线性代数、随机数生成和傅里叶变换功能

*用于集成C、C++等代码的工具

安装方法：pip install numpy

引用方式：import numpy as np

NumPy：ndarray-多维数组对象

创建ndarray：np.array()

ndarray是多维数组结构，与列表的区别是：

数组对象内的元素类型必须相同

数组大小不可修改

常用属性：

T        数组的转置（对高维数组而言）

dtype    数组元素的数据类型

size    数组元素的个数

ndim    数组的维数

shape    数组的维度大小（以元组形式）

NumPy：ndarray-数据类型

ndarray数据类型：dtype：

布尔型：bool_

整型：int_ int8 int16 int32 int64

无符号整型：uint8 uint16 uint32 uint64

浮点型：float_ float16 float32 float64

复数型：complex_ complex64 complex128

NumPy：索引和切片

数组和标量之间的运算

a+1    a*3    1//a    a**0.5

同样大小数组之间的运算

a+b    a/b    a**b

数组的索引：

一维数组：a[5]

多维数组：

列表式写法：a[2][3]

新式写法：a[2,3] (推荐)

数组的切片：

一维数组：a[5:8]    a[4:]        a[2:10] = 1

多维数组：a[1:2, 3:4]    a[:,3:5]        a[:,1]

与列表不同，数组切片时并不会自动复制，在切片数组上的修改会影响原数组。    【解决方法：copy()】

NumPy：布尔型索引

问题：给一个数组，选出数组中所有大于5的数。

答案：a[a>5]

原理：

a>5会对a中的每一个元素进行判断，返回一个布尔数组

布尔型索引：将同样大小的布尔数组传进索引，会返回一个由所有True对应位置的元素的数组

问题2：给一个数组，选出数组中所有大于5的偶数。

问题3：给一个数组，选出数组中所有大于5的数和偶数。

答案：

a[(a>5) & (a%2==0)]

a[(a>5) | (a%2==0)]

NumPy：花式索引*

问题1：对于一个数组，选出其第1，3，4，6，7个元素，组成新的二维数组。

答案：a[[1,3,4,6,7]]

问题2：对一个二维数组，选出其第一列和第三列，组成新的二维数组。

答案：a[:,[1,3]]

NumPy：通用函数

通用函数：能同时对数组中所有元素进行运算的函数

常见通用函数：

一元函数：abs(绝对值), sqrt(开方), exp, log, ceil, floor, rint, trunc, modf(分别取出小数部分和整数部分), isnan, isinf, cos, sin, tan

二元函数：add, substract, multiply, divide, power, mod,  maximum, mininum,

ceil:向上取整 3.6 -》4 3.1-》4 -3.1-》-3

floor:向下取整：3.6-》3 3.1-》3 -3.1-》-4

rint(round):四舍五入：3.6-》4 3.1-》3 -3.6-》-4

trunc(int):向零取整（舍去小数点后） 3.6-》3 3.1-》3 -3.1-》-3

arr = np.arange(10)
arr.sum()#45  求和

arr.mean()#4.5 平均值

arr.cumsum()  #array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45], dtype=int32) #等差数列 
arr.std() #、求标准差

补充知识：浮点数特殊值

浮点数：float

浮点数有两个特殊值：

nan(Not a Number)：不等于任何浮点数（nan != nan）

inf(infinity)：比任何浮点数都大

NumPy中创建特殊值：np.nan    np.inf

在数据分析中，nan常被用作表示数据缺失值

NumPy：数学和统计方法

sum    求和

cumsum 求前缀和

mean    求平均数

std    求标准差

var    求方差

min    求最小值

max    求最大值

argmin    求最小值索引

argmax    求最大值索引

NumPy：随机数生成

随机数生成函数在np.random子包内

常用函数

rand        给定形状产生随机数组（0到1之间的数）

randint        给定形状产生随机整数

choice        给定形状产生随机选择

shuffle        与random.shuffle相同

uniform        给定形状产生随机数组

pandas：数据分析

pandas是一个强大的Python数据分析的工具包。

pandas是基于NumPy构建的。

pandas的主要功能

具备对其功能的数据结构DataFrame、Series

集成时间序列功能

提供丰富的数学运算和操作

灵活处理缺失数据

安装方法：pip install pandas

引用方法：import pandas as pd

pandas：Series

Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。

创建方式：

pd.Series([4,7,-5,3])

pd.Series([4,7,-5,3],index=['a','b','c','d'])

pd.Series({'a':1, 'b':2})

pd.Series(0, index=['a','b','c','d’])

pandas：Series特性

Series支持数组的特性：

从ndarray创建Series：Series(arr)

与标量运算：sr*2

两个Series运算：sr1+sr2

索引：sr[0], sr[[1,2,4]]

切片：sr[0:2]（切片依然是视图形式）

通用函数：np.abs(sr)

布尔值过滤：sr[sr>0]

统计函数：mean() sum() cumsum()

Series支持字典的特性（标签）：

从字典创建Series：Series(dic),

in运算：’a’ in sr、for x in sr

键索引：sr['a'], sr[['a', 'b', 'd']]

键切片：sr['a':'c']

其他函数：get('a', default=0)等

^{pandas：整数索引}

整数索引的pandas对象往往会使新手抓狂。

例：

sr = np.Series(np.arange(4.))

sr[-1] 

如果索引是整数类型，则根据整数进行数据操作时总是面向标签的。

loc属性        以标签解释

iloc属性        以下标解释

pandas：Series数据对齐

pandas在运算时，会按索引进行对齐然后计算。如果存在不同的索引，则结果的索引是两个操作数索引的并集。

例：

sr1 = pd.Series([12,23,34], index=['c','a','d'])

sr2 = pd.Series([11,20,10], index=['d','c','a',])

sr1+sr2

sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])

sr1+sr3

如何在两个Series对象相加时将缺失值设为0？

sr1.add(sr2, fill_value=0)

灵活的算术方法：add, sub, div, mul

pandas：Series缺失数据

缺失数据：使用NaN（Not a Number）来表示缺失数据。其值等于np.nan。内置的None值也会被当做NaN处理。

处理缺失数据的相关方法：

dropna()        过滤掉值为NaN的行

fillna()        填充缺失数据

isnull()        返回布尔数组，缺失值对应为True

notnull()        返回布尔数组，缺失值对应为False

pandas：DataFrame

DataFrame是一个表格型的数据结构，含有一组有序的列。

DataFrame可以被看做是由Series组成的字典，并且共用一个索引。

创建方式：

pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})

pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']), 'two':pd.Series([1,2,3,4],index=['b','a','c','d'])})

......

csv文件读取与写入：

df.read_csv('filename.csv')

df.to_csv()

pandas：DataFrame查看数据

查看数据常用属性及方法：

index                    获取索引

T                        转置

columns                    获取列索引

values                    获取值数组

describe()                获取快速统计

DataFrame各列name属性：列名

rename(columns={})

pandas：DataFrame索引和切片

DataFrame有行索引和列索引。

DataFrame同样可以通过标签和位置两种方法进行索引和切片。

^{DataFrame使用索引切片：}

方法1：两个中括号，先取列再取行。    df['A'][0]

方法2（推荐）：使用loc/iloc属性，一个中括号，逗号隔开，先取行再取列。

loc属性：解释为标签

iloc属性：解释为下标

向DataFrame对象中写入值时只使用方法2

行/列索引部分可以是常规索引、切片、布尔值索引、花式索引任意搭配。（注意：两部分都是花式索引时结果可能与预料的不同）

通过标签获取

df['A']

df[['A', 'B']]

df['A'][0]

df[0:10][['A', 'C']]

df.loc[:,['A','B']]

df.loc[:,'A':'C']

df.loc[0,'A']

df.loc[0:10,['A','C']]

通过位置获取：

df.iloc[3]

df.iloc[3,3]

df.iloc[0:3,4:6]

df.iloc[1:5,:]

df.iloc[[1,2,4],[0,3]]

通过布尔值过滤

df[df['A']>0]

df[df['A'].isin([1,3,5])]

df[df<0] = 0

pandas：DataFrame数据对齐与缺失数据

DataFrame对象在运算时，同样会进行数据对齐，行索引与列索引分别对齐。

结果的行索引与列索引分别为两个操作数的行索引与列索引的并集。

DataFrame处理缺失数据的相关方法：

dropna(axis=0,where='any',…)

fillna()

isnull()

notnull()

pandas：其他常用方法

pandas常用方法（适用Series和DataFrame）：

mean(axis=,skipna=False)

sum(axis=)

sort_index(axis, …, ascending)        按行或列索引排序

sort_values(by, axis, ascending)    按值排序

NumPy的通用函数同样适用于pandas

apply(func, axis=)    将自定义函数应用在各行或者各列上                                  ，func可返回标量或者Series

applymap(func)        将函数应用在DataFrame各个元素上

map(func)        将函数应用在Series各个元素上

pandas：时间对象处理

时间序列类型：

时间戳：特定时刻

固定时期：如2017年7月

时间间隔：起始时间-结束时间

Python标准库：datetime

date time datetime timedelta

dt.strftime()

strptime()

灵活处理时间对象：dateutil包

dateutil.parser.parse()

成组处理时间对象：pandas

pd.to_datetime(['2001-01-01', '2002-02-02'])

产生时间对象数组：date_range

start        开始时间

end        结束时间

periods        时间长度

freq        时间频率，默认为'D'，可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

pandas：时间序列

时间序列就是以时间对象为索引的Series或DataFrame。

datetime对象作为索引时是存储在DatetimeIndex对象中的。

时间序列特殊功能：

传入“年”或“年月”作为切片方式

传入日期范围作为切片方式

丰富的函数支持：resample(), strftime(), ……

批量转换为datetime对象：to_pydatetime()

pandas：从文件读取

读取文件：从文件名、URL、文件对象中加载数据

read_csv        默认分隔符为csv

read_table    默认分隔符为\t

read_excel    读取excel文件

读取文件函数主要参数：

sep        指定分隔符，可用正则表达式如'\s+'

header=None    指定文件无列名

name        指定列名

index_col    指定某列作为索引

skip_row        指定跳过某些行

na_values    指定某些字符串表示缺失值

parse_dates    指定某些列是否被解析为日期，布尔值或列表

pandas：写入到文件

写入到文件：

to_csv

写入文件函数的主要参数：

sep

na_rep        指定缺失值转换的字符串，默认为空字符串

header=False    不输出列名一行

index=False    不输出行索引一列

cols        指定输出的列，传入列表

其他文件类型：json, XML, HTML, 数据库

pandas转换为二进制文件格式（pickle）:

save

load

Python与金融分析基础的更多相关文章

Python开发（一）：Python介绍与基础知识
Python开发(一):Python介绍与基础知识本次内容一:Python介绍: 二:Python是一门什么语言三:Python:安装四:第一个程序 “Hello world” 五:Pytho ...
[资料分享]Python视频教程（基础篇、进阶篇、项目篇）
Python是一种开放源代码的脚本编程语言,这种脚本语言特别强调开发速度和代码的清晰程度.它可以用来开发各种程序,从简单的脚本任务到复杂的.面向对象的应用程序都有大显身手的地方.Python还被当作一 ...
Python学习入门基础教程(learning Python)--5.6 Python读文件操作高级
前文5.2节和5.4节分别就Python下读文件操作做了基础性讲述和提升性介绍,但是仍有些问题,比如在5.4节里涉及到一个多次读文件的问题,实际上我们还没有完全阐述完毕,下面这个图片的问题在哪呢? 问 ...
Python学习笔记基础篇——总览
Python初识与简介[开篇] Python学习笔记——基础篇[第一周]——变量与赋值.用户交互.条件判断.循环控制.数据类型.文本操作 Python学习笔记——基础篇[第二周]——解释器.字符串.列 ...
Python 3 集合基础和概念！
Python 3 集合基础和概念! Python 3中,集合是无序的,所以不能进行切片和索引操作. 创建集合有两个方法:set()方法创建的集合是可变的,可被迭代的:frozenset()方法创建的集 ...
[Python] 文科生零基础学编程系列二——数据类型、变量、常量的基础概念
上一篇:[Python] 文科生零基础学编程系列--对象.集合.属性.方法的基本定义下一篇: (仍先以最简单的Excel的VBA为例,语法与Python不同,但概念和逻辑需要理解透彻) p.p1 { ...
[Python] 文科生零基础学编程系列三——数据运算符的基本类别
上一篇:[Python] 文科生零基础学编程系列二--数据类型.变量.常量的基础概念下一篇: ※ 程序的执行过程,就是对数据进行运算的过程. 不同的数据类型,可以进行不同的运算, 按照数据运算类型的 ...
Python网络编程基础pdf
Python网络编程基础(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1VGwGtMSZbE0bSZe-MBl6qA 提取码:mert 复制这段内容后打开百度网盘手 ...
Python Numpy shape 基础用法（转自他人的博客，如涉及到侵权，请联系我）
Python Numpy shape 基础用法 shape函数是numpy.core.fromnumeric中的函数,它的功能是读取矩阵的长度,比如shape[0]就是读取矩阵第一维度的长度.它的输入 ...

随机推荐

再见NullPointerException。在Kotlin里null的处理（KAD 19）
作者:Antonio Leiva 时间:Apr 4, 2017 原文链接:https://antonioleiva.com/nullity-kotlin/ 关于Kotlin最重要的部分之一:无效处理, ...
cocos2d-x 精灵
Sprite有两个父类:BatchableNode批量创建精灵(大量重复的比如子弹)和pyglet.sprite.Sprite. 精灵的创建
Fluentd插件使用方法
这里主要介绍从MongoDB同步数据到ODPS.ruby环境的搭建以及fluent_plugin_mongo_odps插件的安装.1.准备工作1.1安装环境要求Ruby 2.1以上Gem 2.4.5以 ...
NO1——线段树
/* 数组存储 */ /* 预处理 */ #include <iostream> #include <cstdio> #include <algorithm> #i ...
在使用easyUI时，js,css样式都加载了但是图标加载不了
可能的问题:web.xml 配置了这些 <servlet-mapping> <servlet-name>default</servlet-name> <url ...
tomcat 启动报错解决办法 A child container failed during
控制台报错: Caused by: org.apache.catalina.LifecycleException: A child container failed during start at o ...
我的python计划
一直想学习一种脚本语言.现在主流的脚本语言,比较先接触的是python 刚开始了解了一下python,感觉挺适合自己的感觉,学习了一段时间,之中感觉,就好象C++一样,把面向对象和面向过程编程结合了起 ...
java enum naming rules & Pascal case, Camel case, Uppercase
java enum naming rules Constant & all Capital Case https://stackoverflow.com/questions/3069743/c ...
SQL Server 使用分区函数实现查询优化
在项目中遇到一个需求,需要在商家收藏信息中,获取到该商家发布的最新一条商品的发布时间,需求很简单,SQL语句也不复杂, select T_UserCollectMerchant.CollectID,T ...
Hibernate domain对象说明
一个domain对象对应于数据库的一张表(也可以表示出表关系) domain对象必须带一个无参构造函数建议有一个无意义id,作为主键建议非final,否则无法使用Hibernate的高级特性(懒加 ...

Python与金融分析基础

一 、ipython的简单使用

丰富的快捷键

魔术命令：以%开始的命令

jupyter notebook

NumPy模块：数组计算

NumPy：ndarray-多维数组对象

NumPy：ndarray-数据类型

NumPy：索引和切片

NumPy：布尔型索引

NumPy：花式索引*

NumPy：通用函数

补充知识：浮点数特殊值

NumPy：数学和统计方法

NumPy：随机数生成

pandas：数据分析

pandas的主要功能

pandas：Series

创建方式：

pandas：Series特性

pandas：整数索引

pandas：Series数据对齐

pandas：Series缺失数据

pandas：DataFrame

pandas：DataFrame查看数据

pandas：DataFrame索引和切片

DataFrame使用索引切片：

通过标签获取

通过位置获取：

通过布尔值过滤

pandas：DataFrame数据对齐与缺失数据

pandas：其他常用方法

pandas：时间对象处理

pandas：时间序列

pandas：从文件读取

pandas：写入到文件

Python与金融分析基础的更多相关文章

随机推荐

热门专题

一、ipython的简单使用

^{pandas：整数索引}

^{DataFrame使用索引切片：}