day32 Python与金融量化分析(二)

第一部分：金融与量化投资

股票：

股票是股份公司发给出资人的一种凭证，股票的持有者就是股份公司的股东。

股票的面值与市值

面值表示票面金额
市值表示市场价值

上市/IPO：

企业通过证券交易所公开向社会增发股票以募集资金

股票的作用：

出资证明、证明股东身份、对公司经营发表意见
公司分红、交易获利

股票的分类

股票按业绩分类：

蓝筹股：资本雄厚、信誉优良的公司的股票
绩优股：业绩优良公司的股票
ST股：特别处理股票，连续两年亏损或每股净资产低于股票面值

股票按上市地区分类：

A股：中国大陆上市，人民币认购买卖（T+1，涨跌幅10%）
B股：中国大陆上市，外币认购买卖（T+1，T+3）
H股：中国香港上市（T+0，涨跌幅不设限制）
N股：美国纽约上市
S股：新加坡上市

股票市场的构成

上市公司
投资者（包括机构投资者）
证监会、证券业协会、交易所
证券中介机构

交易所

上海证券交易所：只有一个主板（沪指）
深圳证券交易所：

主板：大型成熟企业（深成指）
中小板：经营规模较小
创业板：尚处于成长期的创业企业

影响股价的因素

公司自身因素：股票自身价值是决定股价最基本的因素，而这主要取决于发行公司的经营业绩、资信水平以及连带而来的股息红利派发状况、发展前景、股票预期收益水平等。
行业因素：行业在国民经济中地位的变更，行业的发展前景和发展潜力，新兴行业引来的冲击等，以及上市公司在行业中所处的位置，经营业绩，经营状况，资金组合的改变及领导层人事变动等都会影响相关股票的价格。
市场因素：投资者的动向，大户的意向和操纵，公司间的合作或相互持股，信用交易和期货交易的增减，投机者的套利行为，公司的增资方式和增资额度等，均可能对股价形成较大影响。
心理因素：情绪波动，判断失误，盲目追随大户、狂抛抢购
经济因素：经济周期，国家的财政状况，金融环境，国际收支状况，行业经济地位的变化，国家汇率的调整等
政治因素

股票买卖（A股）

委托买卖股票 : 个人不能直接买卖，需要在券商开户，进行委托购买
股票交易日：周一到周五（非法定节假日和交易所休市日）
股票交易时间：
- 9:15-9:25 开盘集合竞价时间
- 9:30-11:30 前市，连续竞价时间
- 13:00-15:00 后市，连续竞价时间
- 14:57-15:00 深交所收盘集合竞价时间
T+1交易制度：股票买入后当天不能卖出，要在买入后的下一个交易日才能卖出
涨停、跌停限制

金融分析

基本面分析

宏观经济面分析：国家的财政政策、货币政策等
行业分析
公司分析：财务数据、业绩报告等

技术面分析：各项技术指标

K线
MA（均线）
KDJ（随机指标）
MACD（指数平滑移动平均线）
……

K线

金融量化投资

量化投资：利用计算机技术并且采用一定的数学模型去实践投资理念，实现投资策略的过程。
量化投资的优势：
- 避免主观情绪、人性弱点和认知偏差，选择更加客观
- 能同时包括多角度的观察和多层次的模型
- 及时跟踪市场变化，不断发现新的统计模型，寻找交易机会
- 在决定投资策略后，能通过回测验证其效果

量化策略

量化策略：通过一套固定的逻辑来分析、判断和决策，自动化地进行股票交易。
核心内容
- 选股
- 择时
- 仓位管理
- 止盈止损
策略的周期
- 产生想法/学习知识
- 实现策略：Python
- 检验策略：回测/模拟交易
- 实盘交易
- 优化策略/放弃策略

第二部分：量化投资与Python

量化投资与Python

为什么选择Python?
- 其他选择：Excel、SAS/SPSS、R
量化投资第三方相关模块
- NumPy：数值计算
- pandas：数据分析
- Matplotlib：图标绘制
如何使用Python进行量化投资
- 自己编写：NumPy+pandas+Matplotlib+……
- 在线平台：聚宽、优矿、米筐、Quantopian、……
- 开源框架：RQAlpha、QUANTAXIS、……

Ipython:交互式的Python命令行

IPython：安装：pip install ipython
TAB键自动完成
?命令（内省、命名空间搜索）
执行系统命令（!）
%run命令执行文件代码
%paste %cpaste命令执行剪贴板代码
与编辑器和IDE交互
魔术命令：%timeit %pdb …
使用命令历史
输入与输出变量（_, __, _2, _i2）
目录书签系统 %bookmark
Ipython Notebook

Ipython常用的魔术命令

Python调试器命令

Ipython快捷键

NumPy：数组计算

NumPy是高性能科学计算和数据分析的基础包。它是pandas等其他各种工具的基础。
NumPy的主要功能：
- ndarray，一个多维数组结构，高效且节省空间
- 无需循环对整组数据进行快速运算的数学函数
- *读写磁盘数据的工具以及用于操作内存映射文件的工具
- *线性代数、随机数生成和傅里叶变换功能
- *用于集成C、C++等代码的工具
安装方法：pip install numpy
引用方式：import numpy as np

NumPy：ndarray-多维数组对象

创建ndarray：np.array()
为什么要使用ndarray：
- 例1：已知若干家跨国公司的市值（美元），将其换算为人民币
- 例2：已知购物车中每件商品的价格与商品件数，求总金额
ndarray还可以是多维数组，但元素类型必须相同
常用属性：
- T 数组的转置（对高维数组而言）
- dtype 数组元素的数据类型
- size 数组元素的个数
- ndim 数组的维数
- shape 数组的维度大小（以元组形式）

NumPy：ndarray-多维数组对象

dtype：
- bool_, int(8,16,32,64), uint(8,16,32,64), float(16,32,64)
- 类型转换：astype()
创建ndarray：
- array() 将列表转换为数组，可选择显式指定dtype
- arange() range的numpy版，支持浮点数
- linspace() 类似arange()，第三个参数为数组长度
- zeros() 根据指定形状和dtype创建全0数组
- ones() 根据指定形状和dtype创建全1数组
- empty() 根据指定形状和dtype创建空数组（随机值）
- eye() 根据指定边长和dtype创建单位矩阵

NumPy：索引和切片

数组和标量之间的运算
- a+1 a*3 1//a a**0.5
同样大小数组之间的运算
- a+b
- a/b
- a**b
数组的索引
- a[5]
- a2[2][3]
- a2[2,3]
数组的切片
- a[5:8]
- a[:3] = 1
- a2[1:2, :4]
- a2[:,:1]
- a2[:,1]
与列表不同，数组切片时并不会自动复制，在切片数组上的修改会影响原数组。

b = a[:4]
b[-1] = 250
解决方法：

copy()】 b = a[:4] b[-1] = 250

NumPy：布尔型索引

问题：给一个数组，选出数组中所有大于5的数。
- 答案：a[a>5]
- 原理： a>5会对a中的每一个元素进行判断，返回一个布尔数组布尔型索引：将同样大小的布尔数组传进索引，会返回一个由所有True对应位置的元素的数组
问题2：给一个数组，选出数组中所有大于5的偶数。
问题3：给一个数组，选出数组中所有大于5的数和偶数。
- 答案： a[(a>5) & (a%2==0)] a[(a>5) | (a%2==0)]

NumPy：花式索引*

问题1：对于一个数组，选出其第1，3，4，6，7个元素，组成新的二维数组。
- 答案：a[[1,3,4,6,7]]
问题2：对一个二维数组，选出其第一列和第三列，组成新的二维数组。
- 答案：a[:,[1,3]]

NumPy：通用函数

通用函数：能同时对数组中所有元素进行运算的函数
常见通用函数：
- 一元函数：abs, sqrt, exp, log, ceil, floor, rint, trunc, modf, isnan, isinf, cos, sin, tan
- 二元函数：add, substract, multiply, divide, power, mod, maximum, mininum,

NumPy：数学和统计方法

常用函数：
- sum 求和
- mean 求平均数
- std 求标准差 v
- ar 求方差
- min 求最小值
- max 求最大值
- argmin 求最小值索引
- argmax 求最大值索引

NumPy：随机数生成

常用函数
- rand 给定形状产生随机数组（0到1之间的数）
- randint 给定形状产生随机整数
- choice 给定形状产生随机选择
- shuffle 与random.shuffle相同
- uniform 给定形状产生随机数组

pandas：数据分析

pandas是一个强大的Python数据分析的工具包。
pandas是基于NumPy构建的。
pandas的主要功能
- 具备对其功能的数据结构DataFrame、Series
- 集成时间序列功能
- 提供丰富的数学运算和操作
- 灵活处理缺失数据
安装方法：pip install pandas
引用方法：import pandas as pd

pandas：Series

Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。
- Series比较像列表（数组）和字典的结合体
创建方式：
- pd.Series([4,7,-5,3])
- pd.Series([4,7,-5,3],index=['a','b','c','d'])
- pd.Series({'a':1, 'b':2})
- pd.Series(0, index=['a','b','c','d'])
获取值数组和索引数组：
- values属性
- index属性

pandas：Series特性

Series支持NumPy模块的特性（下标）：
- 从ndarray创建Series：Series(arr)
- 与标量运算：sr*2
- 两个Series运算：sr1+sr2
- 索引：sr[0], sr[[1,2,4]]
- 切片：sr[0:2]（切片依然是视图形式）
- 通用函数：np.abs(sr)
- 布尔值过滤：sr[sr>0]
- 统计函数：mean() sum() cumsum()

pandas：整数索引

整数索引的pandas对象往往会使新手抓狂。
例：
- sr = np.Series(np.arange(4.))
- sr[-1]
如果索引是整数类型，则根据整数进行数据操作时总是面向标签的。
- loc属性以标签解释
- iloc属性以下标解释

pandas：Series数据对齐

pandas在运算时，会按索引进行对齐然后计算。如果存在不同的索引，则结果的索引是两个操作数索引的并集。
例：
- sr1 = pd.Series([12,23,34], index=['c','a','d'])
- sr2 = pd.Series([11,20,10], index=['d','c','a',])
- sr1+sr2
- sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
- sr1+sr3
如何在两个Series对象相加时将缺失值设为0？
- sr1.add(sr2, fill_value=0)
- 灵活的算术方法：add, sub, div, mul

pandas：Series缺失数据

缺失数据：使用NaN（Not a Number）来表示缺失数据。其值等于np.nan。内置的None值也会被当做NaN处理。
处理缺失数据的相关方法：
- dropna() 过滤掉值为NaN的行
- fillna() 填充缺失数据
- isnull() 返回布尔数组，缺失值对应为True
- notnull() 返回布尔数组，缺失值对应为False
过滤缺失数据：
- sr.dropna()
- sr[data.notnull()]
填充缺失数据：fillna(0)

pandas：DataFrame

DataFrame是一个表格型的数据结构，含有一组有序的列。
DataFrame可以被看做是由Series组成的字典，并且共用一个索引。
创建方式：
- pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
- pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']), 'two':pd.Series([1,2,3,4],index=['b','a','c','d'])})
- ……
csv文件读取与写入：
- df.read_csv('filename.csv')
- df.to_csv()

pandas：DataFrame查看数据

查看数据常用属性及方法：
- index 获取索引
- T 转置
- columns 获取列索引
- values 获取值数组
- describe() 获取快速统计
DataFrame各列name属性：列名
- rename(columns={})

pandas：DataFrame索引和切片

DataFrame有行索引和列索引。
通过标签获取：
- df['A']
- df[['A', 'B']]
- df['A'][0]
- df[0:10][['A', 'C']]
- df.loc[:,['A','B']]
- df.loc[:,'A':'C']
- df.loc[0,'A']
- df.loc[0:10,['A','C']]
通过位置获取：
- df.iloc[3]
- df.iloc[3,3]
- df.iloc[0:3,4:6]
- df.iloc[1:5,:]
- df.iloc[[1,2,4],[0,3]]
通过布尔值过滤：
- df[df['A']>0]
- df[df['A'].isin([1,3,5])]
- df[df<0] = 0

pandas：DataFrame数据对齐与缺失数据

DataFrame对象在运算时，同样会进行数据对其，结果的行索引与列索引分别为两个操作数的行索引与列索引的并集。
DataFrame处理缺失数据的方法：
- dropna(axis=0,how='any',…)
- fillna()
- isnull()
- notnull()

pandas：其他常用方法

pandas常用方法（适用Series和DataFrame）：
- mean(axis=0,skipna=False)
- sum(axis=1)
- sort_index(axis, …, ascending) 按行或列索引排序
- sort_values(by, axis, ascending) 按值排序
- NumPy的通用函数同样适用于pandas
- apply(func, axis=0) 将自定义函数应用在各行或者各列上，func可返回标量或者Series
- applymap(func) 将函数应用在DataFrame各个元素上
- map(func) 将函数应用在Series各个元素上

*pandas：层次化索引

层次化索引是Pandas的一项重要功能，它使我们能够在一个轴上拥有多个索引级别。
例：data=pd.Series(np.random.rand(9), index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'], [1,2,3,1,2,3,1,2,3]])

pandas：时间对象处理

时间序列类型：
- 时间戳：特定时刻
- 固定时期：如2017年7月
- 时间间隔：起始时间-结束时间
Python标准库：datetime
- date time datetime timedelta
- dt.strftime()
- strptime()
第三方包：dateutil
- dateutil.parser.parse()
成组处理日期：pandas
- pd.to_datetime(['2001-01-01', '2002-02-02'])
产生时间对象数组：date_range
- start 开始时间
- end 结束时间
- periods 时间长度
- freq 时间频率，默认为'D'，可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

pandas：时间序列

时间序列就是以时间对象为索引的Series或DataFrame。
datetime对象作为索引时是存储在DatetimeIndex对象中的。
时间序列特殊功能：
- 传入“年”或“年月”作为切片方式
- 传入日期范围作为切片方式

pandas：从文件读取

读取文件：从文件名、URL、文件对象中加载数据
- read_csv 默认分隔符为csv
- read_table 默认分隔符为\t
- read_excel 读取excel文件
读取文件函数主要参数：
- sep 指定分隔符，可用正则表达式如'\s+'
- header=None 指定文件无列名
- names 指定列名
- index_col 指定某列作为索引
- skip_row 指定跳过某些行
- na_values 指定某些字符串表示缺失值
- parse_dates 指定某些列是否被解析为日期，布尔值或列表

pandas：写入到文件

写入到文件： to_csv
写入文件函数的主要参数：
- sep
- na_rep 指定缺失值转换的字符串，默认为空字符串
- header=False 不输出列名一行
- index=False 不输出行索引一列
- cols 指定输出的列，传入列表
其他文件类型：json, XML, HTML, 数据库
pandas转换为二进制文件格式（pickle）:
- save
- load

Matplotlib：绘图和可视化

Matplotlib是一个强大的Python绘图和数据可视化的工具包。
安装方法：pip install matplotlib
引用方法：import matplotlib.pyplot as plt
绘图函数：plt.plot()
显示图像：plt.show()

Matplotlib：plot函数

plot函数：
- 线型linestyle（-,-.,--,..）
- 点型marker（v,^,s,*,H,+,x,D,o,…）
- 颜色color（b,g,r,y,k,w,…）
plot函数绘制多条曲线
标题：title
x轴：xlabel
y轴：ylabel
其他类型图像：
- hist 频数直方图

*Matplotlib：画布与图

画布：figure
- fig = plt.figure()
图：subplot
- ax1 = fig.add_subplot(2,2,1)
调节子图间距：
- subplots_adjust(left, bottom, right, top, wspace, hspace)