Python基于皮尔逊系数实现股票预测

 # -*- coding: utf-8 -*-

 """

 Created on Mon Dec  2 14:49:59 2018

 @author: zhen

 """

 import matplotlib.pyplot as plt

 import numpy as np

 import pandas as pd

 from datetime import datetime

 def normal(a):  #最大值最小值归一化

     return (a - np.min(a)) / (np.max(a) - np.min(a)+0.000001)

 def normalization(x): # np.std:计算矩阵的标准差（方差的算术平方根）

     return (x - np.mean(x)) / np.std(x)

 def corrcoef(a,b):

     corrc = np.corrcoef(a,b) # 计算皮尔逊相关系数，用于度量两个变量之间的相关性，其值介于-1到1之间

     corrc = corrc[0,1]

     return (16 * ((1 - corrc) / (1 + corrc)) ** 1) # ** 表示乘方

 startTimeStamp = datetime.now() # 获取当前时间

 # 加载数据

 filename = 'C:/Users/zhen/.spyder-py3/sh000300_2017.csv'

 # 获取第一，二列的数据

 all_date = pd.read_csv(filename,usecols=[0, 1, 3], dtype = 'str')

 all_date = np.array(all_date)

 data = all_date[:, 0]

 times = all_date[:, 1]

 data_points = pd.read_csv(filename,usecols=[3])

 data_points = np.array(data_points)

 data_points = data_points[:,0] #数据

 topk = 10 #只显示top-10

 baselen = 100

 basebegin = 361

 basedata = data[basebegin]+' '+times[basebegin]+'~'+data[basebegin+baselen-1]+' '+times[basebegin+baselen-1]

 base = data_points[basebegin:basebegin+baselen]#一天的数据是240个点

 length = len(data_points) #数据长度

 # 分割片段

 subseries = []

 dateseries = []

 for j in range(0,length):

     if (j < (basebegin - baselen) or j > (basebegin + baselen - 1)) and j <length - baselen:

         subseries.append(data_points[j:j+baselen])

         dateseries.append(j) #开始位置

 # 片段搜索

 listdistance = []

 for i in range(0, len(subseries)):

     tt = np.array(subseries[i])

     distance = corrcoef(base, tt)

     listdistance.append(distance)

 # 排序

 index = np.argsort(listdistance,kind='quicksort') #排序，返回排序后的索引序列

 # 显示，要匹配的数据

 plt.figure(0)

 plt.plot((base),label = basedata, linewidth='')

 plt.legend(loc='upper left')

 plt.title('Base data')

 # 原始数据

 plt.figure(1)

 num = index[0]

 length = len(subseries[num])

 begin = data[dateseries[num]]+' '+times[dateseries[num]]

 end = data[dateseries[num]+length-1]+' '+times[dateseries[num]+length-1]

 label = begin+'~'+end

 plt.plot((subseries[num]), label=label, linewidth='')

 plt.legend(loc='upper left')

 plt.title('Similarity data')

 # 结果集对比

 plt.figure(2)

 plt.plot(normalization(base),label= basedata,linewidth='')

 length = len(subseries[num])

 begin = data[dateseries[num]] + ' ' + times[dateseries[num]]

 end = data[dateseries[num] + length - 1] + ' ' + times[dateseries[num] + length - 1]

 label = begin + '~' + end

 plt.plot(normalization(subseries[num]), label=label, linewidth='')

 plt.legend(loc='lower right')

 plt.title('normal similarity search')

 plt.show()

 endTimeStamp=datetime.now()

 print('run time', (endTimeStamp-startTimeStamp).seconds, "s")

结果：

Python基于皮尔逊系数实现股票预测的更多相关文章

从欧几里得距离、向量、皮尔逊系数到http://guessthecorrelation.com/
一.欧几里得距离就是向量的距离公式二.皮尔逊相关系数反应的就是线性相关游戏http://guessthecorrelation.com/ 的秘诀也就是判断一组点的拟合线的斜率y/x ------- ...
皮尔逊相似度计算的例子(R语言)
编译最近的协同过滤算法皮尔逊相似度计算.下顺便研究R简单使用的语言.概率统计知识. 一.概率论和统计学概念复习 1)期望值(Expected Value) 由于这里每一个数都是等概率的.所以就当做是数 ...
Pearson(皮尔逊)相关系数及MATLAB实现
转自:http://blog.csdn.net/wsywl/article/details/5727327 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数. 相关系数:考察 ...
pandas通过皮尔逊积矩线性相关系数（Pearson's r）计算数据相关性
皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子: a = pd.Series([1,2,3,4,5,6,7,8,9,10]) b = pd.Series( ...
Pearson（皮尔逊）相关系数
Pearson(皮尔逊)相关系数:也叫pearson积差相关系数.衡量两个连续变量之间的线性相关程度. 当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数, ...
皮尔逊（Pearson）系数矩阵——numpy
一.原理注意专有名词.(例如:极高相关) 二.代码 import numpy as np f = open('../file/Pearson.csv', encoding='utf-8') dat ...
np.corrcoef()方法计算数据皮尔逊积矩相关系数（Pearson's r）
上一篇通过公式自己写了一个计算两组数据的皮尔逊积矩相关系数(Pearson's r)的方法,但np已经提供了一个用于计算皮尔逊积矩相关系数(Pearson's r)的方法 np.corrcoef() ...
皮尔逊残差 | Pearson residual
参考:Pearson Residuals 这些概念到底是写什么?怎么产生的? 统计学功力太弱了!
Spark Mllib里的如何对两组数据用皮尔逊计算相关系数
不多说,直接上干货! import org.apache.spark.mllib.stat.Statistics 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mlli ...

随机推荐

Apache-Flink深度解析-SQL概览
你可能感兴趣的文章: Flink入门 Flink DataSet&DataSteam API Flink集群部署 Flink重启策略 Flink分布式缓存 Flink重启策略 Flink中的T ...
Oracle性能优化之查询语句通用原则
作者早期文章 Oracle优化索引是表的一个概念部分 , 用来提高检索数据的效率, ORACLE 使用了一个复杂的自平衡 B-tree 结构 . 通常 , 通过索引查询数据比全表扫描要快 . 当 O ...
【API知识】RestTemplate的使用
前言在某种情况下,后台服务可能需要访问另一台服务器的REST接口.以前估计不少人用的都是HttpRequest类来着,结合Paser解析JSON格式的Body.现在Spring Boot的Web S ...
Python3获取拉勾网招聘信息
为了了解跟python数据分析有关行业的信息,大概地了解一下对这个行业的要求以及薪资状况,我决定从网上获取信息并进行分析.既然想要分析就必须要有数据,于是我选择了拉勾,冒着危险深入内部,从他们那里得到 ...
使用3D Slicer进行颅骨去除
关于3D Slicer的下载.安装及模块安装在上一篇博客中以及介绍过,以下将专注于使用3D Slicer进行颅骨去除准备此次,我们需要安装SwissSkullStripper模块,安装后需要重启软 ...
[转]Javascript中几种较为流行的继承方式
出处:http://www.jianshu.com/p/a6c005228a75 开篇从'严格'意义上说,javascript并不是一门真正的面向对象语言.这种说法原因一般都是觉得javascrip ...
json数据格式说明
格式说明 json文件由对象(集合).数组.key/value元素组成,可以相互嵌套. 使用大括号包围的是对象,使用中括号包围的是数组,冒号分隔的是元素. 元素的key只能是字符串. 元素的value ...
Hyperledger Fabric链码之二
上篇文章中我们介绍了链码的概念,本文中我们将介绍Fabric下链码的编写和测试.我们会通过一个简单例子的方式来阐述链码API的使用. 链码API 每一个链码程序都必须实现一个接口Chainco ...
backbond整体架构
(function(factory) { // 在这里是backbone模块化的一个接口.支持AMD,CMD和全局变量模式.代码很好理解. })(function(root, factory, _, ...
注册asp.net 4.0版本到IIS服务器中
在IIS服务器的运维的过程中,有时候部署asp.net网站发现未安装.net framework对应版本信息,此时就需要重新将.net framework对应的版本注册到IIS中,此处以重新注册.ne ...

Python基于皮尔逊系数实现股票预测

Python基于皮尔逊系数实现股票预测的更多相关文章

随机推荐

热门专题