基于Python的函数回归算法验证
看机器学习看到了回归函数,看了一半看不下去了,看到能用方差进行函数回归,又手痒痒了,自己推公式写代码验证: 常见的最小二乘法是一阶函数回归
回归方法就是寻找方差的最小值
y = kx + b
xi, yi
y-yi = kxi+b-yi
方差为
∑(kxi + b - yi )^2
f = k^2∑xi^2 + b^2 + ∑yi^2 +2kb∑xi - 2k∑xi*yi - 2yib
求极值需要对其求微分,因为是二元函数,因此使用全微分公式,其极值点应该在两个元的偏微分都为0处
δf/δk = 2k∑(xi^2)+2(∑xib-∑xi*yi) = 0
δf/δb = 2b +2(k∑xi -∑yi) = 0
b = ∑yi - k∑xi
2k∑(xi^2) + 2(∑xi∑yi - k(∑xi)^2-∑xi*yi)
k = (∑xi*yi - ∑xi∑yi)/(∑(xi^2)-(∑xi)^2)
以上就是最小二乘法的推导
那么扩展到二阶函数拟合回归
y = c0+c1*x+c2*x^2
xi, yi
y - yi = c0 + c1*xi + c2*xi^2 - yi
c0^2 + c1^2∑xi^2 + c2^2∑xi^4 +yi^2...
其三元偏微分表示如下
0 = c0 + c1∑xi + c2∑xi^2 - ∑yi
0 = c1∑xi^2 + c0∑xi + c2∑xi^3 - ∑xi*yi
0 = c2∑xi^4 + c0∑xi^2 + c1∑xi^3 - ∑xi^2 * yi
解方程可以求出三个参数
更高阶的回归可就不能手解方程了,需要用线性代数的知识
y = c0 + c1 * x + c2 * x^2 + c3 * x^3 0 = c0 + c1∑xi +c2∑xi^2 + c3∑xi^3 - ∑yi
0 = c0∑xi + c1∑xi^2 + c2∑xi^3 +c3∑xi^4 - ∑xi*yi
0 = c0∑xi^2 + c1∑xi^3 + c2∑xi^4 + c3∑xi^5 - ∑xi^2*yi
0 = c0∑xi^3 + c1∑xi^4 +c2∑xi^5 +c3∑xi^6 - ∑xi^3*yi M * [c0, c1, c2, c3]T = [∑yi, ∑xi*yi, ∑xi^2*yi, ∑xi^3*yi]T
[c0, c1, c2, c3]T = M^-1 * [∑yi, ∑xi*yi, ∑xi^2*yi, ∑xi^3*yi]T
实际上这个最终转为了求矩阵逆的过程 因此多阶函数的拟合回归本质是矩阵求逆,这对于应用数学工具而言是比较容易的 更普遍的,对于y = ∑cj*gj(x)的形式,有
Yj = ∑(i)(gj(xi) * yi)
Mj,k = ∑(i)(gj(xi) * gk(xi))
M * C = Y; C = M^(-1) * Y (M 为矩阵,C和Y为向量)
求解Ck可以得到线性参数集 数学最优美的地方就是可以化繁为简,而同样优美的是代码,使用python写出以上过程的算法验证
以下程序基于numpy和matplotlib,其实简单应用用python确实足以替代matlab了 为了防止高次计算溢出,对x, y进行归一,之前没做这步,算到四次回归就溢出了
x' = x/xmax
y' = y/ymax
y = ∑(Cj * gj(x / xmax))*ymax 对:
x = 1, 2, 4, 6, 7, 9, 12, 15, 18, 20
y = 1.5, 5, 14, 22, 25, 29, 32, 37, 41, 45
进行3阶函数回归计算,完整代码如下,为了强制符合PEP8规范,英文注释写的很蹩脚...
终于上代码了:
"""
name: regression
author: robocky
create time: 2017-1-1
description: Use polynomial function to fitting data
"""
import numpy as np
from numpy.linalg import inv
import matplotlib.pyplot as plt def polynomial(c: np.array, x: np.array, gs: list):
"""y = c0 * g0(x) + c1 * g1(x) + c2 * g2(x)...+ cn * gn(x)"""
return c.dot(np.array([g(x) for g in gs])) def regression(x: np.array, y: np.array, gs: list):
"""Use inv of matrix to calculate regression
y = ∑ci * gi(x)
"""
y_res = np.array([sum(g(x) * y) for g in gs])
x_matrix = np.array([[sum(g(x) * h(x)) for g in gs] for h in gs])
return inv(x_matrix).dot(y_res) def func_gen(n):
"""Generate power functions"""
return lambda x: x ** n def func_gen_sin(n):
"""Generate sin functions"""
return (lambda x: x ** 0) if n == 0 else lambda x: np.sin(n * x) if __name__ == '__main__':
# Test
x_list = np.array([1, 2, 4, 6, 7, 9, 12, 15, 18, 20])
y_list = np.array([1.5, 5, 14, 22, 25, 29, 32, 37, 41, 45])
g_list = [func_gen(i) for i in range(4)]
g_list2 = [func_gen_sin(i) for i in range(4)]
# Set numbers to unit, in order to avoid overflow
x_max, y_max = max(x_list), max(y_list)
c_list = regression(x_list / x_max, y_list / y_max, g_list)
c_list2 = regression(x_list / x_max, y_list / y_max, g_list2)
# plot
plt.figure()
plt.plot(x_list, y_list, 'bo')
x_line = np.arange(0, 1.02, 0.01)
plt.plot(x_line * x_max, polynomial(c_list, x_line, g_list) * y_max, color='red', label='x^n')
plt.plot(x_line * x_max, polynomial(c_list2, x_line, g_list2) * y_max, color='green', label='sin(x)')
plt.legend()
plt.show()
回归算法只有三行,当然计算过程都省略了,多项式也很简单
做了个函数生成器,理论上可以用任何函数进行回归运算,不过结果可能会发散,比如纯正弦函数,但加个常数项结果就收敛了
最后上个结果图
基于Python的函数回归算法验证的更多相关文章
- 微博传播数量和传播深度的预测--基于pyspark和某个回归算法
8-28决定参加一下这个千万条的数据处理任务,因为场景和自己做过的一个回归分析预测差不多,第一天开始在小规模的数据上做准备工作. 第二次大修改版本 date 20160829 星期一¶ 原始数据处理, ...
- 基于python的RSA解密算法
摘要 网上有很多关于RSA的解密脚本,欧拉函数.欧几里得函数什么的,对于一个大专生的我来说,一窍不通,至此经历了三天三夜,我翻阅了RSA的加密原理,以及其底层算法,专研出了一套我自己的解密算法,尚有不 ...
- 从0开始学正则表达式-基于python
关于正则表达式,当我们了解它就不难,不了解就很难,其实任何事情都是这样,没有人一生下来就啥都会,说白了,每个人都是一个学习了解进步的过程.学习和掌握正则表达式可能并不是太简单,因为它确实是有点像“外星 ...
- 基于python的七种经典排序算法
参考书目:<大话数据结构> 一.排序的基本概念和分类 所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作.排序算法,就是如何使得记录按照要求排列的方法. ...
- Python‘ssl.match_hostname()’函数SSL证书验证安全绕过漏洞
漏洞名称: Python‘ssl.match_hostname()’函数SSL证书验证安全绕过漏洞 CNNVD编号: CNNVD-201312-033 发布时间: 2013-12-04 更新时间: 2 ...
- 基于python的七种经典排序算法(转)
一.排序的基本概念和分类 所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作.排序算法,就是如何使得记录按照要求排列的方法. 排序的稳定性:经过某种排序后,如果两个 ...
- 基于Python协同过滤算法的认识
Contents 1. 协同过滤的简介 2. 协同过滤的核心 3. 协同过滤的实现 4. 协同过滤的应用 1. 协同过滤的简介 关于协同过滤的一个最经典的例子就是看电影,有时候 ...
- 基于面绘制的MC算法以及基于体绘制的 Ray-casting 实现Dicom图像的三维重建(python实现)
加入实验室后,经过张老师的介绍,有幸与某公司合共共同完成某个项目,在此项目中我主要负责的是三维 pdf 报告生成.Dicom图像上亮度.对比度调整以及 Dicom图像三维重建.今天主要介绍一下完成Di ...
- 机器学习_线性回归和逻辑回归_案例实战:Python实现逻辑回归与梯度下降策略_项目实战:使用逻辑回归判断信用卡欺诈检测
线性回归: 注:为偏置项,这一项的x的值假设为[1,1,1,1,1....] 注:为使似然函数越大,则需要最小二乘法函数越小越好 线性回归中为什么选用平方和作为误差函数?假设模型结果与测量值 误差满足 ...
随机推荐
- PHP中的运算符---算术运算符、逻辑运算符、赋值运算符、比较运算符
1.算术运算符 常见的算术运算符 运算类型 运算符 举例 结果 取反运算 - -$a 返回$a的负值 加法运算 + $a + $b 返回$a与$b的和 减法运算 - $a - $b 返回$a与$b的差 ...
- python raw String 获取字符串变量中的反斜杠
常用的获取raw string的方式为: >>>r'\n' \n 不能用在字符串变量中,获取字符串变量中的反斜杠如下: tab = '\n' >>>tab.enco ...
- EX:The underlying connection was closed: Could not establish trust relationship for the SSL/TLS secure channel.
EX:The underlying connection was closed: Could not establish trust relationship for the SSL/TLS secu ...
- openjudge-最好的草
http://noi.openjudge.cn/ch0108/17/ 总时间限制: 10000ms 单个测试点时间限制: 1000ms 内存限制: 65536kB 描述 奶牛Bessie计划好好 ...
- mysql内存使用以及优化中需要的几点注意
1.从内存中读取数据是微秒级别的.而从磁盘读则是毫秒级别的.二者相差一个数量级.所以想优化数据库,第一个要做到的就是优化io. 2.key_buffer_size[global]设置的内存区域大小缓存 ...
- web异常流量定位:iftop+tcpdump+wireshark
一个简单的运维小经验. 场景:web服务器出现异常流量,web集群内部交互出现大流量,需要定位具体的http请求,以便解决问题. 目的:找出产生大流量的具体http请求. 工具: ift ...
- chart.js插件生成折线图时数据普遍较大时Y轴数据不从0开始的解决办法[bubuko.com]
chart.js插件生成折线图时数据普遍较大时Y轴数据不从0开始的解决办法,原文:http://bubuko.com/infodetail-328671.html 默认情况下如下图 Y轴并不是从0开始 ...
- 大数据量下,分页的解决办法,bubuko.com分享,快乐人生
大数据量,比如10万以上的数据,数据库在5G以上,单表5G以上等.大数据分页时需要考虑的问题更多. 比如信息表,单表数据100W以上. 分页如果在1秒以上,在页面上的体验将是很糟糕的. 优化思路: 1 ...
- VR定制 AR定制 就找北京动软VR开发团队(VR案例 AR案例)
我们长期承接丰交互软件.游戏项目外包: VR/AR内容应用定制.VR.AR游戏项目外包(有主流测试硬件设备) VR全景应用.视频外包 请提供贵公司的信息,我们将提供高大上的VR案例欢迎联系我们给您提供 ...
- zepto.js使用前注意
API:http://www.css88.com/doc/zeptojs_api/ 一.建议:不要从官网下载,而是从 Github 下载了源代码之后自己 Build 一个版本,这样你可以自行挑选适合的 ...