关于subGradent descent和Proximal gradient descent的迭代速度

clc;clear;

D=1000;N=10000;thre=10e-8;zeroRatio=0.6;

X = randn(N,D);

r=rand(1,D);

r=sign(1-2*r).*(2+2*r);

perm=randperm(D);r(perm(1:floor(D*zeroRatio)))=0;

Y = X*r' + randn(N,1)*.1; % small added noise

lamda=1;stepsize=10e-5;

%%% y=x*beta'

%%% Loss=0.5*(y-x*beta')_2++lamda|beta|

%%%% GD

%%% al_y/al_beta=sigma(x_i*(x_i*beta'-y_i)+fabs(lamda))

beta=zeros(size(r));

pre_error=inf;new_error=0;

count=1;tic;

while abs(pre_error-new_error)>thre

    pre_error=new_error;

    tmp=0;

    for j=1:length(Y)

        tmp=tmp+X(j,:)*(X(j,:)*beta'-Y(j,:));

    end

    beta=beta-stepsize*(tmp+lamda);

    new_error=lamda*norm(beta,1);

    for j=1:length(Y)

        new_error=new_error+(Y(j,:)-X(j,:)*beta')*(Y(j,:)-X(j,:)*beta');

    end

    fprintf('%d..%f\n',count,new_error);

    count=count+1;

end

toc;

% %%%% Proximal GD

% Loss=0.5*(y-x*beta')_2++lamda|beta|=g(x)+h(x)

% 左边可导 x_{t+1}=x_{t}-stepsize*sigma(x_i*(x_i*beta'-y_i)

% X_{t+1}=prox_{l1-norm ball}(x_{t+1})=

disp('pgd')

beta_pgd=zeros(size(r));

pre_error=inf;new_error=0;count=1;tic;

while abs(pre_error-new_error)>thre

    pre_error=new_error;

    tmp=0;

    for j=1:length(Y)

        tmp=tmp+X(j,:)*(X(j,:)*beta_pgd'-Y(j,:));

    end

    newbeta=beta_pgd-stepsize*(tmp+lamda); add=stepsize*lamda;

    pidx=newbeta>add;beta_pgd(pidx)=newbeta(pidx)-add;

    zeroidx=newbeta<abs(add);beta_pgd(zeroidx)=0;

    nidx=newbeta+add<0;beta_pgd(nidx)=newbeta(nidx)+add;

    new_error=lamda*norm(beta_pgd,1);

    for j=1:length(Y)

        new_error=new_error+(Y(j,:)-X(j,:)*beta_pgd')*(Y(j,:)-X(j,:)*beta_pgd');

    end

     fprintf('%d..%f\n',count,new_error);

     count=count+1;

end

toc;

PGD的代码说明见下图

PGD主要是projection那一步有解析解，速度快

subGradent收敛速度O(1/sqrt(T))

速度提升不明显可能是因为步长的原因。。。

关于subGradent descent和Proximal gradient descent的迭代速度的更多相关文章

Proximal Gradient Descent for L1 Regularization
[本文链接:http://www.cnblogs.com/breezedeus/p/3426757.html,转载请注明出处] 假设我们要求解以下的最小化问题: ...
Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)
假设我们要求解以下的最小化问题: $min_xf(x)$ 如果$f(x)$可导,那么一个简单的方法是使用Gradient Descent (GD)方法,也即使用以下的式子进行迭代求解: $x_{k+1 ...
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MINI-BATCH LEARNING. WHAT IS THE DIFFERENCE?
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MIN ...
几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）
https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...
Gradient Descent 和 Stochastic Gradient Descent（随机梯度下降法）
Gradient Descent(Batch Gradient)也就是梯度下降法是一种常用的的寻找局域最小值的方法.其主要思想就是计算当前位置的梯度,取梯度反方向并结合合适步长使其向最小值移动.通过柯 ...
Batch Gradient Descent vs. Stochastic Gradient Descent
梯度下降法(Gradient Descent)是用于最小化代价函数的方法. When $a \ne 0$, there are two solutions to \(ax^2 + bx + c = 0 ...
近端梯度算法（Proximal Gradient Descent）
L1正则化是一种常用的获取稀疏解的手段,同时L1范数也是L0范数的松弛范数.求解L1正则化问题最常用的手段就是通过加速近端梯度算法来实现的. 考虑一个这样的问题: minx f(x)+λg(x) x ...
(转) An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms Table of contents: Gradient descent variants ...
An overview of gradient descent optimization algorithms
原文地址:An overview of gradient descent optimization algorithms An overview of gradient descent optimiz ...

随机推荐

Vector 和 ArrayList 区别
1.Vector是多线程安全的,而ArrayList不是,如果只有一个线程会访问到集合,那最好是使用ArrayList,因为它不考虑线程安全,效率会高些:Vector是旧的,是java一诞生就提供了的 ...
《HelloGitHub》之GitHub Bot
起因我在github上发起了一个开源项目:<HelloGitHub月刊>,内容是github上收集的好玩,容易上手的开源项目. 目的:因为兴趣是最好的老师,我希望月刊中的内容可以激发读者 ...
在ASP.NET Web API中使用OData
http://www.alixixi.com/program/a/2015063094986.shtml 一.什么是ODataOData是一个开放的数据协议(Open Data Protocol)在A ...
c语言中static的用法，包括全局变量和局部变量用static修饰
一.c程序存储空间布局 C程序一直由下列部分组成: 1)正文段--CPU执行的机器指令部分:一个程序只有一个副本:只读,防止程序由于意外事故而修改自身指令: 2)初始化数据段(数据段)--在程序中所有 ...
Linux的nm查看动态和静态库中的符号
功能列出.o .a .so中的符号信息,包括诸如符号的值,符号类型及符号名称等.所谓符号,通常指定义出的函数,全局变量等等. 使用 nm [option(s)] [file(s)] 有用的optio ...
UNION 和 UNION ALL 区别
UNION用的比较多union all是直接连接,取到得是所有值,记录可能有重复 union 是取唯一值,记录没有重复 1.UNION 的语法如下: [SQL 语句 1] UNION [SQL 语句 ...
linux使用secureCRT连接（没有rsa的时候）
一台linux新机器,怎么使用secureCRT连接呢??? 首先 vim /etc/sysconfig/network-scripts/ifcfg-eth0 把BOOTPROTO=none I ...
logback
logback:入口: private final static Logger logger = org.slf4j.LoggerFactory.getLogger(ServiceTest.class ...
每天一个 Linux 命令（19）：find 命令概览
Linux下find命令在目录结构中搜索文件,并执行指定的操作.Linux下find命令提供了相当多的查找条件,功能很强大.由于find具有强大的功能,所以它的选项也很多,其中大部分选项都值得我们花时 ...
跨平台编程：关于VS和QT那些事
1.Win平台 Qt5.7 for Win32 (VS2013) 编辑器:Qt Creator 4.0 编译器:MSVC12 for X86 (cl.exe&link.exe) 调试器:CDB ...

关于subGradent descent和Proximal gradient descent的迭代速度

关于subGradent descent和Proximal gradient descent的迭代速度的更多相关文章

随机推荐

热门专题