sparse linear regression with beta process priors

虽然翻译水平有限，但是看原文虽然看得懂，但是在词汇的问题上，会导致看了后面忘了前面，所以先蹩脚的翻译成中文，然后在仔细思考论文的思想（当然不能翻译成中文就不看英文原本了，得两者一起看，这样不会丢失前面的思路，加快论文理解速度），我想随着不断的翻译，应该会提升效果吧。希望不会误导别人才好。

sparse linear regression with beta process priors(2010)

Bo Chen,John Paisley and Lawrence Carin

摘要:在beta处理先验的基础上，提出了关于欠定的线性系统的最小L0范数解的贝叶斯逼近方法。这个beta process linear regression（BP-LR）模型可以找到这个欠定模型的稀疏解，通过对向量x 建立一个关于非稀疏权重向量w和一个从BP先验中提取的稀疏二值向量z的逐元素乘积的模型。这个层次模型是全共轭的并且可以快速的对这个模型进行推导。我们在压缩感知问题和特性相关问题上证明这个模型的正确性，并且展现了BP-LR可以当保存相关特征的相关分组的时候，选择性的移出不相关的特征。

1引言

在本文中，我们通过使用BP prior的方法去找到欠定线性系统的稀疏解，假设这个线性系统是：

（公式1）

这里并且M<<N,向量的特性一般是一个受限的先验，通常有着下面的正则项：

（公式2）

在这个式子中，这个解，xstar，是使用Lp范数项和欧式逼近误差项，并引入惩罚项lambda作为权衡两项之间的相对重要性。例如，当p=2，这个结果是ridge回归解，当p=1，这个结果是lasso。后者的解是众所周知用来生成稀疏解的，因为可以将xstar中许多的值都设置成等于0。

当表达这个先验中大多数的特征或者中大多数的列都是关于y的预测值不相关的时候，稀疏性总是众望所归。减少特征的数量可以提升模型的生成能力，因此改善模型的效果。在贝叶斯环境中，通常考虑两个模型：相关性向量机（RVM）和贝叶斯lasso，后者可以当以边缘形式写来生成L1惩罚函数。

理想情况下，这个L0范数应该可以被引入；但是在压缩感知中，通常选择L1而不是L0，因为这是基于被证明两者都能在某种条件下找到相同的解。因为L1最小化的宽松的计算可以在以多项式（这里觉得用线性更好）的时间内被解决。另一方面，最小化L0范数，被证明是有NP-难的，需要在的2^N子空间中进行枚举来找到解。因此找个逼近L0的方法就很必要了，这在全贝叶斯环境中通常推荐使用BPprior。

BP可以用来将向量x分解成权重向量w 和稀疏二值向量z 的逐元素相乘的形式：

（公式3）

在二值向量 z 上的先验可以促使稀疏解并且激励他的分类成为L0解的逼近形式。这个解模型是一个在系数向量中稀疏化的BP-LR模型。

这个模型的自然应用是压缩感知问题，在这个问题中有着N维系数向量的许多基中是稀疏的，并且只在M<<N测量情况下使用。另一个应用是基因表达分析的分组中。在高度相关特征的情况中，RVM和贝叶斯lasso都是可以只选择单个特征并将剩下的相关特征权重设置成0.。这忽略了包含在相关基因中的信息，而这些可能对于医疗专业来说是很感兴趣的。我们会证明BP-LR模型可以被用在即使不需要收缩相关特征的情况下。

我们在部分2中复述了BP并且提出了BP-LR模型，并且在部分3中对压缩感知和分组选择问题上的实验进行解释，并在部分4中做总结。

2 BP-LR

这里扩展到有着两个参数的BP，是一个非参数化贝叶斯先验，并且有三个输入：两个正标量，a和b；一个基测量，H0，并表示成。这里考虑的模型，这里的基测量是自带离散的，：

（公式4）

这里是的第 n 列，虽然因为原理性问题，BP只有在的情况下才是真的随机处理，但是因为这个基测量的离散化从而大大简化了这个模型。

假设N是一个合理的小数值，并且猜想这样一种情况：因为我们知道，所以这个离散的BP可以直接得到并且只需要向量Pi的生成：

（公式5）

对于n = 1，...，N来说，这个结果H，不像H0一样，不是一个概率测量。因此不是直接从H中采样，但是H 可以用来作为伯努力处理，的参数，这里，而且二值向量
z 是由下面的式子生成的：

（公式6）

对于n = 1，...，N来说，这个结果向量 z 是在向量PI的基础上稀疏的；我们在下面检查这个先验的一些原理性的特性。

因此BP提供了一个自然框架去执行稀疏线性回归，并且结合权重向量w使用的时候，他可以得到下面的BP-LR模型：

对于n = 1，...，N来说，这里的符号 o 表示的是两个向量或者矩阵的逐元素相乘。在这个模型中我们定义，这里的z提供稀疏性机制，w
为z 在中选定的权重向量。

考虑到本文篇幅限制，我们不提供式子的推导过程。然而我们提到这个模型的充分分析性可以允许我们进行快速的可变推导，除了MCMC Gibbs 采样方法。我们同样注意到分离的 gamma先验可以放在逆方差上，我们发现在模型学习上这个逆方差有着明显的有益的影响。文献【11】和参考文献中有着在BP上更详细的推导。图1是这个模型的一个图表示。

2.1 超参数b 和 b 的设置

这个参数a 和b 在模型学习上有着明显的影响，所以需要仔细的考虑。因此我们提供一个设置a 和b的方法，是关于这两个不同参数的函数，S和F，这山里都有个直观的理解。

定义并考虑是一个概率为0的事件，x
的期望L0范数，可以通过计算来得到

（公式12）

这里的参数可以设置成合适的稀疏级别。我们注意到当的时候，是个泊松分布，。

第二个参数 F ，可以设置成控制任何的后验期望的最大值。也就是说在给定的情况下，的后验期望，等于：

（公式13）

我们在下面的章节中讨论这些具体问题的值。使用这些参数，我们能解决a 和b 的问题：

3实验

我们这里考虑两个有关BP-LR的应用：高度相关特征的分组选择和压缩感知。

3.1 相关特征选择

经验性的实验显示RVM和贝叶斯lasso在处理高度相关特征的时候是通过选择一个（或一小部分）的特征，并将剩下的设置成0.然而，在许多情况下，人们想从一个特征上的权重扩展到组中所有特征上（例如：基因-表示数据分析的生物解释）。我们在一个N=500维的小型问题上实验了BP-LR模型的分组选择。我们的组是根据文献【17】中章节5d生成的并设置。

在图3中，我们将S=100和F=75的情况下BP-LR模型的结果进行对比.在上放置一个无信息gamma先验，并设置。我们可以发现这个BP模型可以选择三个组，或者前15个特征，而RVM和贝叶斯lasso模型只在每个组中选择了1个或者2个。这种分组的想法是因为在给定迭代（通过z）的情况下进行特征选择，并且可以使用一个非稀疏解的ridge回归来计算相对应的权重。因此在相关特征中的权重随着他们的选择而相互之间增长或下降。并且发现在噪音特征选择中这个MP-LR模型更具有稀疏性，系数的数量大于1e-2，对于BP-LR来说，等于14，而对于RVM来说等于23，而贝叶斯lasso等于46.

3.2压缩感知

对于压缩感知问题来说，我们使用图2这种128×128的图像，并用一系列CS反演算法来对比我们的模型。我们在图4中显示相关的错误，并用重建误差的幅度除以原始图像的大小。我们发现BP-LR模型（这里称之为BetaP CS ）在低信号到噪音条件下执行的特别好。

图5中，我们。。。下面的懒的翻了

sparse linear regression with beta process priors的更多相关文章

Linear Regression with Scikit Learn
Before you read This is a demo or practice about how to use Simple-Linear-Regression in scikit-lear ...
Regularized Linear Regression with scikit-learn
Regularized Linear Regression with scikit-learn Earlier we covered Ordinary Least Squares regression ...
机器学习笔记-1 Linear Regression(week 1)
1.Linear Regression with One variable Linear Regression is supervised learning algorithm, Because th ...
Locally Weighted Linear Regression 局部加权线性回归-R实现
局部加权线性回归 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 线性回归容易出现过拟合或欠拟合的问 ...
Linear Regression with machine learning methods
Ha, it's English time, let's spend a few minutes to learn a simple machine learning example in a sim ...
[Sklearn] Linear regression models to fit noisy data
Ref: [Link] sklearn各种回归和预测[各线性模型对噪声的反应] Ref: Linear Regression 实战[循序渐进思考过程] Ref: simple linear regre ...
[Scikit-learn] 1.1 Generalized Linear Models - from Linear Regression to L1&L2
Introduction 一.Scikit-learning 广义线性模型 From: http://sklearn.lzjqsdd.com/modules/linear_model.html#ord ...
Linear regression with one variable - Model representation
摘要: 本文是吴恩达 (Andrew Ng)老师<机器学习>课程,第二章<单变量线性回归>中第6课时<模型概述>的视频原文字幕.为本人在视频学习过程中逐字逐句记录下 ...
Linear Regression and Gradient Descent (English version)
1.Problem and Loss Function Linear Regression is a Supervised Learning Algorithm with input matrix ...

随机推荐

C++ 的那些坑（Day 2）
虚函数调用的例外我们知道在通过基类的指针或者引用调用某个对象的函数时,如果这个对象是一个派生类而且该方法是一个虚方法那么一般情况下就会调用派生类的虚方法实现.这个过程是C++的多态.然而这之中有些例 ...
PHP如何批量更新MYSQL中的数据
最近项目需要用到批量更新数据库里的数据,在网上找了一下这方面的例子,觉得这个还不错,分享给大家. 在这个业务里里面涉及到了更新两张数据表,那么大家是不是会想到非常简单,马上上代码 $sql ,type ...
instanceof与constructor的区别
名词介绍 instanceof 的作用是判断实例对象是否为构造函数的实例,实际上判断的是实例对象的__proto__属性与构造函数的prototype属性是否指向同一引用: constructor 的 ...
CSS 简单归纳 -- 前端知识
CSS:cascading style sheets层叠样式表,用于美化页面 css的三种表现形式:1.行内样式(内嵌样式):结构的内部,即写在标签内的样式:写在标签的开始部分内部,style属性当中 ...
从零开始学习html（十二）CSS布局模型——上
一.css布局模型清楚了CSS 盒模型的基本概念. 盒模型类型, 我们就可以深入探讨网页布局的基本模型了. 布局模型与盒模型一样都是 CSS 最基本. 最核心的概念. 但布局模型是建立在盒模型基础之 ...
MariaDB MySQL变量取值避免四舍五入的方法
MySQL变量取值避免四舍五入的方法 By:授客 QQ:1033553122 在一些对数据精确度要求比较高的场景(比如资金结算)下,变量取值时不能对变量值进行四舍五入操作,这时候就要做些预处理工作. ...
腾讯TBS X5 WebView的简单使用
工作中经常涉及H5网页的加载工作,最多使用的就是安卓系统控件WebView,但是当网页内容比较多的时候,需要等待很久才能加载完,加载完后用户才能看到网页中的内容,这样用户需要等很久,体验很差. 那能不 ...
windows无法访问linux服务器
解决: 或者有效 iptables -A INPUT -p tcp --dport 8000 -j ACCEPT[root@localhost ~]# iptables -A OUTPUT -p tc ...
使用anaconda安装pytorch的清华镜像地址
1.安装anaconda:国内镜像网址:https://mirror.tuna.tsinghua.edu.cn/help/anaconda/下载对应系统对应python版本的anaconda版本(Li ...
如何在 Azure 中标记 Windows 虚拟机
本文介绍在 Azure 中通过 Azure 资源管理器标记 Windows 虚拟机的不同方式.标记是用户定义的键/值对,可直接放置在资源或资源组中.针对每个资源和资源组,Azure 当前支持最多 15 ...

sparse linear regression with beta process priors

sparse linear regression with beta process priors的更多相关文章

随机推荐

热门专题