KKT (LICQ)

基本内容
- LICQ 假设
- KKT 定理
KKT定理的证明

H. E. Krogstad, TMA 4180 Optimeringsteori KARUSH-KUHN-TUCKER THEOREM

KKT条件在处理有约束问题的时候很有用, 但是对KKT的适用性一直不是很理解, 看了这篇讲解整理一下.

基本内容

问题

\[\tag{1}
\min_{x \in \Omega} f(x),
\]

在等式约束条件:

\[\tag{2}
c_i(x) = 0, i \in \xi,
\]

及不等约束条件:

\[\tag{3}
c_i(x) \ge 0, i \in \mathcal{I}.
\]

不妨就记

\[\Omega = \{x: c_i(x) = 0, i \in \xi, c_i(x)\ge 0, i \in \mathcal{I}\}.
\]

在不等式约束中, 即只有当我们所寻的极值点\(x^*\)处, \(c_i(x^*)=0, i \in \mathcal{I}\)称之为激活不等式约束(active inequality constraints), 否则为不激活的, 我们记激活的不等式约束和等式约束为\(\mathcal{A}\).

注: 均连续可微.

对于任意一个可行点\(x_0\), 令\(x(t), t\ge 0\)为一连续路径, 满足\(t\rightarrow 0, x(t) \rightarrow x_0\)，定义\(d\)为:

\[\frac{x(t) - x_0}{\|x(t)-x_0\|} \mathop{\rightarrow } \limits_{t \rightarrow 0} \frac{d}{\|d\|}.
\]

有如下性质:

\[\tag{8,9}
\nabla c_i(x) d = 0, i \in \xi \\
\nabla c_i(x) d \ge 0, i \in \mathcal{I \cap A},
\]

其中, 我们假设梯度向量为行向量.

证明:

\[ c_i(x(t)) - c_i(x_0) = \nabla c_i(x_0)(x(t)-x_0) + o(\|x(t)-x_0\|) = 0, i \in \xi
\]

两边同除以\(\|x(t)-x_0\|\), 并令\(t \rightarrow 0\)即可得.

\[ c_i(x(t)) - c_i(x_0) = \nabla c_i(x_0)(x(t)-x_0) + o(\|x(t)-x_0\|) = c_i(x(t)) \ge 0, i \in \mathcal{I \cap A}
\]

与上面同样的操作即可得.

我们把这些由路径引导出来的可行方向\(d\)的集合记为

\[\tag{10}
\mathcal{T}(x) = \{d: d \: feasible \: di rection \: out \: from \: x\}.
\]

而记满足\((8, 9)\)的一切\(d\)的集合记为\(\mathcal{F}(x)\), 显然\(\mathcal{T}(x) \subset \mathcal{F}(x)\), 且均为锥(即\(d\)属于此集合, 则\(\alpha d, \alpha > 0\)也属于此集合).

LICQ 假设

点\(x_0\)满足LICQ假设, 当

\[\tag{14}
\{\nabla c_i(x_0)\}, i \in \mathcal{A},
\]

是线性独立的.

线性不独立: 当集合中存在一个向量能够由其他向量线性表出, 否则称此集合线性独立. 显然这是比线性无关更强的一个概念.

KKT 定理

假设\(x^*\)是问题(1)在等式约束(2)以及不等式约束(3)的限制下的局部最小值点, 且满足LICQ假设. 则存在\(\lambda_i^*\)满足:

\[\tag{17}
\nabla f(x^*) = \sum_{i \in \xi \cup \mathcal{I}} \lambda_i^* \nabla c_i(x^*),
\]

且

\[\tag{18}
\begin{array}{lc}
(i) & \lambda_i^* \cdot c_i(x^*) = 0, i \in \xi \cup \mathcal{I}, \\
(ii) & \lambda_i^* \ge 0, i \in \mathcal{I}.
\end{array}
\]

KKT定理的证明

记:

\[A =
\left [
\begin{array}{c}
\nabla c_1(x) \\
\vdots \\
\nabla c_m(x)
\end{array}
\right ]
\]

属于\(\mathcal{A}\)的所有\(c_i\)的梯度的综合表示,

\[c(x) = [c_1(x), \ldots, c_m(x)]^T.
\]

引理A

引理A: 当\(x \in \R^n\)满足LICQ假设, 则\(\mathcal{T}(x) = \mathcal{F}(x)\).

证明:

既然\(\mathcal{T}(x) \subset \mathcal{F}(x)\), 我们只需要证明\(\mathcal{F}(x) \subset \mathcal{T}(x)\).

下面, \(\forall d \in \mathcal{F}(x)\), 我们将构造\(y(t), t \ge 0\), 为一连续的起点为\(y(0)=x\)的路径, 且在\(x\)的足够小的一个邻域内\(y(t)\)满足等式约束和不等式约束, 一旦找到这样的\(y(t)\), 证明也就完成了.

根据假设可知, dim(\(A\)) = \(m\), 则\(A\)的核的维数为\(dim(N(A))=n-m\), 我们从核空间中抽取一组基作为行向量构建\(Z'\), 则

\[\tag{24}
\left [
\begin{array}{c}
A \\
Z'
\end{array}
\right ]
\]

是一个非奇异的\(n\times n\)的方阵.

考虑如下的非线性方程系统(显然有解\(t=0,y=x\))

\[\tag{25}
R(y, t) = \left [
\begin{array}{c}
c(y) - tAd \\
Z'(y - x -td)
\end{array}
\right ] = 0.
\]

关于\(y\)的加科比行列式为

\[\tag{26}
\frac{\partial R}{\partial y} |_{t=0} =
\left [
\begin{array}{c}
A \\
Z'
\end{array}
\right ],
\]

非奇异, 所以根据隐函数定理可知, 在\(t\)足够小的时候, 存在连续可微函数\(y(t)\), 且\(y(0)=x\).

既然

\[\tag{27}
c(y)=c(x) + \nabla c(x)(y-x) + o(\|y-x\|) = A(y-x)+o(\|y-x\|),
\]

我们有

\[\tag{28}
0=R(y(t),t) =
\left [
\begin{array}{c}
A \\
Z'
\end{array}
\right ] (y(t)-x-td) + o(\|y(t)-x\|).
\]

也就是说

\[\tag{29}
y(t)-x=td+o(\|y(t)-x\|),
\]

俩边令\(t \rightarrow 0\), 可知\(y(t)\)为\(d\)的一个连续路径.

又结合(25)

\[\tag{30}
c(y(t))-tAd=0,
\]

\[\tag{31}
c_i(y(t))=t\nabla c_i(x)d =
\left \{
\begin{array}{ll}
0, & i \in \xi \\
\ge 0 , & i \in \mathcal{I \cap A} .
\end{array}
\right .
\]

所以对于任意的\(i \in \mathcal{A}\), \(y(t)\)是可行路径, 对于未激活的不等式约束, 既然\(y(t)\)是连续的, 当\(t\)足够效地时候容易得到\(c_i(y(t)) > 0, i \in \mathcal{I}, i \not \in \mathcal{A}\). 这样便证明了, \(\forall d \in \mathcal{F}(x)\), 均为可行方向, 故\(\mathcal{F}(x) =\mathcal{T}(x)\).

Farkas 引理

Farkas 引理: 令\(g\)和\(\{a_i\}_{i=1}^m\)为\(n\)维行向量且

\[\tag{33}
\mathcal{S} = \{ d \in \mathbb{R}^n; gd<0 , a_id \ge 0, i=1, \ldots, m\},
\]

则\(\mathcal{S} = \empty\)当且仅当存在非负向量\(\lambda \in \mathbb{R}^m\) 使得

\[\tag{34}
g = \sum_{i=1}^m \lambda_i a_i.
\]

证明:

\(\Leftarrow\)

\(\forall d \in \mathcal{S}\),

\[0 > gd = \sum_{i=1}^m \lambda_i a_id \ge 0,
\]

故\(\mathcal{S} = \empty\).

\(\Rightarrow\)

若不存在这样的\(\lambda\), 即对于任意的\(\lambda\), \(g \not =\sum_{i=1}^m \lambda_i a_i\), 则\(g\)不能由\(\{a_i\}\)线性表出. 不妨假设\(\{a_i\}\)与\(g\)按序进行施密特正交化过程, 可得\(\{\hat{a}_i\}\)为\(\{a_i\}\)的一正交向量组, \(h\)为

\[h = g- \sum_i \langle g,\hat{a}_i\rangle \hat{a}_i,
\]

则

\[\langle h, a_i \rangle = 0, \\
\langle h, g \rangle = l \not = 0.
\]

不妨设\(l<0\)(否则\(h=-h\)), 则\(h \in \mathcal{S}\), 这与\(\mathcal{S} = \empty\)矛盾.

证毕.

定义问题\(\mathcal{P}\):

\[\tag{36}
gd < 0, \\
Ad \ge 0.
\]

定义问题\(\mathcal{D}\):

\[\tag{37}
g = \lambda^T A, \lambda \ge 0.
\]

推论

推论: 要么问题\(\mathcal{P}\)存在解, 要么\(\mathcal{D}\)存在解, 二者不能同时成立.

KKT定理的证明

既然\(x^*\)是一局部极值点, 则

\[\tag{38}
\nabla f(x^*) d \ge 0, \forall d \in \mathcal{T} (x^*) =\mathcal{F}(x^*),
\]

将\(\nabla f(x^*)\)视作Farkas引理中的\(g\), \(A\)即为我们最开始定义的\(A\), 则\(\forall Ad \ge 0\), \(d \in \mathcal{F}(x)\), 这是因为所有等式约束\(c_i(x)=0\), 都可以变成俩个不等式约束\(c_i(x)\ge0, -c_i(x) \ge 0\). 这也就是说, 问题\(\mathcal{P}\)无解, 则\(\mathcal{D}\)有解, 即存在\(\lambda^* \ge 0\):

\[\tag{39}
\nabla f(x^*) = \sum \lambda_i^* \nabla c_i(x^*), \lambda_i^* \ge 0.
\]

对于任意的\(i \not \in \mathcal{A}\), 我们只需取\(\lambda_i^*=0\), (39)依然成立, 同时原定理(18)中的(i)(ii)也同样容易证明.

KKT (LICQ)的更多相关文章

真正理解拉格朗日乘子法和 KKT 条件
这篇博文中直观上讲解了拉格朗日乘子法和 KKT 条件,对偶问题等内容. 首先从无约束的优化问题讲起,一般就是要使一个表达式取到最小值: \[min \quad f(x)\] 如 ...
机器学习——支持向量机(SVM)之拉格朗日乘子法，KKT条件以及简化版SMO算法分析
SVM有很多实现,现在只关注其中最流行的一种实现,即序列最小优化(Sequential Minimal Optimization,SMO)算法,然后介绍如何使用一种核函数(kernel)的方式将SVM ...
【整理】深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件
在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法.在有等式约束时使用拉格朗日乘子法,在有不等约束时使用 ...
PRML读书会第七章 Sparse Kernel Machines（支持向量机， support vector machine ，KKT条件，RVM）
主讲人网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:59:22 大家好,今天一起交流下PRML第7章.第六章核函数里提到,有一类机器学习算法,不是对参数做点估计或求其分 ...
关于拉格朗日乘子法和KKT条件
解密SVM系列(一):关于拉格朗日乘子法和KKT条件标签: svm算法支持向量机 2015-08-17 18:53 1214人阅读评论(0) 收藏举报分类: 模式识别&机器学习(42 ...
深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件
[整理] 在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法.在有等式约束时使用拉格朗日乘子法,在有 ...
拉格朗日乘子法和KKT条件
拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件 ...
装载：关于拉格朗日乘子法与KKT条件
作者:@wzyer 拉格朗日乘子法无疑是最优化理论中最重要的一个方法.但是现在网上并没有很好的完整介绍整个方法的文章.我这里尝试详细介绍一下这方面的有关问题,插入自己的一些理解,希望能够对大家有帮助. ...
装载：深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值:如果含有不等式 ...

随机推荐

django数据库增删改查
django中数据库基本操作: 1.同步数据库 python manage.py makemigrations #生成migrations python manage.py migrate #应用mi ...
打破砂锅问到底！HTTP和HTTPS详解
HTTP 引自维基百科HTTP:超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是一种用于分布式.协作式和超媒体信息系统的应用层协议.HTTP是万维网的数 ...
转 MessageDigest来实现数据加密
转自 https://www.cnblogs.com/androidsuperman/p/10296668.html MessageDigest MessageDigest 类为应用程序提供信息摘要算 ...
redis入门到精通系列（一）
(一)为什么要用Nosql 如果你是计算机本科学生 ,那么一定使用过关系型数据库mysql.在请求量小的情况下,使用mysql不会有任何问题,但是一旦同时有成千上万个请求同时来访问系统时,就会出现卡顿 ...
JpaRepository 增删改查
Jpa查询 JpaRepository简单查询基本查询也分为两种,一种是spring data默认已经实现,一种是根据查询的方法来自动解析成SQL. 预先生成方法 spring data jpa 默 ...
SQL错误总结
ORA-00918: column ambiguously defined 异常原因: select 查询的字段在from的两张表中都存在,导致数据库无法区别需要查询的字段来自于哪张表以下是例子 s ...
Table.Skip删除前面N….Skip/RemoveFirstN（Power Query 之 M 语言）
数据源: "姓名""基数""个人比例""个人缴纳""公司比例""公司缴纳"&qu ...
EhCache简单入门
一介绍 EhCache 是一个纯Java的进程内缓存框架,具有快速.精干等特点,是Hibernate中默认CacheProvider.Ehcache是一种广泛使用的开源Java分布式缓存.主要面向通 ...
CF1104A Splitting into digits 题解
Content 给定一个数字 \(n\),试将这个数分成若干个数,使得这些数都相等,输出任意一个方案均可. 数据范围:\(1\leqslant n\leqslant 1000\). Solution ...
AT2202 硬度フェスティバル / Kode Festival 题解
Content 有 \(2^n\) 块石头,第 \(i\) 块石头硬度为 \(a_i\).重复执行以下操作直到只剩下一块石头为止: 让当前编号为 \((1,2)\).\((3,4)\).-- 的石头互 ...

KKT (LICQ)

基本内容

LICQ 假设

KKT 定理

KKT定理的证明

引理A

Farkas 引理

推论

KKT定理的证明

KKT (LICQ)的更多相关文章

随机推荐

热门专题