机器学习中的矩阵方法(附录A）：病态矩阵与条件数

1. 病态系统

现在有线性系统： Ax = b，解方程

很容易得到解为： x1 = -100, x2 = -200. 如果在样本采集时存在一个微小的误差，比如，将 A 矩阵的系数 400 改变成 401：

则得到一个截然不同的解： x1 = 40000, x2 = 79800.

当解集 x 对 A 和 b 的系数高度敏感，那么这样的方程组就是病态的 (ill-conditioned).

2. 条件数

那么，如何评价一个方程组是病态还是非病态的呢？在此之前，需要了解矩阵和向量的 norm，这里具体是计算很简单的 infinity norm，即找行绝对值之和最大，举个例子：

infinity norm 具有三角性质：||x+y|| <= ||x|| + ||y||. 理解了这些概念，下面讨论一下衡量方程组病态程度的条件数，首先假设向量 b 受到扰动，导致解集 x 产生偏差：

即有：

同时，由于

综合上面两个不等式：

即得到最终的关系：

如果是矩阵 A 产生误差，同样可以得到：

其中，条件数定义为：

一般来说，方程组解集的精度大概是个十进制的位的误差。比如，IEEE 标准表示的双精度浮点数的有效位是 16 位，如果条件数是 1e+10, 那么得到的结果中只有 6 位是精确的。所以，只有当方程组是良态时，残差 R = Ax - b 才能准确指示解的精度。

3. 病态的由来

自己的看法：

线性系统 Ax = b 为什么会病态？归根到底是由于 A 矩阵列向量线性相关性过大，表示的特征太过于相似以至于容易混淆所产生的。举个例子, 现有一个两个十分相似的列向量组成的矩阵 A：

在二维空间上，这两个列向量夹角非常小。假设第一次检测得到数据 b = [1000, 0]^T, 这个点正好在第一个列向量所在的直线上，解集是 [1, 0]^T。现在再次检测，由于有轻微的误差，得到的检测数据是 b = [1000, 0.001]，这个点正好在第二个列向量所在的直线上，解集是 [0, 1]^T。两次求得到了差别迥异的的解集。

4. 与特征值和 SVD 的关系

特征值

假设 A 的两个单位特征向量是 x1, x2, 根据特征向量的性质：

$Ax_1 = \lambda _1x_1, Ax_2 = \lambda _2x_2$

上述矩阵 A 的特征值和特征向量分别为：

对于平面上的某一个向量 b，可以分解为两个特征向量的线性组合：

把上式带入， $b = mx_1 + nx_2 = \frac{m}{\lambda _1}\lambda _1x_1 + \frac{n}{\lambda _2}\lambda _2x_2 = A(\frac{m}{\lambda _1}x_1 + \frac{n}{\lambda _2}x_2) = Ax$

如果 $\lambda _1$ 远远大于 $\lambda _2$ ，当 b 点在 x1 方向发生移动, m 值改变，解集 x 变化不明显，反之，如果在 x2 方向移动， n 值改变，解集 x 变化非常大！可以看到，特征值对解集起到了一个 scaling 的作用。反过来说，如果一个特征值比其它特征值在数量级上小很多，x在对应特征向量 (x2) 方向上很大的移动才能产生b微小的变化.

2. SVD

SVD 分解：

联系上次学到的 SVD 知识，将 A 分解成三个矩阵的乘积，中间的对角线矩阵也起到了 scaling 的作用。我们按照正向思维来考虑这个问题，现在来了一个解集 x 向量，左乘 A 矩阵等价与左乘 USV^T, x 向量正好等于 V^T 最后一行向量，经过 S 矩阵的 scaling 缩小之后对 b 的影响非常小。也就是说，解集 x 在 V^T 最后一行的行向量方向自由度最大！自由度越大，越不稳定，极端情况是该方向奇异值为 0, 解集可以在该方向取任意值，这也正好对应了矩阵 A 有零特征值， Ax 在对应特征向量的方向上移动不改变 Ax 的值。

在不同的 norm 下，条件数又可以由最大奇异值与最小奇异值之间的比值，或者最大特征值和最小特征值之间比值的绝对值来表示，详情请参考维基百科

最后， A 的条件数究竟等于多少呢？ cond(A) = 2e+06

5. 病态矩阵处理方法

真正的自由是建立在规范的基础上的。病态矩阵解集的不稳定性是由于解集空间包含了自由度过大的方向，解决这个问题的关键就是将这些方向去掉，而保留 scaling 较大的方向，从而把解集局限在一个较小的区域内。在上面的讨论中， A 矩阵的特征向量不一定正交，不适合做新基， SVD 分解正好分解出了正交基，可以选前 k 个 v^T 向量作为正交基。

比如，现在只选取前一个 (0.707, 0.707) 方向作为基，解集局限咋 y = x 这条直线上。直观的解释就是， A 矩阵的两个列向量过于类似，我们就可以将它们等同看待，第一次 b = (1000, 0), 解集是(0.5, 0.5), 第二次 b = (1000, 0.001), 解集还是 (0.5, 0.5).

总结起来，解决 A 病态就是将解集限定在一组正交基空间内，即对于坐标 y，选择 k 个正交基 Zk，解决问题：

这个就是 reduce-rank model. 具体方法有 truncated SVD 和 Krylov subspace method。

参考资料：

(1) ILL-Conditioned Systems