偏最小二乘回归（PLSR）- 2 标准算法（NIPALS）

1 NIPALS 算法

Step1：对原始数据X和Y进行中心化，得到X₀和Y₀。从Y₀中选择一列作为u1，一般选择方差最大的那一列。

注：这是为了后面计算方便，如计算协方差时，对于标准化后的数据，其样本协方差为cov(X,Y)=X^TY/(n-1)。

Step2：迭代求解X与Y的变换权重（w1，c1）、因子（u1，t1），直到收敛

step 2.1：利用Y的信息U1，求X的变换权重w1（w1实现有X0到因子t1的变换，t1=X₀*w₁）及因子t1。从而将X0的信息用t1来近似表达。

（2.1）

（2.2）

（2.3）

Step2.2：利用X的信息t1，求Y的变换权重c1（c1实现有Y0到因子u1的变换，u1=Y₀*c₁），并更新因子u1。从而将Y0的信息用t1来近似表达。

（2.4）

（2.5）

（2.6）

Step2.5：判断是否已找到合理解

（2.7）

若<阈值（如）则继续下面步骤；否则，取，返回step2.1。

注：

1）以上过程的意义及其收敛性的直观分析

     a）公式2.1，实际上求解了由Y的因子u1到X的回归模型的系数，公式2.2与2.3将X映射为第一个因子t1。

     b）同理，公式2.4，实际上求解了由X的因子t1到Y的回归模型的系数，公式2.5与2.6将X映射为第一个因子t1。

      c）这里交替建立X与Y直接回归关系的方式，通常会很快收敛。

2）w1与c1的其他求法。[2,3]中已经证明以上求解过程收敛后找到的解w1与c1可以利用矩阵分析方法找到

     a）特征值分解方法（Eigen Value Decomposition）：w1是的最大特征值的单位特征向量，c1是的最大特征值的单位特征向量，

     b）SVD分解法（singular vector decomposition）：w1和c1分别于对X₀^TY₀进行SVD分解获得的第一对左奇异向量（left singular vector）和右奇异向量的单位

向量。

Step3：求X与Y的残差矩阵

step 3.1：求X的载荷（X-loading）p1（p1反映X₀与因子t1的直接关系，）

注：前面求得X的变换权重w1是由X0到t1的关系，此处的p1是由t1到X0的关系。而且，由于后续的Wi（i>1）是根据Xi的残差求得的，因此它无法反映T到X0的关系。所以，才要求出P以直接反映T到X0的关系）

(2.8)

p1求解公式的推导如下

a）前面已求出t1，现在希望用t1来表达X₀，建立回归模型

b）模型不能表达的信息即为X₀的残差矩阵X_1。

c）上式的关键是求p1，其求解公式推导过程：对转置得，两边右乘t1有，从而有

注：p1代表因子t1在X上的载荷（loadings），它反映了原始变量X与第一个因子向量t1间的关系。

step 3.2：求X₀的残差X₁。此残差表达了u1所不能反映的X₀中的信息。

(2,9)

step 3.3：求Y的载荷（Y-loading）q1（q1反映Y₀与因子U1的关系，）

(2.10)

step 3.4：建立X因子t1与Y因子u1间的回归模型，用t1预测u1的信息。

(2.11)

step 3.5：求Y₀的残差Y₁。此残差表达了X因子t1所不能预测的Y₀中的信息

(2.12)

注：这里利用，建立t1与Y间的关系。

Step4：利用X1与Y1，重复上面步骤，求解下一批PLS参数（因子、转换权重、载荷、回归系数等）。

在这个算法中，当一个因子计算出来后，进一步计算出X（及Y）的残差。下一个因子是从当前残差矩阵计算出来，因此PLS模型参数（因子scores，loadings, weights)与最初的X₀无关，而是与残差有关。

2 NIPALS-PLS 参数的理解

1）变换权向量w

在第二轮及以后的计算过程中，权向量w_a将残差X_a-1变换为因子得分ta，而不是对原始预处理后的数据X₀直接进行变换，这阻碍了对于因子的有效解释。实际上，权向量在PLS回归模型中的解释中用处不大。

2）构建X₀到T直接联系的权向量R

，

PLS算法执行完成后，我们得到所有的因子t，那么我们就可以直接建立原始数据X₀与其之间的转换权重矩阵R。其实R就是由X₀到T的回归系数，其计算公式为

3 NIPALS-PLS 的预测过程

当完成PLS模型构建后，我们得到的PLS模型参数包括：

1）转换权重：W（X-weights），C（Y-wights）

2）因子得分：T（X-factor scores），U（Y-factor scores）

3）载荷：P（X-loadings），Q（Y-loadings）

当来了一条新数据，其预测计算过程如下

1）预处理：。注：预处理方法与建模时保持一致，这里公式采用中心化处理方法。

2）依次求出求的各因子和残差





3）计算预测值



上面是由T到Y预测值的回归方程，而不是由X0到Y预测值的回归方程。如果在PLS建模过程中获得第2节中介绍的可将X0直接转换为T的权重R，那么就能获得一个针对X0的更直接的回归公式。

，回归系数

参考文献

[1] S. de Jong. SIMPLS: an alternative approach to partial least squares regression. Chemometrics and Intelligent Laboratory Systems, 18:251–263, 1993.

[2] R. Manne. Analysis of Two Partial-Least-Squares Algorithms for Multivariate Calibration. Chemometrics and Intelligent Laboratory Systems, 2:187–197, 1987.

[3] A. H¨oskuldsson. PLS Regression Methods. Journal of Chemometrics, 2:211–228,1988.

[4]