主成分回归

统计学中,主成分回归(PCR)是一种基于主成分分析(PCA)的回归分析方法。更确切地说,PCR用于估计标准线性回归模型中的未知参数。

PCR不是直接将因变量与解释变量进行回归,而是将解释变量的主成分作为回归量。一般只使用所有主成分的一个子集用于回归,因此PCR是一种正则化过程,也是一种收缩估计量

方差更高的主成分(基于解释变量样本方差-协方差矩阵对应更大特征值的特征向量)被选为回归量。不过,要预测结果,低方差的主成分可能也很重要,在某些情况下甚至更重要。[1]

PCR的主要用途之一是克服多重共线性问题,这是说多个解释变量接近共线[2]PCR可在回归步骤中排除一些低方差主成分,从而恰当地处理这种情况。另外,由于通常只对所有主成分的一个子集进行回归,PCR可大幅降低基础模型的参数数,从而降维。这在使用高维协变量时尤为有用。通过适当选择用于回归的主成分,PCR还可根据假定模型有效地预测输出。

原理

PCR法可总结为三步:

1.  对解释变量的测得设计矩阵进行PCA,得到主成分,然后(通常)根据一些适当标准,从获得的主成分中选择子集,供进一步使用。
2.  普通最小二乘法,在选定主成分上线性回归输出的测得向量,得到估计回归系数向量(维数等于选定的主成分数)。
3.  PCA负载(与选定主成分对应的特征向量)将该向量变换回实际协变量标量,得到最终PCR估计量(维数等于协变量总数),以估计表征原始模型的回归系数。

方法细节

数据表示: 表示观测的输出, 表示测得协变量对应的设计矩阵,其中  表示测得样本的大小和协变量数量。 的每行 表示 维协变量的一组观测值, 的相应项表示相应的观测结果。

数据预处理:假设   列已经中心化,经验均值均为0。中心化这步至关重要(至少对 的列而言),因为PCR将对 使用的PCA on  对数据是否中心化十分敏感。

基础模型:在中心化之后,对 上的 的标准高斯-马尔可夫线性回归模型可表为: 其中 表示回归系数的未知参数向量, 表示随机误差向量,  则表示未知方差参数 

目标:主要目标是根据数据,为参数 获得有效估计量 。一种常用方法是普通最小二乘法,假设 列满秩,从而有 无偏估计量 。PCR是另一种估计 的方法。

PCA步骤:PCR首先要对中心化矩阵 进行PCA。为此,令 表示 奇异值分解,其中 表示 的非负奇异值,  都是正交规范集向量,列向量分别表示 的左右奇异向量。

主成分: 给出了 谱分解,其中 表示 的非负特征值(也叫做主值), 的列则表示对应的特征向量的正交规范集。接着,  分别表示第 个主成分与跟第 大的主成分值  相对应的第 个主成分方向(或PCA负载)。

衍生协变量: ,记  矩阵,其正交列包含 的前 列。记 为以前 个主成分为列的 矩阵。 可看做是用变换后的协变量 得到的设计矩阵,而非原始协变量 

PCR估计量: 表示 响应向量 在设计矩阵 上用普通最小二乘法得到的估计回归系数向量。那么, 都有基于前 个主成分的 的最终PCR估计量: 

PCR估计量的基本特征与应用

两个基本性质

得到PCR估计量的拟合过程包括将响应向量在导出设计矩阵 上回归。后者 都有正交列,因为主成分互相正交。因此在回归中,对作为协变量的 个选定主成分联合进行多元线性回归,相当于对作为协变量的 个选定主成分分别进行独立单变量线性回归。

当选择所有主成分回归( ),PCR估计量便等同于普通最小二乘法估计量。因此 。从  正交矩阵的观测事实,不难看出这点。

方差降低

  的方差由下式给出:

 

特别地:

 

因此 都有:

 

因此 都有:

 

其中 ,表明对称方阵 是非负定的。于是,与普通最小二乘估计的线性形式相比,任何给定PCR估计量的线性形式都有更低的方差。

解决多重共线性问题

多重共线性条件下,指多个协变量高度相关,因此可从其他协变量以非平凡的精度进行线性预测。因此,设计矩阵 与这些协变量对应的列趋于线性相关,于是 趋于秩亏,失去列满秩结构。更定量地讲,这时 的较小特征值会非常接近 。上述方差表达式表明,极小特征值对最小二乘估计量产生最大的方差扩大效应,因此在接近0时会严重破坏估计量的稳定性。这可以通过排除极小特征值对应的主成分得到的PCR估计,得到有效解决。

降维

PCR也可用于降维:记 为任意列正交的 矩阵。假设现在我们想通过 线性变换  )来近似每个协变量观测值 ,那么可以证明

 

 (前 个主成分方向为列组成的矩阵)和 (对应的 维衍生协变量)时取最小值。因此 维主成分提供了观测设计矩阵 的秩为 的最佳线性近似,对应的重建误差

 

因此,可通过选择 值(即要使用的主成分数),通过对 的特征值累积和进行适当阈值处理,实现降维。由于较小特征值对累积和的贡献并不大,因此只要不超过所需的阈值限制,便可放弃相应的主成分。同样标准也可用于解决多重共线性问题:只要保持阈值限制,就可忽略较小特征值对应的主成分。

正则化效应

由于PCR估计量通常只使用一部分主成分进行回归,因此可视作某种正则化。更具体地说, ,PCR估计量 都可表示以下约束最小化问题的正则化解:

 

约束可等价写作

 

其中

 

因此,当择一部分主成分回归时,所得PCR估计量是基于硬形式的正则化,将所得解约束在选定主成分方向的列空间,因此限制其与被排除方向正交。

一类正则化估计量中PCR的最优性

给定如上述的约束最小化问题,考虑下面的推广:

 

其中 表示任何阶为 的列满秩矩阵。令 表示对应的解,则

 

则约束矩阵 的最优选择就是相应估计量 达到最小预测误差:[3]

 

其中

 

很明显,由此得到的最优估计量 就是基于前 个主成分的PCR估计量 

效率

由于普通最小二乘估计量对 无偏,所以有

 

其中MSE表示均方误差。现在,若对某个 ,我们还有 ,那么对应的 也将是 的无偏估计量,就有

 

我们已经知道

 

这就意味着对特定的 有:

 

所以,用均方误差为标准的话,对应的 是比 更有效的 的估计量。另外,与 的相同线性形式相比,对应 的任何给定线性形式的均方误差也更小。 现在假设,对给定的 ,那么对应的  就是有偏的。但由于

 

 仍然是可能的,尤其是当 使被排除主成分对应较小特征值时,从而导致较小的偏。

为确保PCR作为 估计值的效率与性能,Park (1981) [3]提出了以下用于回归的主成分选择标准:当且仅当 时,排除第 个主成分。在实际应用中,还需要估计未知的模型参数  。总的来说,可以用从原始完整模型得到的无约束最小二乘法进行估计。Park (1981)提供了一套稍加修改的估计值,可能更适合这一目的。[3]

与基于 特征值累积和的标准不同,上述标准可能更适合解决多重共线性问题与降维,实际上是试图让输出和协变量都参与到回归的主成分选择之中,以提高PCR估计值的预测与估计效率。其他目的相似的选择主成分方法基于交叉验证,或马洛斯CP值等。通常,主成分的选择还基于其与输出的相关程度

PCR的收缩效应

总的来说,PCR本质上是收缩估计量,通常保留了高方差主成分(对应 的较大特征值)作为模型中的协变量,并舍弃剩余的低方差成分(对应 的较小特征值)。这就对低方差成分产生了分离收缩,清除了其在原始模型中的贡献。相对地,岭回归估计量则通过其构造中固有的正则化参数,产生平滑收缩。虽然它不会舍弃任何一个成分,但会以连续的方式对所有成分产生收缩效应,因此低方差成分的收缩程度高于高方差成分。Frank & Friedman (1993)[4]认为,就预测本身而言,与具有离散收缩效应的PCR估计量相比,岭估计量具有平滑收缩效应,可能是更好的选择。

此外,主成分是从 特征分解中得到的,只涉及解释变量的观测值。因此,以这些主成分为协变量得到的PCR估计量不一定具有令人满意的预测性能。偏最小二乘回归(PLS)估计量与之比较相似,试图通过自身的构造解决这问题。PLS也用低维的衍生协变量,但是在输出和协变量中获得的。PCR在协变量空间中寻找高方差方向,而PLS则寻找对预测结果最有用的方向。

2006年,有人提出了经典PCR的一种变体,即监督PCR[5]这种方法的精神与PLS类似,试图根据结果和协变量标准,获得低维衍生协变量。首先进行简单线性回归(单变量回归),其中结果向量分别对 个协变量逐一回归。然后,对某个 ,选择与结果最相关的 个协变量(基于对应估计回归系数的显著程度)供进一步使用。然后进行上述传统PCR,但只基于与选定协变量观测值对应的 设计矩阵。使用的协变量数: 及随后使用的主成分数: 一般通过交叉验证选择。

核设置的推广

上述经典PCR法基于经典PCA,并考虑了根据协变量的线性回归结果预测模型。这方法可以很容易地推广到核机设置,即回归函数不一定是协变量的线性函数,而可以属于与任意(可以非线性)对称正定核有关的再⽣核希尔伯特空间核函数选为线性核时便有线性回归模型,是这种设置的特例。

总的来说,在核机设置下,协变量向量首先被映射到所选核函数的高维(可能是无限维)特征空间中。这样得到的映射叫做特征映射,每个坐标(也叫做特征元)对应协变量的一个特征(无所谓线性与否)。然后,假设回归函数是这些特征元的线性组合,则核机设置依赖的回归模型本质上是线性的,但前提是预测量不再是原始协变量集,而由特征映射所得协变量的特征元的向量(可能是无限维)给出。 但核技巧实际上可以让我们在特征空间中操作,而无需明确计算特征映射。事实证明,只需计算观测协变量向量的特征映射之间的逐对内积即可,是由在相应协变量向量对上估值的核函数值简单给出的。因此,得到的逐对内积可用 对称非负定矩阵(也称为核矩阵)表示。 核机设置中的PCR现在可用以下方式实现:首先将核矩阵(如K)相对于特征空间适当中心化,再对中心化核矩阵(如K')进行核主成分分析,得到K'的特征分解。然后,核PCR(通常)会从获得的所有特征向量中(一般通过交叉验证)选择一子集,在其上进行结果向量的标准线性回归。估计的回归系数(维度与选定特征向量数相同)与响应所选特征向量一起用于预测未来的观测结果。机器学习中,这技巧也被称为“谱回归”。

显然,核PCR对K'的特征向量具有离散收缩,与前面讨论过的经典PCR对主成分的离散收缩十分相似。然而,与核相关的特征映射可能是无限维的,因此相应的主成分及其方向也可能是无限维的。所以,在核机设置下,这些量实际上往往难以处理。核PCR基本上是基于相关核矩阵的谱分解,以考虑等效的对偶表述,来解决这一问题。在线性回归模型下(对应于选择核函数为线性核),这相当于考虑对应的 核矩阵 的谱分解,然后将结果向量回归到得到的 的选定特征向量子集上。很容易看出,这等同于将结果向量回归到相应主成分上(这时是有限维),正如经典PCR定义的那样。因此,对线性核,基于对偶表示的核PCR完全等同于基于原始公式的经典PCR。然而,对任意(可能非线性)核,由于相关特征映射可能的无限维,这种原始公式可能会变得难以处理。因此,这时经典PCR实际上不可行,但基于对偶表示的核PCR仍有效,且在计算上可推广。

另见

参考文献

  1. ^ Jolliffe, Ian T. A note on the Use of Principal Components in Regression. Journal of the Royal Statistical Society, Series C. 1982, 31 (3): 300–303. JSTOR 2348005. doi:10.2307/2348005. 
  2. ^ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 0-19-920613-9
  3. ^ 3.0 3.1 3.2 Sung H. Park. Collinearity and Optimal Restrictions on Regression Parameters for Estimating Responses. Technometrics. 1981, 23 (3): 289–295. doi:10.2307/1267793. 
  4. ^ Lldiko E. Frank & Jerome H. Friedman. A Statistical View of Some Chemometrics Regression Tools. Technometrics. 1993, 35 (2): 109–135. doi:10.1080/00401706.1993.10485033. 
  5. ^ Eric Bair; Trevor Hastie; Debashis Paul; Robert Tibshirani. Prediction by Supervised Principal Components. Journal of the American Statistical Association. 2006, 101 (473): 119–137. CiteSeerX 10.1.1.516.2313 . doi:10.1198/016214505000000628. 

阅读更多