编辑: Mckel0ve | 2019-07-03 |
什么是主成分分析法 主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关 系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低 观测空间的维数,以获取最主要的信息. 在统计学中,主成分分析(principal components analysis, PCA)是一种简化 数据集的技术. 它是一个线性变换. 这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差 在第二个坐标(第二主成分)上, 依次类推. 主成分分析经常用减少数据集的维数, 同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶 主成分做到的.这样低阶成分往往能够保留住数据的最重要方面.但是,这也不 是一定的,要视具体应用而定. 2.主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因 素.这些涉及的因素一般称为指标,在多元统计分析中也称为变量.因为每个变 量都在不同程度上反映了所研究问题的某些信息, 并且指标之间彼此有一定的相 关性,因而所得的统计数据反映的信息在一定程度上有重叠.在用统计方法研究 多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进 行定量分析的过程中,涉及的变量较少,得到的信息量较多.主成分分析正是适 应这一要求产生的,是解决这类题的理想工具. 对同一个体进行多项观察时必定涉及多个随机变量X1,X2,…,Xp,它们之 间都存在着相关性,一时难以综合.这时就需要借助主成分分析来概括诸多信息 的主要方面.我们希望有一个或几个较好的综合指标来概括信息,而且希望综合 指标互相独立地各代表某一方面的性质. ? 任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的 变异.如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分 不同的个体. 由这一点来看, 一项指标在个体间的变异越大越好. 因此我们把"变 异大"作为"好"的标准来寻求综合指标. 3.主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相 关的原随机向量转化成其分量不相关的新随机向量, 这在代数上表现为将原随机 向量的协方差阵变换成对角形阵, 在几何上表现为将原坐标系变换成新的正交坐 标系,使之指向样本点散布最开的 p 个正交方向,然后对多维变量系统进行降 维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值 函数,进一步把低维系统转化成一维系统. 4.主成分的一般定义 设有随机变量X1,X2,…,Xp,样本标准差记为S1,S2,…,Sp.首先作标准 化变换: Cj=aj1x1+aj2x2+ … +ajpxp , j=1,2,…,p 我们有如下的定义: (1) 若C1=a11x1+a12x2+ … +a1pxp, ,且使 Var(C1)最大,则称C1为第一主成 分;
(2) 若C2=a21x1+a22x2+…+a2pxp,,
(a21,a22,…,a2p)垂直于(a11,a12,…,a1p), 且使Var(C2)最大,则称C2为第二主成分;
(3) 类似地,可有第
三、
四、五…主成分,至多有 p 个. 5.主成分的性质 ? 主成分C1,C2,…,Cp具有如下几个性质: (1) 主成分间互不相关,即对任意i和j,Ci 和Cj的相关系数 Corr(Ci,Cj)=0 i j (2) 组合系数(ai1,ai2,…,aip)构成的向量为单位向量, (3) 各主成分的方差是依次递减的, 即Var(C1)≥Var(C2)≥…≥Var(Cp) (4) 总方差不增不减, 即Var(C1)+Var(C2)+ … +Var(Cp) =Var(x1)+Var(x2)+ … +Var(xp) =p 这一性质说明,主成分是原变量的线性组合,是对原变量信息的一种改组, 主成分不增加总信息量,也不减少总信息量. (5) 主成分和原变量的相关系数 Corr(Ci,xj)=aij =aij (6) 令X1,X2,…,Xp的相关矩阵为R, (ai1,ai2,…,aip)则是相关矩阵R的第i个特征向量(eigenvector). 而且, 特征值li就是第i主成分的方差, 即Var(Ci)=li 其中li为相关矩阵R的第i个特征值(eigenvalue) l1≥l2≥…≥lp≥0 6.主成分数目的选取 前已指出,设有p个随机变量,便有p个主成分.由于总方差不增不减,C1, C2等前几个综合变量的方差较大,而Cp,Cp-1等后几个综合变量的方差较小, 严格 说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为"次"(要) 成份.实践中总是保留前几个,忽略后几个. 保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即 累计贡献率),它标志着前几个主成分概括信息之多寡.实践中,粗略规定一个 ? 百分比便可决定保留几个主成分;