在多變量分析中,主成分分析(英語:Principal components analysis,縮寫:PCA)是一種統計分析、簡化數據集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(Principal Components)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感(相对缩放)。
基本思想:
主成分分析经常用于减少数据集的维数,同时保留数据集當中对方差贡献最大的特征。这是通过保留低維主成分,忽略高維主成分做到的。这样低維成分往往能够保留住数据的最重要部分。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。
主成分分析由卡尔·皮尔逊於1901年發明[2],用於分析數據及建立數理模型,在原理上与主轴定理相似。之后在1930年左右由哈罗德·霍特林独立发展并命名。依据应用领域的不同,在信号处理中它也叫做离散K-L 转换(discrete Karhunen–Loève transform (KLT))。其方法主要是通過對共變異數矩陣進行特征分解[3],以得出數據的主成分(即特征向量)與它們的權值(即特征值[4])。PCA是最簡單的以特征量分析多元統計分布的方法。其結果可以理解為對原數據中的方差做出解釋:哪一個方向上的數據值對方差的影響最大?換而言之,PCA提供了一種降低數據維度的有效辦法;如果分析者在原數據中除掉最小的特征值所對應的成分,那麼所得的低維度數據必定是最優化的(也即,這樣降低維度必定是失去訊息最少的方法)。主成分分析在分析複雜數據時尤為有用,比如人臉識別。
PCA是最简单的以特征量分析多元统计分布的方法。通常,这种运算可以被看作是揭露数据的内部结构,從而更好地展現数据的變異度。如果一个多元数据集是用高维数据空间之坐标系來表示的,那么PCA能提供一幅较低维度的图像,相當於数据集在讯息量最多之角度上的一個投影。这样就可以利用少量的主成分讓数据的维度降低了。
PCA 跟因子分析密切相关。因子分析通常包含更多特定領域底層結構的假設,並且求解稍微不同矩陣的特徵向量。
PCA 也跟典型相關分析(CCA)有關。CCA定義的坐標系可以最佳地描述兩個數據集之間的互協方差,而PCA定義了新的正交坐標系,能最佳地描述單個數據集當中的變異數。
取材自維基百科 - 中文時事百科