[ADsP] 정리 주성분분석(PCA)

주성분분석

차원축소 기법중 하나이다.
차원 축소 기법에는 요인분석, 주성분 분석, 판별분석, 군집분석, 정준상관분석, 다차원척도법이 있다.
상관관계가 있는 변수들을 선형 결합하여 변수를 축약하는데 사용한다. -> 많은 데이터에 포함된 정보의 손실을 최소화해서 단순하게 데이터를 축소하는 방법

R에서 주성분분석 함수 prcomp(), prcomp().rotation 으로 표시된 데이터를 해석할 수 있어야 한다.

> summary(prcomp(USArrests,scale=TRUE))

Importance of components:
                          
                       PC1    PC2     PC3     PC4
Standard deviation     1.5749 0.9949 0.59713 0.41645
Proportion of Variance 0.6201 0.2474 0.08914 0.04336
Cumulative Proportion  0.6201 0.8675 0.95664 1.00000

summary를 하면 주성분의 표준편차, 분산비율, 누적비율을 볼 수 있다. 주성분 2개(PC1, PC2) 를 고르면 전체 분산의 86.75%를 설명한다.

 prcomp(USArrests,scale=TRUE)$rotation
                PC1        PC2        PC3         PC4
Murder   -0.5358995  0.4181809 -0.3412327  0.64922780
Assault  -0.5831836  0.1879856 -0.2681484 -0.74340748
UrbanPop -0.2781909 -0.8728062 -0.3780158  0.13387773
Rape     -0.5434321 -0.1673186  0.8177779  0.08902432

$rotation을 보면 주 성분들의 로딩 벡터가 보인다.
첫번째 주성분은 -0.536Murder -0.583 Assault -0.278UrbanPop – 0.543Rape 이다.