[ADsP] 정리 – 상관분석

상관분석

상관분석은 데이터 내 두 변수의 관련성을 파악하는 방법이다.
상관계수는 관련선의 정도를 의미한다. 이를 측정하는 방법에는 피어슨 상관계수, 스피어만 상관계수, 켄달의 순위상관계수 등이 있다.
일반적으로는 피어슨 상관계수를 의미한다.
서열 척도 – 스피어만 상관분석
등간척도, 비율척도 – 피어슨 상관분석, 편상관분석

공분산이란

두 개의 확률변수에 대한 흩어짐의 정도가 동일한 방향(+, 양의방향)인지 혹은 반대(-,음의 방향)인지를 나타내는 수치
-> 두 변수가 서로 변하는 정도를 수치로 나타낸 것이다.
공분산이 0이면 어떤 선형관계도 존재하지 않고, 서로 독립이다.

상관계수와 상관관계

상관계수가 1에 가까울 수록 상관이 높고, 0에 근접할수록 상관이 낮다고 말한다.
상관계수의 범위는 -1과 1사이이다. 음수이면 음의 상관관계, 양수이면 양의 상관관계, 0이면 어떤 상관관계도 존재하지 않는다.

상관계수 검정

R 에서는 cor.test() 함수를 사용해서 상관계수 검정을 수행할 수 있다.