본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 19일차 ::부전자전, 유전 연결고리 :: 상관계수란 무엇인가? <이토록 쉬운 통계 & R>

by 새봄아빠 2018. 4. 3.

통계학 & R 프로그램 스터디 19일차

- 부전자전, 유전 연결고리

- 상관계수란 무엇인가?





이전 스터디에서 아빠와 아들 키의 유전과 연결하여 산점도와 상관관계, 공분산에 대해 간략히 살펴보았다.


통계학 & R 프로그램 스터디 17일차 ::부전자전, 유전 연결고리 :: 산점도란 무엇인가? <이토록 쉬운 통계 & R>

통계학 & R 프로그램 스터디 18일차 ::부전자전, 유전 연결고리 :: 상관관계, 공분산이란 무엇인가? <이토록 쉬운 통계 & R>

마지막에 상관관계를 스터디하면서 상관관계를 파악하기 위한 공분산 계산에서, 공분산의 표준화에 대해 살짝 언급을 했다. 오늘은 공분산의 표준화에 대한 이야기를 정리해보려 한다.




상관계수

아빠 키와 아들 키를 각각의 평균과 표준편차를 활용해서 표준화를 진행할 수 있다.


사실, 공분산을 계산할 때 평균을 빼주는 중심화를 이미 적용했기 때문에, 표준편차로 나누는 척도화만 해주면 된다.


중심화와 척도화에 대해서 궁금하다면?

통계학 & R 프로그램 스터디 10일차 :: 물수능과 불수능 :: 표준화(1) - 중심화 <이토록 쉬운 통계 & R>

통계학 & R 프로그램 스터디 11일차 :: 물수능과 불수능 :: 표준화(2) - 척도화 <이토록 쉬운 통계 & R>


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 85쪽>



표준화의 결과를 나타낸 그림이다. 이전에 그려본 그래프와 비교해보면 사각형의 패턴에는 큰 차이가 없다. 


가장 큰 차이는 아빠 키와 아들 키가 모두 원래의 키가 아닌 표준화된 값을 가진다는 것이다.


그리고 그 값은 단위도 사라진다.


표준화된 아빠 키 $x'$과 표준화된 아들 키 $y'$의 공분산을 구해보면 다음과 같다.


$$x' = \frac{(x_i - \overline{x})}{s_x}$$

$$y' = \frac{(y_i - \overline{y})}{s_y}$$


$$r_{xy} = \frac{1}{n-1}\sum_{i = 1}^{n}\frac{(x_i - \overline{x})}{s_x}\frac{(y_i - \overline{y})}{s_y} = \frac{q_{xy}}{s_x s_y}$$


$$-1 \le r_{xy} \le 1$$


이처럼 표준화된 두 변수의 공분산을 상관계수 Correlation Coefficient 라고 부른다.



 



상관계수의 특징

  • 상관계수는 어떤 두 연속형 변수로 계산하든지 가장 클 때는 1이고 가장 작을 때는 -1이다.
  • 두 변수가 가장 닯았을 때는 똑같을 때이다. 수식에서 $y$의 자리에 $x$를 넣으면 상관계수는 결국 표준화된 $x$의 분산을 구하는 것이다. 그러면 상관계수는 1이 된다.
  • 반대로 두 변수가 가장 다를 때는 어떤 변수와 그 변수에 -1을 곱한 새로운 변수는 무조건 정반대로 움직인다.
  • 두 변수의 상관계수가 -1에 가까울 수록 강한 음의 상관관계, 1에 가까울 수록 강한 양의 상관관계를 가지고 있으며 0에 가까울 수록 소러 관련이 없다는 것을 의미한다.


상관계수를 구하지 않더라도 산점도 패턴만으로 상관관계를 유추할 수는 있다. 원형으로 흩어져 있으면 상관계수가 0에 가깝고, 타원을 거쳐 직선에 가까울 수록 강한 상관관계를 가진다고 할 수 있다.


하지만 단순히 산점도 패턴만으로는 판단하기 힘든 경우도 많기 때문에, 상관계수를 사용하는 것이 좋다.




 






댓글0