본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 18일차 ::부전자전, 유전 연결고리 :: 상관관계, 공분산이란 무엇인가? <이토록 쉬운 통계 & R>

by 잇포에듀 2018. 4. 2.
반응형

통계학 & R 프로그램 스터디 18일차 

- 부전자전, 유전 연결고리

- 상관관계, 공분산이란 무엇인가?



 


이전 스터디에서 아빠와 아들 키의 유전과 연결하여 산점도에 대해 간략히 살펴보았다.


통계학 & R 프로그램 스터디 17일차 ::부전자전, 유전 연결고리 :: 산점도란 무엇인가? <이토록 쉬운 통계 & R>

이 때, 관측치가 중심에서 멀리 떨어져 있을 수록 얼마나 큰 영향력을 갖게 되는지 한눈에 확인할 새로운 방법이 필요하다고 했는데, 오늘은 그 내용을 살펴본다.




상관관계

관측치가 중심에서 멀리 떨어져 있다는 것은 평균에서 멀리 떨어져 있다는 것을 의미한다.


따라서 평균에서 멀리 떨어져 있는 관측치가 더 큰 영향력을 갖도록 해야 한다.


어떤 방법으로?


아빠 키의 평균으로부터의 거리와 아들 키의 평균으로부터의 거리를 계산해서 두 값을 곱한다. (오호라.. 면적이구만!)


그러면 평균으로부터 멀리 떨어져 있을수로 그 값은 커지고(면적은 넓어지고), 평균과 가까울 수록 작아진다.


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 81쪽>


그림에 예시가 잘 표현되어 있다. 각각의 점은 평균으로부터 떨어진 길이의 곱으로 면적을 구했다.


그런데 한 가지 특이한 점은 제1, 3사분면의 점들은 양(+)의 면적을 갖게 되고, 제2, 4사분면의 점들은 음(-)의 면적을 갖게 된다는 것이다.


 



아직 끝이 아니다...

조금 전의 예시에서는 각각의 관측치마다 사각형을 하나씩 만들어서 면적을 계산했다. 그런데 전체 데이터는 이보다 훨씬 많아질 수가 있다. 그럴 땐 어떻게 할까?


이 사각형들을 활용해서 두 변수의 관계를 하나의 숫자로 표현하는 방법은 무엇일까? 그것은 바로 사각형 면젹의 평균을 구하는 것이다.


만약의 사각형 면적의 평균이 양수(+)라면 제1, 3사분면에 있는 관측치들의 영향력이 크고, 음수(-)라면 제2, 4사분면에 있는 관측치들의 영향력이 큰 것이라고 볼 수 있다.


어라? 이런 비슷한(?) 계산을 어디선가 했었는데? 그거슨 바로 분산!!


통계학 & R 프로그램 스터디 7일차 - 더치페이와 N빵(1) :: 평균, 분산, 표준편차 <이토록 쉬운 통계 & R>



$$s_x^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \overline{x} )^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \overline{x} )(x_i - \overline{x} )$$


오! 이렇게 생각은 못했었는데.... 아무튼!!


변수 $x$의 분산은 이 식 처럼 $n$개의 관측치 중 $i$번째 관측치에 대해서 각각 평균으로부터의 거리 $(x_i - \overline{x} )$를 계산하고 이 값을 두 번 곱해서 정사각형의 넓이를 계산한다. 그리고 이 정사각형 면적들의 평균을 계산해서 분산을 만들었다.


그런데 지금은 한 개가 아니라 두 개의 변수를 활용하고 있다. 


$(x_i - \overline{x} )$와 $(y_i - \overline{y} )$를 곱해서 직사각형의 넓이를 구하고, 평균을 계산하는 것이다. 


그리고 이 값을 '변수 $x$와 $y$를 함께 사용해서 계산한 분산'이라는 의미에서 공분산 Covariance 이라고 부른다.


$$q_{xy} = = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \overline{x} )(y_i - \overline{y} )$$


실제로 계산을 해보면..?

<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 85쪽>


평균과 1,078개의 점이 만들어내는 사각형을 겹쳐서 표현한 그림이다. 확실히 양의 면적을 가지는 파란색 사각형이 음의 면적을 가지는 회색 사각형보다 더 넓고 진하게 분포되어 있다.


책에서는 실제 계산을 해보니 $+25 cm^2$이 나온다고 한다.


정리하자면


공분산의 값이 양수일 때 통계는 두 변수가 양의 상관관계에 있다고 한다. 이는 치킨과 맥주처럼 경제학에서 말하는 '보완재'의 개념과 비슷하다.


공분산의 값이 음수일 때 통계는 두 변수가 음의 상관관계에 있다고 한다. 이는 아이폰과 갤럭시 처럼 경제학에서 말하는 '대체재'의 개념과 비슷하다.


그런데 아직 문제가 남아 있다... 엥? 진짜?


우리가 계산한 25라는 숫자는 양수라는 것 외에는 어떤 정보도 없다. 단위를 바꾼다면 의미가 또 달라질 수도 있다. 이런 문제를 어떻게 해결할 수 있을까? 그것은 이미 이전 스터디를 했던 표준화이다.


이에 대한 이야기는 다음으로~!!


 





사이트 도구로 만들어본 IT4EDU 사이트

블로그 소식을 한 눈에!


http://sites.google.com/view/it4edu



 

 



반응형

댓글