본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 17일차 ::부전자전, 유전 연결고리 :: 산점도란 무엇인가? <이토록 쉬운 통계 & R>

by 새봄아빠 2018. 3. 29.

통계학 & R 프로그램 스터디 17일차 

- 부전자전, 유전 연결고리

- 산점도란 무엇인가?


 


키 작은 엄마와 키가 큰 아들이 나란이 서 있다. 우리는 자연스럽게 '아빠가 키가 크겠구나'라고 생각한다. 칼 피어슨 Karl Pearson이라는 통계학자는 이와 같은 것들이 얼마나 영향을 주는지에 대한 연구를 진행하기도 했다. 


* 칼 피어슨 : 영국의 수리통계학자·우생학자. 인류의 유전에 관한 통계적 분석, 두개(頭蓋)의 계측(計測), 결핵의 통계 등으로 유명하다. 피어슨파 수리통계학의 창시자, 생물통계학의 선구자로 알려져 있으며 과학비평가로서도 이름이 높다.


산점도

아빠 키와 아들 키의 관계를 확인하기 위해서는 데이터가 필요하다. '아빠 키', '아들 키'라는 변수가 있어야 한다. 


예를 들어 아래 그림과 같이 데이터를 2차원 공간으로 표현을 해 보았다. 가록축에는 아빠 키를, 세로축에는 아들 키를 뒀다.


이렇게 두 연속형 변수를 2차원 공간으로 표현하는 방법을 산점도 Scatterplot 라고 한다.


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 77쪽>


패턴을 좀 더 쉽게 찾으려면?

패턴을 조금 더 쉽게 찾기 위해 보조선 두 개를 그어보자. 아빠 키의 평균과 아들 키의 평균을 각각 수직선과 수평선으로 그려보자.


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 78쪽>


아빠 키 평균 수직선을 기준으로 왼쪽은 평균보다 키가 작은 아빠들, 오른쪽은 평균보다 키가 큰 아빠들이다.

아들 키 평균 수평선을 기준으로 위쪽은 평균보다 키가 큰 아들들, 아래쪽은 평균보다 키가 작은 아들들이다.


수평선과 수직선에 의해 공간은 4개로 나누어지는데 이를 가리켜 사분면 Quadrant이라고 부른다.


제1사분면 가족은 아빠도, 아들도 평균보다 키가 크다. (부럽네..)

반면에 제3사분면은 아빠도, 아들도 평균보다 키가 작다. (.......)


요 두 사분면은 아빠 키와 아들 키가 관련이 있다는 주장에 힘을 실어준다.


반대로 제2, 4사분면에 있는 아들과 아빠는 이 주장에 반하는 데이터를 보인다.


전체적인 분포를 보면 제1, 3사분면에 점이 많으므로 나름 상관관계가 있어보입니다.


 



이제 명확한 숫자로 표현해보자

두 변수가 어떤 관련이 있고, 얼마나 큰 관련이 있는지를 표현할 숫자가 필요하다. 


가장 쉬운 방법은 각 사분면 중에 어느 곳에 관측치가 더 많은지를 개수를 세는 것이다. 하지만 이 방법만으로는 맹점이 있을 수 있다. 따라서 영향력을 한눈에 확인할 새로운 방법이 필요하다.


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 80쪽>


예를 들어 위 그림처럼 임의의 데이터 4개를 가져왔다고 하자. 제1, 3사분면에 2개, 제2, 4 사분면에 2개의 관측치가 있다. 첨의 개수로 단순하게 비교한다면 각 관측치의 개수가 2:2 이므로 상관관계를 판단할 수 없다.


하지만 두 평균 보조선이 만나는 중심점에서 멀리 있을 수록 값이 확연히 차이나면서 더 큰 힘을 갖기 때문에 아빠 키와 아들 키가 관련이 있는 것 처럼 보인다.


이러한 지표를 한 눈에 확인할 새로운 방법은 무엇일까?


다음에 계속!!

 





사이트 도구로 만들어본 IT4EDU 사이트

블로그 소식을 한 눈에!


http://sites.google.com/view/it4edu



 

 



댓글0