본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 4일차 - 순서대로 한줄서기(1) 사분위수, 상자그림 <이토록 쉬운 통계 & R>

by 잇포에듀 2018. 1. 31.
반응형

통계학 & R 프로그램 스터디 4일차 

- 순서대로 한줄서기(1) 사분위수, 상자그림 <이토록 쉬운 통계 & R>




아이돌 서바이벌 프로그램 <프로듀스 101>이라는 프로그램이 있다. 101명의 연습생이 경쟁하고, 시청자 투표를 통해 선정된 11명이 프로젝트 그룹으로 데뷔하기도 했다. (사실 솔직히 난 한 번도 본적이 없다....경쟁 프로그램 자체를 별로 좋아하지 않는다...)


 



아마도 101명의 연습생들이 다양한 미션(?)을 수행하고, 점수를 매겨서 점수 순서대로 11명을 뽑았겠지. 결국 줄 세우기....




정렬과 순서 통계량

여기 10개의 숫자들을 가정해보자.


$$4~~~5~~~3~~~8~~~9~~~7~~~0~~~1~~~2~~~6$$


작은 숫자부터 오름 차순으로 줄을 세워보면 다음과 같다.


$$0~~~1~~~2~~~3~~~4~~~5~~~6~~~7~~~8~~~9$$


이런 방법으로 값들을 크기에 따라 순서대로 줄을 세우는 과정을 정렬이라고 한다.


이처럼 오름차순으로 정렬된 10개의 값을 통계학에서는 순서 통계량 (Order Statistics)이라고 부른다.


그리고 그 중에서 가장 먼저 나오는 값, 즉 가장 작은 값을 최솟값 (Minimum)이라고 부른다.

가장 나중에 나오는 값, 즉 가장 큰 값을 최댓값 (Maximum)이라고 부른다.



분위수

<출처 : 이토록 쉬운 통계 & R, 32쪽>


가상으로 101명의 연습생에게 점수를 매긴 표다. 점수 순서대로 오름차순 정렬까지 되어 있다.


만약 이 중에서 하위 30명이 1차 탈락이라면(슬픈일이군..), 적어도 몇 점을 받아야 할까?


이렇게 기준이 되는 특정한 점수들을 분위수 Quantile 라고 한다. 가장 대표적인 분위수가 100등분의 기준, 즉 % 기호를 사용하는 백분위수 Percentile이다. 헐~ 백분위라는 말이 그런 뜻이었다니!! 띠용 @,.@;;


위의 표에서 101명의 연습생들은 31번째 값 67.6점(검은색이 칠해진 곳)을 기준으로 점수가 낮은 30명과 높은 70명으로 나뉜다. 그래서 이 67.6점을 '30번째 백분위수'라고 한다. 하위 30% 지점....


통계에서는 기본적으로 오름차순이 기준이기 때문에 '하위'라는 표현을 생략하고 보통 30% 지점이라고 한다. 그렇구나~


최솟값은 0%, 최댓값은 100% 지점이라고 한다.



 


사분위수와 다섯 숫자 요약

전체적인 점수 패턴을 한 눈에 보고 싶을 때에는 어떤 분석 방법이 있을까?


<출처 : 이토록 쉬운 통계 & R, 33쪽>


위의 그림을 보면 50% 지점(가운데)을 표시해 놓았다. 50% 지점에 있는 값을 기준으로 관측치들이 정확히 반반으로 나뉘기 때문에 이 값을 중앙값 Median 이라는 이름을 쓴다.


아래 그림을 보자.


<출처 : 이토록 쉬운 통계 & R, 34쪽>


이 그림은 최솟값(0%), 중앙값(50%), 최댓값(100%) 외에 25% 지점과 75% 지점이 추가되어 있다. 이 5개의 지점은 데이터를 정확히 4등분을 한다. 이 네 개의 숫자를 사분위수 Quartile라는 이름을 지어줬다. 25%에 해당하는 지점을 Q1, 75%에 해당하는 지점을 Q3라고 부른다.


그러면 중앙값은 Q2라고 하나? 찾아보니 그런 것 같다..ㅎㅎ


이렇게 숫자 다섯개를 계산하고 의미를 찾는 과정을 다섯 숫자 요약 Five number summary이라고 한다.



상자그림

50점부터 100점까지의 수직선 위에 101명의 점수를 하나씩 세로막대(|)로 표시하면 아래와 같은 그림이 나온다.


<출처 : 이토록 쉬운 통계 & R, 35쪽>


바가 몰려 있는 영역도 있고, 퍼져있는 영역도 보인다.


아래의 다른 그림도 살펴보자.


<출처 : 이토록 쉬운 통계 & R, 35쪽>


이 그림은 앞에서 설명한 다섯 숫자 요약을 활용해서 사분위수들을 표시한 그림이다. 다시 말해 각 영역(최솟값~Q1, Q1~중앙값, 중앙값~Q3, Q3~최댓값)에는 25명씩 동일하게 연습생들이 분포되어 있다.


똑같이 25명씩 분포되어 있기는 하지만 구간의 길이는 모두 다르다. 그 의미는 무엇일까? 구간이 짧으면 짧을 수록 그 안에 빽빽히 관측치가 분포되어 있다는 뜻이고, 구간이 길면 길 수록 관측치가 널널하게(?) 퍼져 있다는 뜻이다.



다른 그림을 하나 더 보자. 아래의 그림은 Q1부터 Q3 사이를 네모난 상자로 표현하고, 최솟값, 최댓값 까지는 선으로 이었다. 그리고 중앙값은 흰 선으로 구분을 지었다. 이렇게 만든 그림을 상자그림 Boxplot 이라고 한다.


<출처 : 이토록 쉬운 통계 & R, 36쪽>


상자그림을 보면 관측치의 분포가 어느 정도 직관적으로 파악이 됩니다. 상자 안은 Q1(25%) ~ Q3(75%) 구간이므로 전체 관측치의 50%이다. 그림으로 보면 전체의 50%가 가운데 부분에 몰려 있음을 알 수 있고, 좌우로 25%씩은 넓게 퍼져 있다는 것을 알 수 있다.




위키피디아에서 이런 그림도 발견했는데(https://en.wikipedia.org/wiki/Box_plot) 평균이 0이고 표준편차가 $1\sigma$인 정규분포(N$(0, 1\sigma^2)$) 그래프의 분포와 비교해 놓았다. 이렇게 보니 더 직관적이다. (물론 표준화된 정규분포 그래프의 이미를 이해하고 있어야 한다. 다음에 기회가 된다면 소개를?)




여기까지 4일동안 스터디를 해봤는데 책 내용이 쉽고 흥미있게 잘 만들어진 것 같다. 앞으로의 스터디도 기대된다.


원래 이런거 잘 안하는데 특별히 오늘은 책 판매 링크를 걸어야겠다. (좋은 책을 제공해 주신 것도 고맙고, 추천할만한 책이라는 확신이 들어서 자발적으로 링크를 걸겠음!! ㅋ)


오늘은 알라딘 서점 링크! ㅋㅋ


 

 



이전에 공부한 내용들

통계학 & R 프로그램 스터디 1일차 - 100일 프로젝트 및 책 소개 <이토록 쉬운 통계 & R>

통계학 & R 프로그램 스터디 2일차 - 데이터의 구성, 데이터와 데이터의 공간 <이토록 쉬운 통계 & R>

통계학 & R 프로그램 스터디 3일차 - 데이터의 표현 <이토록 쉬운 통계 & R>

반응형

댓글