본문 바로가기
Programming/R

[R 데이터분석 기초] 상자 그림 그리기 boxplot | 평균값, 최댓값, 최솟값, 중앙값, 사분위수 의미

by 잇포에듀 2022. 7. 31.
반응형

상자 그림(boxplot)은 데이터의 분포를 비교하거나 이상치(outlier)를 판단할 때 주로 사용하는 그래프입니다.

 

상자 그림은 다음과 같이 5가지 항목을 시각화한 요약 정보를 제공합니다.

 

상자 그림 (출처 : 혼자공부하는 R 데이터분석)

 

극단값(최댓값과 최솟값), 제3사분위수, 평균값, 중앙값, 제1사분위수로 구성됩니다. 각 항목은 어떤 의미를 가지고 있는지 알아봅시다.

 


상자 그림 그리기

R에서 상자 그림은 boxplot() 함수로 그립니다.

 

boxplot(변수명)

 

boxplot() 함수의 옵션

  • ylim : y축의 범위
  • names : 변수에 이름 붙이기
  • col : 색상
# boxplot 예시

boxplot(데이터1, 데이터2,
          ylim = c(0, 60),
          main = "boxplot",
          names = c("21년건수", "20년건수"),
          col = c("green", "yellow"))

 

 

 

 

 

상자 그림의 5가지 항목

상자 그림에는 극단값(최댓값과 최솟값), 제3사분위수, 중앙값, 제1사분위수이 표현됩니다. 각각의 항목은 어떤 의미를 가지고 있는지 간단히 살펴보겠습니다.

 

 

최댓값과 최솟값

데이터를 순서대로 정렬했을 때 가장 작은 값을 최솟값, 가장 큰 값을 최댓값이라고 합니다. 보통 이상치를 판단하기 위해 최솟값과 최댓값을 확인합니다.

 

최솟값을 구할 때는 min() 함수를 사용합니다.

 

min(변수명)

 

최댓값을 구할 때는 max() 함수를 사용합니다.

 

max(최댓값)

 

평균값

(산술)평균은 데이터를 모두 더한 후 개수로 나눈 값입니다.

 

$$\mu = {{\Sigma x}\over{n}}$$

 

평균은 mean() 함수로 구합니다.

 

mean(변수명)

 


 

중앙값

중앙값은 데이터를 크기 순으로 정렬했을 때 가운데 있는 값입니다. 데이터의 개수가 짝수이면 가운데에 있는 2개의 값을 더해 2로 나누어 구합니다.

 

중앙값은 median() 함수로 구합니다.

 

median(변수명)

 


 

분위수

분위수(quantile)는 전체 데이터를 크기 순으로 정렬하여 n개로 나누었을 때 그 경계에 해당하는 값으로 데이터를 4등분 한 지점의 관측값을 사분위수(quartile)라고 합니다. 

 

  • 제1사분위수(Q1): 제0.25분위수, 하위 25%에 해당하는 값. 하한 사분위수(lower quartile)라고도 함.
  • 제2사분위수(Q2): 제0.50분위수, 50%에 해당하는 값. 중앙값(median)에 해당함.
  • 제3사분위수(Q3): 제0.75분위수, 하위 75% 혹은 상위 25%에 해당하는 값. 상한 사분위수(upper quartile)라고도 함.
  • 제4사분위수(Q4): 제1분위수, 100%에 해당하는 값.

 

참고로 제3사분위수와 제1사분위수 사이의 범위를 사분범위(IQR, interquartile range)라고 합니다. 

 

사분범위 IQR = 상한 사분위수 Q3 - 하한 사분위수 Q1 

 

분위수는 qunatile() 함수로 구합니다. probs 옵션을 지정하여 제1사분위수, 제2사분위수, 제3사분위수를 출력합니다.

 

quantile(변수명, probs = 0 ~ 1)

 

probs 값이 0.25이면 제1사분위수, 0.5이면 제2사분위수, 0.75이면 제3사분위수이고 그 외에도 0~1 사이의 값으로 위치를 지정할 수 있습니다.

 

 

위키피디아(https://en.wikipedia.org/wiki/Box_plot)에서 가져온 이미지입니다. 상자그림과 표준정규분포($\mu = 0$, $\sigma^2 = 1$) 그래프를 비교해볼 수 있습니다. 


참고

이 포스팅은 아래의 두 책을 참고하였습니다.

 

혼자 공부하는 R 데이터 분석 - YES24

혼자 해도 충분하다! 1:1 과외하듯 배우는 R 데이터 분석 자습서이 책은 독학으로 R 데이터 분석을 배우는 입문자가 ‘꼭 필요한 내용을 제대로’ 학습할 수 있도록 구성했다. ‘무엇을’, ‘어떻

www.yes24.com

 

 

Head First Statistics - YES24

고3의 수능 백분율, 주식 투자자의 등락폭, 쇼핑몰 방문자의 구매 연령 비교 등 실생활에서 굉장히 자주 데이터를 접하고 분석한다. 더군다나 근래는 클라우드 환경이 구축됨에 따라 빅데이터를

www.yes24.com

 

 

반응형

댓글