상자 그림(boxplot)은 데이터의 분포를 비교하거나 이상치(outlier)를 판단할 때 주로 사용하는 그래프입니다.
상자 그림은 다음과 같이 5가지 항목을 시각화한 요약 정보를 제공합니다.
극단값(최댓값과 최솟값), 제3사분위수, 평균값, 중앙값, 제1사분위수로 구성됩니다. 각 항목은 어떤 의미를 가지고 있는지 알아봅시다.
상자 그림 그리기
R에서 상자 그림은 boxplot() 함수로 그립니다.
boxplot(변수명)
boxplot() 함수의 옵션
- ylim : y축의 범위
- names : 변수에 이름 붙이기
- col : 색상
# boxplot 예시
boxplot(데이터1, 데이터2,
ylim = c(0, 60),
main = "boxplot",
names = c("21년건수", "20년건수"),
col = c("green", "yellow"))
상자 그림의 5가지 항목
상자 그림에는 극단값(최댓값과 최솟값), 제3사분위수, 중앙값, 제1사분위수이 표현됩니다. 각각의 항목은 어떤 의미를 가지고 있는지 간단히 살펴보겠습니다.
최댓값과 최솟값
데이터를 순서대로 정렬했을 때 가장 작은 값을 최솟값, 가장 큰 값을 최댓값이라고 합니다. 보통 이상치를 판단하기 위해 최솟값과 최댓값을 확인합니다.
최솟값을 구할 때는 min() 함수를 사용합니다.
min(변수명)
최댓값을 구할 때는 max() 함수를 사용합니다.
max(최댓값)
평균값
(산술)평균은 데이터를 모두 더한 후 개수로 나눈 값입니다.
$$\mu = {{\Sigma x}\over{n}}$$
평균은 mean() 함수로 구합니다.
mean(변수명)
중앙값
중앙값은 데이터를 크기 순으로 정렬했을 때 가운데 있는 값입니다. 데이터의 개수가 짝수이면 가운데에 있는 2개의 값을 더해 2로 나누어 구합니다.
중앙값은 median() 함수로 구합니다.
median(변수명)
분위수
분위수(quantile)는 전체 데이터를 크기 순으로 정렬하여 n개로 나누었을 때 그 경계에 해당하는 값으로 데이터를 4등분 한 지점의 관측값을 사분위수(quartile)라고 합니다.
- 제1사분위수(Q1): 제0.25분위수, 하위 25%에 해당하는 값. 하한 사분위수(lower quartile)라고도 함.
- 제2사분위수(Q2): 제0.50분위수, 50%에 해당하는 값. 중앙값(median)에 해당함.
- 제3사분위수(Q3): 제0.75분위수, 하위 75% 혹은 상위 25%에 해당하는 값. 상한 사분위수(upper quartile)라고도 함.
- 제4사분위수(Q4): 제1분위수, 100%에 해당하는 값.
참고로 제3사분위수와 제1사분위수 사이의 범위를 사분범위(IQR, interquartile range)라고 합니다.
사분범위 IQR = 상한 사분위수 Q3 - 하한 사분위수 Q1
분위수는 qunatile() 함수로 구합니다. probs 옵션을 지정하여 제1사분위수, 제2사분위수, 제3사분위수를 출력합니다.
quantile(변수명, probs = 0 ~ 1)
probs 값이 0.25이면 제1사분위수, 0.5이면 제2사분위수, 0.75이면 제3사분위수이고 그 외에도 0~1 사이의 값으로 위치를 지정할 수 있습니다.
위키피디아(https://en.wikipedia.org/wiki/Box_plot)에서 가져온 이미지입니다. 상자그림과 표준정규분포($\mu = 0$, $\sigma^2 = 1$) 그래프를 비교해볼 수 있습니다.
참고
이 포스팅은 아래의 두 책을 참고하였습니다.
'Programming > R' 카테고리의 다른 글
[R 데이터분석 기초] 데이터의 생김새, 종류, 생성 방법 | 벡터, 행렬, 배열, 리스트, 데이터 프레임 (0) | 2022.07.14 |
---|---|
[R 데이터분석 기초] 데이터 분석을 위한 5단계 과정 순서 (0) | 2022.07.09 |
[R] R 프로그램 개발 환경 설치하기, R 스튜디오 다운로드, 설치 방법 (0) | 2022.07.04 |
댓글