본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 5일차 - 순서대로 한줄서기(2) 히스토그램 <이토록 쉬운 통계 & R>

by 잇포에듀 2018. 2. 1.
반응형

통계학 & R 프로그램 스터디 5일차 

- 순서대로 한줄서기(2) 히스토그램 <이토록 쉬운 통계 & R>




4일차 스터디에서는 순서대로 한줄서기를 통해 사분위수 Quartile 와 다섯 숫자 요약 Five number summary, 그리고 상자 그림 Boxplot 에 대해서 공부했다.


 



많은 데이터들의 패턴을 한눈에 파악하는 방법으로 상자 그림도 유용하다. 하지만 패턴 파악에 아주 좋은 방법을 이미 어릴적에 학교에 다닐 때 배운 적이 있다. 그것은 바로 히스토그램 Histogram!!!




<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 32쪽>


지난 스터디때 사용했던 가상의 연습생 점수표를 다시 가져왔다. 이 데이터를 바탕으로 히스토그램을 그려보자.


히스토그램을 그리기 위해 구간을 나누고 각 구간에 포함되는 관측치의 개수를 세어 도수분포표 Frequency distribution table 를 만들었다. 아래 예시는 점수의 각 구간의 간격을 10점으로 해서 총 5개의 구간이 만들어졌다.


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 37쪽>


이렇게 작성된 도수분포표를 바탕으로 히스토그램을 그리면 아래의 그림과 같다.


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 37쪽>


히스토그램의 각 구간의 넓이가 너무 넓다보니 전체적인 분포가 잘 눈에 들어오지 않는다. 그래서 구간을 좁혀서 구간의 갯수를 늘려보았다. 각 구간의 크기를 10에서 5로 줄였더니(구간의 개수가 5개에서 10개로 늘었다) 아래와 같이 분포가 만들어졌다.


아무래도 이전의 히스토그램보다는 분포의 패턴이 조금 더 선명하게 보인다.


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 38쪽>


 


히스토그램과 상자그림의 비교

히스토그램

  • 변수를 같은 길이로 여러 구간을 나눠 각 구간에 몇 개의 관측치가 있는지 관측치의 비율을 살펴보는 방법
  • 구간을 잘 나누면 패턴을 자세히 살펴볼 수 있다.
  • 5개보다 훨씬 많은 값을 확인해야 할 수도 있다.
  • 하나의 변수에 대해서 좀 더 자세히 살펴볼 때 유용하다.

상자그림

  • 관측치를 같은 비율로 나누는 지점을 계산해서 각 구간의 간격을 살펴보는 방법
  • 어떤 연속형 변수든 5개의 값으로 표현할 수 있다.
  • 세부적인 패턴은 놓칠 수 있다.
  • 간단하고 빠른 분석을 하거나 그룹에 따른 차이를 확인하기에 좋다.


* 참고로 도수분포표, 히스토그램에 대한 내용은 현재 중학교 1학년 때 배운다.



사족이라기 보다는 옛날 생각...

대학원 시절 입자물리를 공부할 때 히스토그램을 참 많이도 그렸었다. 가상의 이벤트를 만들고 각 데이터들을 모아 히스토그램에 잔뜩 담아두어 분석을 하는 것이 기본적인 원리이다.



위의 세 그림은 얼핏 보면 보통의(?) 그래프 같지만 사실은 히스토그램이다. 어떤 특정 입자 30만개의 질량, 에너지, 운동량을 측정해서 히스토그램으로 담아 그린 그림들이다.


뭐.. 다른 이유는 없고... 히스토그램 이야기를 정리하다보니 옛 추억(?)이 떠올라서....ㅎㅎ


사이트 도구로 만들어본 IT4EDU 사이트

블로그 소식을 한 눈에!


http://sites.google.com/view/it4edu



 

 



이전에 공부한 내용들

반응형

댓글