본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 13일차 :: 먹고 싶은 거 먹어, 난 짜장 :: 범주형 변수, 파이 차트, 막대그래프 <이토록 쉬운 통계 & R>

by 잇포에듀 2018. 2. 13.
반응형

통계학 & R 프로그램 스터디 13일차 

- 먹고 싶은 거 먹어, 난 짜장

- 범주형 변수, 파이 차트, 막대그래프 <이토록 쉬운 통계 & R>




 



예전에 3일차 스터디를 진행할 때 ( 통계학 & R 프로그램 스터디 3일차 - 데이터의 표현 <이토록 쉬운 통계 & R> ) 변수의 종류에 따라서 확인할 수 있는 차이도 다르고, 계산할 수 있는 기술 통계량도 다르다는 언급을 했었다. 연속형 변수와 범주형 변수에 대해 간단히 설명하자면 아래와 같다.


  • 연속형 변수 : 몸무게처럼 값이 한없이 다양한 변수. 순서를 정하거나 값들을 더해서 통계량을 계산한다.
  • 범주형 변수 : 성별처럼 관측치들이 정해진 몇 개의 값 중에서 하나를 가지는 변수, 값이 같은 관측치들을 묶어 개수를 센다.


연속형 변수는 다양한 값을 가질 수 있으나 범주형 변수는 정해진 값 중에서 하나를 선택해야 한다.


예를 들어, 짜장면, 짬뽕, 혹은 볶음밥 중에서 하나를 선택할 수 있지 그 중간에 있는 값은 없습니다. 


에이~ 짬짜면이 있잖아? 이게 중간값 아냐?


<출처 : 인터넷 어딘가에서...>



지금 그런 이야기를 하는게 아니잖아!!! ㅋ


아무튼 짜장면, 짬뽕, 볶음밥 같이 범주형 변수가 가질 수 있는 한정적인 값들을 수준 Levels 이라고 한다. (짬짜면도 수준의 하나겠죠!)


데이터를 분석할 때 분석가 입장에서는 범주형 변수의 분석은 편하다. $n$개의 관측치가 모두 값이 다른(물론 같을 수도 있겠지만) 연속형 변수는 줄을 세워 다섯 숫자를 찾고 평균이나 표준편차를 계산하여 분석하지만, 범주형 변수는 수준별로 몇 개의 관측치가 있는지 세기만 하면 된다.


예를 들어 성별의 경우 남성, 여성이 각각 몇 명인지 세면 성별 분포를 바로 확인 할 수 있다. 이를 계수 Counting 라고 한다. (방정식의 계수 Coefficient 아니에요!!)




동전 던지기

동전을 던져보자. 관측할 수 있는 변수는 단 두가지 "앞" 또는 "뒤"가 나올 수 밖에 없다. 동전이 서거나, 공중에 떠 있거나 그렇지 않는다면...


동전을 10번 던졌다고 가정해보자. 10개의 관측치를 기록해보니 앞면이 6개, 뒷면이 4개가 나왔다면 간단하게 표로 아래와 같이 정리할 수 있다.


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 60쪽>


지금은 수준이 "앞"과 "뒤" 2개밖에 없어서 숫자만 살펴봐도 변수를 파악할 수 있지만, 거주지역이나 연령대처럼 범주형 변수의 수준 개수가 많아지만 숫자만으로는 한 눈에 파악하기 어렵다. 그래서 직관적으로 받아들일 수 있는 그림, 그래프를 활용하는 것이 좋다.



 



파이 차트

파이 차트 Pie Chart는 수준들이 원 모양의 파이 하나를 두고 각각의 비중에 따라 조각을 나눠 갖는다. 중심각의 크기로 전체 중에서 각 수준의 비중이 얼마만큼인지를 표현하는 것이다. 


<출처 : 이토록 쉬운 통계 & R, 루비페이퍼, 61쪽>



막대그래프

막대그래프 Barplot는 수준별로 관측치의 수만큼 막대를 높이 쌓아서 표현한다. 막대가 높을 수록 많은 관측치가 있다는 의미이다.


그런데 궁금한 점! 막대그래프와 히스토그램이 어떻게 다른 것일까?

  • 히스토그램은 가로축에 연속형 변수가 들어와서 적절한 구간으로 나누는 중간 과정이 있어서 구간을 어떻게 나누느냐에 따라 모양이 달라질 수 있다.
  • 막대그래프는 가로축에 범주형 변수가 들어와서 구간을 나눌 필요가 없다.



보통 수준의 수가 늘어나면 파이 차트보다는 막대그래프가 한눈에 결과를 확인하기에 더 편리하다. 막대그래프는 수준이 늘어나면 막대만 추가하면 되지만, 파이 차트는 전체 각도 360도를 중심각을 잘게 쪼개기 때문에 데이터를 한눈에 보기 어렵다. 


아래의 두 그래프를 비교해보시라!



왼쪽의 파이 차트는 깔끔하게 보이긴 하지만, 각 수준끼리 비교하기가 어렵다. 반면에 오른쪽 막대그래프는 각 수준별로 크기의 차이를 비교하기가 쉽다. 이처럼 비중의 차이가 크게 없을 때에는 수준 간의 차이를 비교하기에 막대그래프가 편한 점이 있다.



사이트 도구로 만들어본 IT4EDU 사이트

블로그 소식을 한 눈에!


http://sites.google.com/view/it4edu



 

 




반응형

댓글