본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 3일차 - 데이터의 표현 <이토록 쉬운 통계 & R>

by 잇포에듀 2018. 1. 30.
반응형

통계학 & R 프로그램 스터디 3일차 

- 데이터의 표현 <이토록 쉬운 통계 & R>





데이터를 분석하기 위해서 통계는 우리가 가진 데이터로 적당한 계산을 하고 값을 만들어 낸다. 이론적인 배경을 이해하기 위해서 간단한 수식들을 설명할 예정이다. 이해를 돕기 위해 수식에 대한 몇 가지 약속을 다음과 같이 정한다.


 



변수의 개수 $p$, 관측치의 개수 $n$

데이터의 크기는 변수와 관측치의 개수로 결정된다. 일반적으로 데이터에서 변수의 개수를 알파벳 $p$, 관측치의 개수를 알파벳 $n$으로 표현한다.


<출처 : 이토록 쉬운 통계 & R, 22쪽>


이전에 나왔던 예시를 바탕으로 내 식대로 이해를 해 본다면, 앞의 표는 변수가 3개 (이름, 성별 몸무게), 관측치의 개수는 5개 (A, B, C, D, E)이다. 따라서

$$p = 3$$

$$n = 5$$

라고 할 수 있겠다.



데이터의 크기 $n \times p$

데이터의 크기는

$$n \times p$$

로 표현한다. 곱하기 기호를 사용하지만, 실제로 곱하지는 않는다. (값을 구하는 것이 목적이 아니다!) 그럼 일반적으로 데이터는 $p$차원 속에 $n$개의 점이 있다고 할 수 있다.


위의 예시로는

$$5 \times 3$$

이라고 표현을 할 수 있겠다. 맞겠지? 벌써 헷갈린다....


 


변수 $x$

데이터 분석은 변수 $p$개가 아니라 변수 1개부터 시작된다. 매번 그 변수를 '그 변수'라고 지칭할 수는 없으니 알파벳 $x$라고 표현한다. 혹시라도 변수가 한 가지 더 필요하다면 $y$를 사용한다. 그 다음엔...? 


다시 말해 $p$는 변수의 개수를 의미하고 $x$는 $p$개의 변수들 중에 어느 한 가지 자체를 의미한다.


관측치, 아래 첨자 알파벳

하나의 변수 속에는 무려 $n$개의 관측치가 있다. 다시 말해 이 $n$개의 관측치는 모두 같은 변수 $x$에 대한 관측치이다. 따라서 관측치는 변수와 같은 알파벳으로 표현하고 아래 첨자로 몇 번때 관측치인지를 표현한다.


예를 들어 변수 $x$의 $i$번 째 관측치는 $x_i$로 적는다. $x_1$은 $x$의 첫 번째 관측치, $x_n$은 $x$의 마지막($n$ 번째) 관측치를 의미한다.


$$x = \begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ \vdots \\ x_{n-1} \\ x_{n} \end{bmatrix}$$


$n$개의 관측치가 세로로 길게 늘어서 변수 $x$가 된다. (세로로 길게 늘어뜨린건 각각의 관측치가 행을 구성하기 때문인 듯...)


만약 $x$와 $y$, 두 개의 변수로 이루어진 데이터는 어떻게 표현할 수 있을까?


$$[xy] = \begin{bmatrix} x_1 & y_1 \\ x_2 & y_2 \\ x_3 & y_3 \\ \vdots & \vdots \\ x_{n-1} & y_{n-1} \\ x_{n} & y_{n} \end{bmatrix}$$


원리를 알면 간단하죠?




합계, $\Sigma$ (시그마, sigma)

데이터 분석을 위한 계산에는 합계 summation가 자주 등장한다. 기본적으로 평균을 구하기 위해서도 일단 모든 값을 더해야 한다.

변수 $x$의 $n$개 관측치를 모두 합하는 것은 $x_i$와 더하기 기호 $+$를 활용해 다음과 같이 표현할 수 있다.


$$x_1 + x_2 + x_3 + \cdots + x_{n-1} + x_{n}$$


이렇게 표현할 수도 있지만, 귀찮다. 그래서 간단한 기호를 고안해냈다. 그것은 Summation의 첫 글자 S에 해당하는 그리스어 대문자 $\Sigma$ 시그마를 가져와 다음과 같이 표현했다.


$$\sum_{i=1}^{n}x_i$$



통계에서 이 정도 기호들은 기본적으로 이해해야 한다. 하다 못해 평균을 구하기 위해서도 이 기호들은 아주 기본적인 것들이다!!



기술 통계량과 변수 요약

통계에서는 변수의 특징을 설명하기 위해 한 줄(열)의 데이터에 다양한 연산을 사용해 계산을 한다. 이 계산된 숫자들을 통계량 Statistic 이라고 부른다. (평균, 분산 이런 것들을 말하는 듯!!)


특히 데이터의 특징을 설명하는 통계량을 기술 통계량 Descriptive statistics 이라고 한다. (역시 평균, 분산 이런 것들을 말하는 듯!)


우리가 알고 있는 기술 통계량은? 평균, 최솟값, 최댓값, 중앙값, 분산 등이 모두 대표적인 기술 통계량이다.


평균, 최솟값, 최댓값, 중앙값, 분산 등은 현재 중학교 2학년 때 배운다. 중학교 2학년 교과서에 소개된 중앙값, 최빈값의 정의를 적어보면 다음과 같다.


  • 중앙값 : 주어진 변량 중 매우 크거나 매우 작은 값이 있는 경우에 평균은 그 극단적인 값의 영향 을 많이 받는다. 이와 같은 경우에는 변량을 작은 값부터 크기순으로 나열하였을 때, 한가 운데 있는 값이 평균보다 그 자료 전체의 중심적인 경향을 더 잘 나타낼 수 있다. 이 값을 중앙값이라고 한다. 자료의 개수가 홀수인 경우에는 변량을 작은 값 부터 크기순으로 나열하여 한가운데에 있는 값을 중앙값으로 선택한다. 자료의 개수가 짝수인 경우 에는 변량을 작은 값부터 크기순으로 나열하면 한 가운데에 있는 값이 두 개이므로 이 두 값의 평균을 중앙값으로 한다
  • 최빈값 : 변량 중 가장 많이 나타나는 값을 대푯값으로 해야 하는 경우가 있다. 이때 이 값을 최빈값이라고 한다. 

평균, 분산 등은 이후에 자세히 다룬다.



변수의 종류에 따라서 확인할 수 있는 차이도 다르고, 계산할 수 있는 기술 통계량도 다르다.


  • 연속형 변수 : 몸무게처럼 값이 한없이 다양한 변수. 순서를 정하거나 값들을 더해서 통계량을 계산한다.
  • 범주형 변수 : 성별처럼 관측치들이 정해진 몇 개의 값 중에서 하나를 가지는 변수, 값이 같은 관측치들을 묶어 개수를 센다.



 

 



이전에 공부한 내용들

통계학 & R 프로그램 스터디 1일차 - 100일 프로젝트 및 책 소개 <이토록 쉬운 통계 & R>

통계학 & R 프로그램 스터디 2일차 - 데이터의 구성, 데이터와 데이터의 공간 <이토록 쉬운 통계 & R>

반응형

댓글