본문 바로가기
개인 공부/통계 & R

통계학 & R 프로그램 스터디 2일차 - 데이터의 구성, 데이터와 데이터의 공간 <이토록 쉬운 통계 & R>

by 잇포에듀 2018. 1. 29.
반응형

통계학 & R 프로그램 스터디 2일차 

- 데이터의 구성, 데이터와 데이터의 공간 <이토록 쉬운 통계 & R>



'이토록 쉬운 통계&R' 100일 프로젝트 2일째 날이다. 이전에는 100일 프로젝트가 무엇이고, <이토록 쉬운 통계 & R>이 어떤 책인지를 간략히 소개했다. ( 통계학 & R 프로그램 스터디 1일차 - 100일 프로젝트 및 책 소개 <이토록 쉬운 통계 & R> ) 오늘은 본격적으로 스터디를 시작한 첫 날이다. 데이터의 구성 / 데이터와 데이터의 공간에 대해서 스터디를 진행했다.


 


데이터의 구성

먼저 아래의 표를 살펴보자. 이름, 성별, 몸무게라는 3가지 관점으로 5명을 관찰하여 표를 정리했다.

이 표를 보면 세 번째 열(세로줄)은 몸무게라는 이름으로 5개의 칸(행)이 있다. 몸무게라는 고정된 관점으로 보면 5명은 서로 다른 값을 갖는다. (물론 표본에 따라 같은 값을 가질 수도 있겠지만, 이 표에 정리된 데이터를 보면 그렇다는 이야기다.) 


이 때 각각의 열을 변수 variable라고 부른다.



<출처 : 이토록 쉬운 통계 & R, 22쪽>


데이터를 만들기 위해서는 먼저 관측의 단위 unit를 결정하고 변수를 정해야 한다. 이 경우는 단위는 '사람'이고 변수는 '이름', '성별', '몸무게'로 정했다.


그리고 행(가로줄)에는 각각의 관측 대상에 대해 변수별로 측정된 값이 입력되기 때문에 흔히 행을 관측치 혹은 관측 개체 Observation 라고 한다.


 


데이터와 데이터 공간

앞의 표를 다시 보자. 앞의 표의 데이터를 가로축과 세로축이 있는 2차원 공간에 점으로 표시하면 아래 그림과 같이 표현할 수 있다.


<출처 : 이토록 쉬운 통계 & R, 23쪽>


가로축은 몸무게, 세로축은 성별로 나누어져 있다. 그리고 축 위에는 자신이 가진 값에 맞게 자리를 잡고 있는 관측치들을 볼 수 있다. 이렇게 데이터는 하나의 공간으로 표현할 수 있다.


성별, 몸무게와 같은 변수가 하나씩 늘어나면 공간의 차원도 하나씩 늘어난다. 하지만 관측치는 아무리 늘어나도 변수가 만들어낸 공간 안에서만 존재하기 때문에 공간의 크기에는 영향을 미치지 않는다. 다시 말해 위의 그림에서 성별, 몸무게, 이름을 동시에 표현하기 위해서는 3차원 공간의 좌표가 만들어져야 한다. 공간의 차원이 늘어났다. 하지만 조사한 사람의 수가 5명에서 10명으로 두 배가 늘어난다해도 표시된 점의 갯수가 5개에서 10개로 늘어날 뿐 공간 자체의 크기는 변함이 없다.


결국 데이터 분석변수들이 만들어 내는 공간의 특징을 설명하고 그 속에 점처럼 흩어져 있는 관측치의 패턴을 찾는 과정이라고 표현할 수 있다.




100개의 변수와 100만 개의 관측치가 있는 상황을 가정해보자. 100차원 공간 안에 100만 개의 점이 흩어져 있다고 생각할 수 있다. 이 복잡한 모양을 직접 분석하기에는 불가능한 상황이기 때문에 적절히 쪼개서 살펴봐야 한다. 여기에는 두 가지 방법이 있다.


하나. 모든 관측치가 아니라 몇 개의 관측치만 선택해서 점의 수를 줄인다.

둘. 모든 변수가 아닌 한두 개의 변수만 선택해서 1, 2차원 공간을 여러 번 설명한다.


어느 쪽이 합리적일까?


<출처 : 이토록 쉬운 통계 & R, 24쪽>



사실 통계는 한 사람의 이야기에는 관심이 없다. 한 사람의 여러 특징을 설명하는 것을 흔히 프로필 혹은 프로파일 profile이라고 부른다. 그러나 이 방법으로는 어떠한 차이도 확이할 수도 설명할 수도 없다. 게다가 100차원이라는 광활한 공간에 찍한 단 하나의 점을 설명한다는 것은......


통계는 많은 사람이 만들어내는 패턴, 큰 그림에서 의미를 찾아낸다!!


데이터 분석은 데이터를 변수 단위로 나눠서 분석하거나 변수 관계를 살펴보는 것으로 시작된다.


 

 




반응형

댓글