본문 바로가기
반응형

R17

통계학 & R 프로그램 스터디 7일차 - 더치페이와 N빵(1) :: 평균, 분산, 표준편차 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 7일차 - 더치페이와 N빵(1) :: 평균, 분산, 표준편차 드디어! 통계의 기본 중에 기본인 평균, 분산, 표준편차에 대한 이야기가 시작된다. 평균, 분산, 표준편차에 대한 기본 개념과 정의에 대해서 간략하게 정리해보자. 평균 어떤 변수의 합계가 고정되어 있을 때, 모든 관측치가 똑같이 나눠 가질 수 있는 값을 평균 Mean 이라고 한다. 변수 $x$의 평균은 모든 관측치의 값을 다 더한 다음 관측치의 개수 $n$으로 나눠 계산한다. $$\overline{x} = \frac{\sum_{i = 1}^{n}x_i}{n} = \frac{1}{n}\sum_{i=1}^{n}x_i$$ 분산 분산 Variance은 평균에서 떨어져 있는 거리를 숫자로 계산하기 위한 여러 가지 시도들 중.. 2018. 2. 3.
통계학 & R 프로그램 스터디 6일차 - 순서대로 한줄서기(3) 엑셀, 스프레드시트를 활용하여 복습하기 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 6일차 - 순서대로 한줄서기(3) 엑셀,스프레드시트를 활용하여 복습하기 오늘 스터디는 약간의 쉬어가기 단계이다. 교과 외(?) 과정으로 지금까지 학습했던 내용들을 구글 시트(스프레드시트, 엑셀)를 활용하여 복습할 예정이다. 엑셀에서 활용할 수 있는 몇 가지 함수들을 개인적으로 찾아서 정리하는 정도로 생각하면 될 듯하다. 통계 스터디에 관련한 내용이므로 구글 시트 Google Sheet 나 엑셀 Microsoft Excel 의 기술적인 사용법을 다루지는 않을 예정이다. 사분위수와 관련된 여러 함수들 사분위수를 다루기 위해서는 최솟값(0%), Q1(25%), 중앙값(50%), Q3(75%), 최댓값(100%), 이렇게 총 5개의 값들을 찾아야 한다. 데이터가 몇 개 되지 않을 .. 2018. 2. 2.
통계학 & R 프로그램 스터디 5일차 - 순서대로 한줄서기(2) 히스토그램 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 5일차 - 순서대로 한줄서기(2) 히스토그램 4일차 스터디에서는 순서대로 한줄서기를 통해 사분위수 Quartile 와 다섯 숫자 요약 Five number summary, 그리고 상자 그림 Boxplot 에 대해서 공부했다. 많은 데이터들의 패턴을 한눈에 파악하는 방법으로 상자 그림도 유용하다. 하지만 패턴 파악에 아주 좋은 방법을 이미 어릴적에 학교에 다닐 때 배운 적이 있다. 그것은 바로 히스토그램 Histogram!!! 지난 스터디때 사용했던 가상의 연습생 점수표를 다시 가져왔다. 이 데이터를 바탕으로 히스토그램을 그려보자. 히스토그램을 그리기 위해 구간을 나누고 각 구간에 포함되는 관측치의 개수를 세어 도수분포표 Frequency distribution table 를.. 2018. 2. 1.
통계학 & R 프로그램 스터디 4일차 - 순서대로 한줄서기(1) 사분위수, 상자그림 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 4일차 - 순서대로 한줄서기(1) 사분위수, 상자그림 아이돌 서바이벌 프로그램 이라는 프로그램이 있다. 101명의 연습생이 경쟁하고, 시청자 투표를 통해 선정된 11명이 프로젝트 그룹으로 데뷔하기도 했다. (사실 솔직히 난 한 번도 본적이 없다....경쟁 프로그램 자체를 별로 좋아하지 않는다...) 아마도 101명의 연습생들이 다양한 미션(?)을 수행하고, 점수를 매겨서 점수 순서대로 11명을 뽑았겠지. 결국 줄 세우기.... 정렬과 순서 통계량 여기 10개의 숫자들을 가정해보자. $$4~~~5~~~3~~~8~~~9~~~7~~~0~~~1~~~2~~~6$$ 작은 숫자부터 오름 차순으로 줄을 세워보면 다음과 같다. $$0~~~1~~~2~~~3~~~4~~~5~~~6~~~7~~~8.. 2018. 1. 31.
통계학 & R 프로그램 스터디 3일차 - 데이터의 표현 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 3일차 - 데이터의 표현 데이터를 분석하기 위해서 통계는 우리가 가진 데이터로 적당한 계산을 하고 값을 만들어 낸다. 이론적인 배경을 이해하기 위해서 간단한 수식들을 설명할 예정이다. 이해를 돕기 위해 수식에 대한 몇 가지 약속을 다음과 같이 정한다. 변수의 개수 $p$, 관측치의 개수 $n$ 데이터의 크기는 변수와 관측치의 개수로 결정된다. 일반적으로 데이터에서 변수의 개수를 알파벳 $p$, 관측치의 개수를 알파벳 $n$으로 표현한다. 이전에 나왔던 예시를 바탕으로 내 식대로 이해를 해 본다면, 앞의 표는 변수가 3개 (이름, 성별 몸무게), 관측치의 개수는 5개 (A, B, C, D, E)이다. 따라서 $$p = 3$$ $$n = 5$$ 라고 할 수 있겠다. 데이터의 크.. 2018. 1. 30.
반응형