본문 바로가기
통계학 & R 프로그램 스터디 17일차 ::부전자전, 유전 연결고리 :: 산점도란 무엇인가? <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 17일차 - 부전자전, 유전 연결고리 - 산점도란 무엇인가? 키 작은 엄마와 키가 큰 아들이 나란이 서 있다. 우리는 자연스럽게 '아빠가 키가 크겠구나'라고 생각한다. 칼 피어슨 Karl Pearson이라는 통계학자는 이와 같은 것들이 얼마나 영향을 주는지에 대한 연구를 진행하기도 했다. * 칼 피어슨 : 영국의 수리통계학자·우생학자. 인류의 유전에 관한 통계적 분석, 두개(頭蓋)의 계측(計測), 결핵의 통계 등으로 유명하다. 피어슨파 수리통계학의 창시자, 생물통계학의 선구자로 알려져 있으며 과학비평가로서도 이름이 높다. 산점도 아빠 키와 아들 키의 관계를 확인하기 위해서는 데이터가 필요하다. '아빠 키', '아들 키'라는 변수가 있어야 한다. 예를 들어 아래 그림과 같이 .. 2018. 3. 29.
통계학 & R 프로그램 스터디 14일차 ::0.000012%의 꿈, 로또(1) :: 로또 당첨 확률 구하기 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 14일차 - 0.000012%의 꿈, 로또, - 로또 당첨 확률 구하기 로또 당첨 확률 로또 당첨 확률을 구하려면 먼저 45개의 숫자 중 6개를 뽑는 방법의 가짓수를 구해야 한다. 고등학교 통계 시간에 배운 조합 Combination을 써보면 다음과 같이 구할 수 있다. $${}_{45}{\rm C}_{6} = \frac{45 \times 44 \times 43 \times 42 \times 41 \times 40}{6 \times 5 \times 4 \times 3 \times 2 \times 1} = 8,145,060$$ 8,145,060개의 번호 중에서 곡 하나는 당첨 번호가 나오므로 내가 산 복권이 당첨될 가능성은 $$\frac{1}{8,145,060} \sim 0... 2018. 2. 13.
통계학 & R 프로그램 스터디 11일차 :: 물수능과 불수능 :: 표준화(2) - 척도화 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 11일차 - 물수능과 불수능 :: 표준화(2) - 척도화 지난번에는 데이터의 표준화의 첫단계인 중심화 Centering에 대해서 스터디를 했다. (통계학 & R 프로그램 스터디 10일차 :: 물수능과 불수능 :: 표준화(1) - 중심화 ) 오늘은 그에 이어서 척도화 Scaling에 대해 스터디를 진행할 예정이다. 오늘은 지난 번과 조금 다른 예를 가지고 왔다. 원래 점수 $$6, 10, 15, 18, 19, 22$$ 에 2배를 해서 새로운 변수 $y$를 만들었다. $$12, 20, 30, 36, 38, 44$$ 이전 과정을 복습할 겸 중심화를 해보자. 먼저 평균을 구해보면 $$m = \frac{12 + 20 + 30 + 36 + 38 + 44}{6} = 30$$ 30인 것을.. 2018. 2. 8.
통계학 & R 프로그램 스터디 9일차 - 분산 n으로 나눌까? n-1로 나눌까? <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 9일차 - 더치페이와 N빵(3) :: 분산!! n으로 나눌까? n-1로 나눌까? 통계 관련된 책들을 보면 어떤 책은 분산을 $n$으로 나눠서 계산을 하고 어떤 책은 $n-1$로 나눠서 계산한다. 도대체 뭐가 맞는 걸까? 이것은 무엇이 맞고 틀리냐의 문제가 아니다. 분산을 계산하는 샘플을 무엇으로 선택하느냐에 따라 차이가 생긴다. 모집단 전체로 분산을 구하느냐? 임의로 추출한 표본집단으로 분산을 구하느냐?에 따라 계산 방법이 달라진다. 그렇다면 왜 두 경우에 계산 방법이 달라질까? * 수식 압박에 주의하세요..ㅎㅎ TeX이 변환되는 데 시간이 조금 걸릴 수 있습니다. 조금만 기다려주세요~~ 모집단에서 크기가 $n$인 표본 $X_1$, $X_2$, $\cdots$, $X_n$을.. 2018. 2. 6.
통계학 & R 프로그램 스터디 7일차 - 더치페이와 N빵(1) :: 평균, 분산, 표준편차 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 7일차 - 더치페이와 N빵(1) :: 평균, 분산, 표준편차 드디어! 통계의 기본 중에 기본인 평균, 분산, 표준편차에 대한 이야기가 시작된다. 평균, 분산, 표준편차에 대한 기본 개념과 정의에 대해서 간략하게 정리해보자. 평균 어떤 변수의 합계가 고정되어 있을 때, 모든 관측치가 똑같이 나눠 가질 수 있는 값을 평균 Mean 이라고 한다. 변수 $x$의 평균은 모든 관측치의 값을 다 더한 다음 관측치의 개수 $n$으로 나눠 계산한다. $$\overline{x} = \frac{\sum_{i = 1}^{n}x_i}{n} = \frac{1}{n}\sum_{i=1}^{n}x_i$$ 분산 분산 Variance은 평균에서 떨어져 있는 거리를 숫자로 계산하기 위한 여러 가지 시도들 중.. 2018. 2. 3.
통계학 & R 프로그램 스터디 5일차 - 순서대로 한줄서기(2) 히스토그램 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 5일차 - 순서대로 한줄서기(2) 히스토그램 4일차 스터디에서는 순서대로 한줄서기를 통해 사분위수 Quartile 와 다섯 숫자 요약 Five number summary, 그리고 상자 그림 Boxplot 에 대해서 공부했다. 많은 데이터들의 패턴을 한눈에 파악하는 방법으로 상자 그림도 유용하다. 하지만 패턴 파악에 아주 좋은 방법을 이미 어릴적에 학교에 다닐 때 배운 적이 있다. 그것은 바로 히스토그램 Histogram!!! 지난 스터디때 사용했던 가상의 연습생 점수표를 다시 가져왔다. 이 데이터를 바탕으로 히스토그램을 그려보자. 히스토그램을 그리기 위해 구간을 나누고 각 구간에 포함되는 관측치의 개수를 세어 도수분포표 Frequency distribution table 를.. 2018. 2. 1.
통계학 & R 프로그램 스터디 4일차 - 순서대로 한줄서기(1) 사분위수, 상자그림 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 4일차 - 순서대로 한줄서기(1) 사분위수, 상자그림 아이돌 서바이벌 프로그램 이라는 프로그램이 있다. 101명의 연습생이 경쟁하고, 시청자 투표를 통해 선정된 11명이 프로젝트 그룹으로 데뷔하기도 했다. (사실 솔직히 난 한 번도 본적이 없다....경쟁 프로그램 자체를 별로 좋아하지 않는다...) 아마도 101명의 연습생들이 다양한 미션(?)을 수행하고, 점수를 매겨서 점수 순서대로 11명을 뽑았겠지. 결국 줄 세우기.... 정렬과 순서 통계량 여기 10개의 숫자들을 가정해보자. $$4~~~5~~~3~~~8~~~9~~~7~~~0~~~1~~~2~~~6$$ 작은 숫자부터 오름 차순으로 줄을 세워보면 다음과 같다. $$0~~~1~~~2~~~3~~~4~~~5~~~6~~~7~~~8.. 2018. 1. 31.
통계학 & R 프로그램 스터디 2일차 - 데이터의 구성, 데이터와 데이터의 공간 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 2일차 - 데이터의 구성, 데이터와 데이터의 공간 '이토록 쉬운 통계&R' 100일 프로젝트 2일째 날이다. 이전에는 100일 프로젝트가 무엇이고, 이 어떤 책인지를 간략히 소개했다. ( 통계학 & R 프로그램 스터디 1일차 - 100일 프로젝트 및 책 소개 ) 오늘은 본격적으로 스터디를 시작한 첫 날이다. 데이터의 구성 / 데이터와 데이터의 공간에 대해서 스터디를 진행했다. 데이터의 구성먼저 아래의 표를 살펴보자. 이름, 성별, 몸무게라는 3가지 관점으로 5명을 관찰하여 표를 정리했다. 이 표를 보면 세 번째 열(세로줄)은 몸무게라는 이름으로 5개의 칸(행)이 있다. 몸무게라는 고정된 관점으로 보면 5명은 서로 다른 값을 갖는다. (물론 표본에 따라 같은 값을 가질 수도 .. 2018. 1. 29.
통계학 & R 프로그램 스터디 1일차 - 100일 프로젝트 및 책 소개 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 1일차 - 100일 프로젝트 및 책 소개 얼마 전 페이스북의 한 그룹에 재미난 이벤트 광고가 게재되었다. '이토록 쉬운 통계&R' 100일 프로젝트 스터디원을 모집합니다. 출판사에서 출판된 따끈따끈한 신작! 출판 기념 이벤트로 함께 스터디할 사람들을 모집한다는 광고였다. 학생들에게 수학을 가르치는 입장에서 그 어떤 것 보다도 통계학 만큼은 제대로 공부하길, 그리고 제대로 공부를 시키길 원한다. 특히 실생활에서 통계를 제대로 이해하고 살아갔으면 하는 바람이다. 따라서 교과서와 개념 위주의 보통 수업을 뛰어 넘어 새로운 수업에 대한 목마름이 크다. 새로운 수업에 대한 아이디어 중에 하나가 컴퓨터를 활용한 수학 수업(Computer Based Mathematics)이다. 통계와 .. 2018. 1. 27.