본문 바로가기
통계학 & R 프로그램 스터디 15일차 ::0.000012%의 꿈, 로또(2) :: 확률을 활용한 로또 당첨 번호 예측이 가능할까? <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 15일차 - 0.000012%의 꿈, 로또, - 확률을 활용하여 로또 복권 당첨 번호를 예측할 수 있을까? 확률 모르거나 아직 일어나지 않은 어떤 불확실한 것, 통계에서는 이것을 사건 Event 이라고 부른다.어떤 불확실한 정도를 0부터 1 사이의 숫자로 표현한 것을 확률 Probability 이라고 한다.우리는 이 소수에 100을 곱한 백분율(%)이 더 친근한데 확률 0%는 불가능, 100%는 필연을 의미한다. 고등학교 수학 교과서에서의 표현은? 우리나라 고등학교 수학 교과서에서는 이 용어들을 이렇게 표현하기도 한다. 주사위나 동전을 던지는 것과 같이 같은 조건에서 여러 번 반복할 수 있고, 그 결과가 우연에 의하여 좌우되는 실험이나 관찰을 시행이라고 한다. 그리고 어떤 .. 2018. 2. 14.
통계학 & R 프로그램 스터디 13일차 :: 먹고 싶은 거 먹어, 난 짜장 :: 범주형 변수, 파이 차트, 막대그래프 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 13일차 - 먹고 싶은 거 먹어, 난 짜장 - 범주형 변수, 파이 차트, 막대그래프 예전에 3일차 스터디를 진행할 때 ( 통계학 & R 프로그램 스터디 3일차 - 데이터의 표현 ) 변수의 종류에 따라서 확인할 수 있는 차이도 다르고, 계산할 수 있는 기술 통계량도 다르다는 언급을 했었다. 연속형 변수와 범주형 변수에 대해 간단히 설명하자면 아래와 같다. 연속형 변수 : 몸무게처럼 값이 한없이 다양한 변수. 순서를 정하거나 값들을 더해서 통계량을 계산한다.범주형 변수 : 성별처럼 관측치들이 정해진 몇 개의 값 중에서 하나를 가지는 변수, 값이 같은 관측치들을 묶어 개수를 센다. 연속형 변수는 다양한 값을 가질 수 있으나 범주형 변수는 정해진 값 중에서 하나를 선택해야 한다. .. 2018. 2. 13.
통계학 & R 프로그램 스터디 11일차 :: 물수능과 불수능 :: 표준화(2) - 척도화 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 11일차 - 물수능과 불수능 :: 표준화(2) - 척도화 지난번에는 데이터의 표준화의 첫단계인 중심화 Centering에 대해서 스터디를 했다. (통계학 & R 프로그램 스터디 10일차 :: 물수능과 불수능 :: 표준화(1) - 중심화 ) 오늘은 그에 이어서 척도화 Scaling에 대해 스터디를 진행할 예정이다. 오늘은 지난 번과 조금 다른 예를 가지고 왔다. 원래 점수 $$6, 10, 15, 18, 19, 22$$ 에 2배를 해서 새로운 변수 $y$를 만들었다. $$12, 20, 30, 36, 38, 44$$ 이전 과정을 복습할 겸 중심화를 해보자. 먼저 평균을 구해보면 $$m = \frac{12 + 20 + 30 + 36 + 38 + 44}{6} = 30$$ 30인 것을.. 2018. 2. 8.
통계학 & R 프로그램 스터디 10일차 :: 물수능과 불수능 :: 표준화(1) - 중심화 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 10일차 - 물수능과 불수능 :: 표준화(1) - 중심화 매년 11월이 되면 수능 시험이 치러진다. 그때마다 언론을 통해 수능 시험에 대한 평가(?)가 이뤄지며 이번 수능이 "물수능"이었냐? 아니면 "불수능"이었나?가 초미의 관심사가 된다. 난이도 조절을 실패했느냐, 성공했느냐... 변별력을 위한 시험을 만든다는 것 자체가 참으로 안타까운 일이 아닐 수 없다. 어쨌든 각 시험 마다 이런 유불리가 나타날 수 밖에 없고, 한 시험에서도 선택과목을 무엇을 선택하느냐에 따라 유불리가 더 크게 나타날 수 밖에 없다. 상대적으로 쉽다고 알려진 시험을 봐서 높은 점수를 받는 것과 어렵다고 알려진 시험을 봐서 그보다는 조금 낮은 점수를 받았을 때, 누가 더 잘 한 것인가를 어떻게 판단할 .. 2018. 2. 7.
통계학 & R 프로그램 스터디 9일차 - 분산 n으로 나눌까? n-1로 나눌까? <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 9일차 - 더치페이와 N빵(3) :: 분산!! n으로 나눌까? n-1로 나눌까? 통계 관련된 책들을 보면 어떤 책은 분산을 $n$으로 나눠서 계산을 하고 어떤 책은 $n-1$로 나눠서 계산한다. 도대체 뭐가 맞는 걸까? 이것은 무엇이 맞고 틀리냐의 문제가 아니다. 분산을 계산하는 샘플을 무엇으로 선택하느냐에 따라 차이가 생긴다. 모집단 전체로 분산을 구하느냐? 임의로 추출한 표본집단으로 분산을 구하느냐?에 따라 계산 방법이 달라진다. 그렇다면 왜 두 경우에 계산 방법이 달라질까? * 수식 압박에 주의하세요..ㅎㅎ TeX이 변환되는 데 시간이 조금 걸릴 수 있습니다. 조금만 기다려주세요~~ 모집단에서 크기가 $n$인 표본 $X_1$, $X_2$, $\cdots$, $X_n$을.. 2018. 2. 6.
통계학 & R 프로그램 스터디 6일차 - 순서대로 한줄서기(3) 엑셀, 스프레드시트를 활용하여 복습하기 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 6일차 - 순서대로 한줄서기(3) 엑셀,스프레드시트를 활용하여 복습하기 오늘 스터디는 약간의 쉬어가기 단계이다. 교과 외(?) 과정으로 지금까지 학습했던 내용들을 구글 시트(스프레드시트, 엑셀)를 활용하여 복습할 예정이다. 엑셀에서 활용할 수 있는 몇 가지 함수들을 개인적으로 찾아서 정리하는 정도로 생각하면 될 듯하다. 통계 스터디에 관련한 내용이므로 구글 시트 Google Sheet 나 엑셀 Microsoft Excel 의 기술적인 사용법을 다루지는 않을 예정이다. 사분위수와 관련된 여러 함수들 사분위수를 다루기 위해서는 최솟값(0%), Q1(25%), 중앙값(50%), Q3(75%), 최댓값(100%), 이렇게 총 5개의 값들을 찾아야 한다. 데이터가 몇 개 되지 않을 .. 2018. 2. 2.
통계학 & R 프로그램 스터디 4일차 - 순서대로 한줄서기(1) 사분위수, 상자그림 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 4일차 - 순서대로 한줄서기(1) 사분위수, 상자그림 아이돌 서바이벌 프로그램 이라는 프로그램이 있다. 101명의 연습생이 경쟁하고, 시청자 투표를 통해 선정된 11명이 프로젝트 그룹으로 데뷔하기도 했다. (사실 솔직히 난 한 번도 본적이 없다....경쟁 프로그램 자체를 별로 좋아하지 않는다...) 아마도 101명의 연습생들이 다양한 미션(?)을 수행하고, 점수를 매겨서 점수 순서대로 11명을 뽑았겠지. 결국 줄 세우기.... 정렬과 순서 통계량 여기 10개의 숫자들을 가정해보자. $$4~~~5~~~3~~~8~~~9~~~7~~~0~~~1~~~2~~~6$$ 작은 숫자부터 오름 차순으로 줄을 세워보면 다음과 같다. $$0~~~1~~~2~~~3~~~4~~~5~~~6~~~7~~~8.. 2018. 1. 31.
통계학 & R 프로그램 스터디 1일차 - 100일 프로젝트 및 책 소개 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 1일차 - 100일 프로젝트 및 책 소개 얼마 전 페이스북의 한 그룹에 재미난 이벤트 광고가 게재되었다. '이토록 쉬운 통계&R' 100일 프로젝트 스터디원을 모집합니다. 출판사에서 출판된 따끈따끈한 신작! 출판 기념 이벤트로 함께 스터디할 사람들을 모집한다는 광고였다. 학생들에게 수학을 가르치는 입장에서 그 어떤 것 보다도 통계학 만큼은 제대로 공부하길, 그리고 제대로 공부를 시키길 원한다. 특히 실생활에서 통계를 제대로 이해하고 살아갔으면 하는 바람이다. 따라서 교과서와 개념 위주의 보통 수업을 뛰어 넘어 새로운 수업에 대한 목마름이 크다. 새로운 수업에 대한 아이디어 중에 하나가 컴퓨터를 활용한 수학 수업(Computer Based Mathematics)이다. 통계와 .. 2018. 1. 27.