본문 바로가기
반응형

전체 글151

통계학 & R 프로그램 스터디 18일차 ::부전자전, 유전 연결고리 :: 상관관계, 공분산이란 무엇인가? <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 18일차 - 부전자전, 유전 연결고리 - 상관관계, 공분산이란 무엇인가? 이전 스터디에서 아빠와 아들 키의 유전과 연결하여 산점도에 대해 간략히 살펴보았다. 통계학 & R 프로그램 스터디 17일차 ::부전자전, 유전 연결고리 :: 산점도란 무엇인가? 이 때, 관측치가 중심에서 멀리 떨어져 있을 수록 얼마나 큰 영향력을 갖게 되는지 한눈에 확인할 새로운 방법이 필요하다고 했는데, 오늘은 그 내용을 살펴본다. 상관관계 관측치가 중심에서 멀리 떨어져 있다는 것은 평균에서 멀리 떨어져 있다는 것을 의미한다. 따라서 평균에서 멀리 떨어져 있는 관측치가 더 큰 영향력을 갖도록 해야 한다. 어떤 방법으로? 아빠 키의 평균으로부터의 거리와 아들 키의 평균으로부터의 거리를 계산해서 두 값을.. 2018. 4. 2.
통계학 & R 프로그램 스터디 17일차 ::부전자전, 유전 연결고리 :: 산점도란 무엇인가? <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 17일차 - 부전자전, 유전 연결고리 - 산점도란 무엇인가? 키 작은 엄마와 키가 큰 아들이 나란이 서 있다. 우리는 자연스럽게 '아빠가 키가 크겠구나'라고 생각한다. 칼 피어슨 Karl Pearson이라는 통계학자는 이와 같은 것들이 얼마나 영향을 주는지에 대한 연구를 진행하기도 했다. * 칼 피어슨 : 영국의 수리통계학자·우생학자. 인류의 유전에 관한 통계적 분석, 두개(頭蓋)의 계측(計測), 결핵의 통계 등으로 유명하다. 피어슨파 수리통계학의 창시자, 생물통계학의 선구자로 알려져 있으며 과학비평가로서도 이름이 높다. 산점도 아빠 키와 아들 키의 관계를 확인하기 위해서는 데이터가 필요하다. '아빠 키', '아들 키'라는 변수가 있어야 한다. 예를 들어 아래 그림과 같이 .. 2018. 3. 29.
통계학 & R 프로그램 스터디 16일차 ::Part I 차이를 확인하는 데이터 요약 총복습 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 16일차 - Part I 차이를 확인하는 데이터 요약 총복습 이번 학기 학교 일정 준비로 바쁜 시간들을 보내는 관계로 스터디 프로젝트가 한참 머물러 있었다. 다시 마음을 다잡기 위해 지난 기간 동안 스터디 했던 내용들을 날짜별로 간단히 정리해보고 다음 단원으로 넘어가려고 한다. 1일차 : 100일 프로젝트 및 책 소개 통계학 & R 프로그램 스터디 1일차 - 100일 프로젝트 및 책 소개 이 프로젝트를 시작하게 된 동기(꼭 치킨 때문은 아니다...)와 책의 목차를 소개하고 있다. 2일차 : 데이터의 구성, 데이터와 데이터의 공간통계학 & R 프로그램 스터디 2일차 - 데이터의 구성, 데이터와 데이터의 공간 본격적인 스터디의 시작이었다. 데이터, 데이터의 구성, 데이터 공간 .. 2018. 2. 27.
통계학 & R 프로그램 스터디 15일차 ::0.000012%의 꿈, 로또(2) :: 확률을 활용한 로또 당첨 번호 예측이 가능할까? <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 15일차 - 0.000012%의 꿈, 로또, - 확률을 활용하여 로또 복권 당첨 번호를 예측할 수 있을까? 확률 모르거나 아직 일어나지 않은 어떤 불확실한 것, 통계에서는 이것을 사건 Event 이라고 부른다.어떤 불확실한 정도를 0부터 1 사이의 숫자로 표현한 것을 확률 Probability 이라고 한다.우리는 이 소수에 100을 곱한 백분율(%)이 더 친근한데 확률 0%는 불가능, 100%는 필연을 의미한다. 고등학교 수학 교과서에서의 표현은? 우리나라 고등학교 수학 교과서에서는 이 용어들을 이렇게 표현하기도 한다. 주사위나 동전을 던지는 것과 같이 같은 조건에서 여러 번 반복할 수 있고, 그 결과가 우연에 의하여 좌우되는 실험이나 관찰을 시행이라고 한다. 그리고 어떤 .. 2018. 2. 14.
통계학 & R 프로그램 스터디 14일차 ::0.000012%의 꿈, 로또(1) :: 로또 당첨 확률 구하기 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 14일차 - 0.000012%의 꿈, 로또, - 로또 당첨 확률 구하기 로또 당첨 확률 로또 당첨 확률을 구하려면 먼저 45개의 숫자 중 6개를 뽑는 방법의 가짓수를 구해야 한다. 고등학교 통계 시간에 배운 조합 Combination을 써보면 다음과 같이 구할 수 있다. $${}_{45}{\rm C}_{6} = \frac{45 \times 44 \times 43 \times 42 \times 41 \times 40}{6 \times 5 \times 4 \times 3 \times 2 \times 1} = 8,145,060$$ 8,145,060개의 번호 중에서 곡 하나는 당첨 번호가 나오므로 내가 산 복권이 당첨될 가능성은 $$\frac{1}{8,145,060} \sim 0... 2018. 2. 13.
통계학 & R 프로그램 스터디 13일차 :: 먹고 싶은 거 먹어, 난 짜장 :: 범주형 변수, 파이 차트, 막대그래프 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 13일차 - 먹고 싶은 거 먹어, 난 짜장 - 범주형 변수, 파이 차트, 막대그래프 예전에 3일차 스터디를 진행할 때 ( 통계학 & R 프로그램 스터디 3일차 - 데이터의 표현 ) 변수의 종류에 따라서 확인할 수 있는 차이도 다르고, 계산할 수 있는 기술 통계량도 다르다는 언급을 했었다. 연속형 변수와 범주형 변수에 대해 간단히 설명하자면 아래와 같다. 연속형 변수 : 몸무게처럼 값이 한없이 다양한 변수. 순서를 정하거나 값들을 더해서 통계량을 계산한다.범주형 변수 : 성별처럼 관측치들이 정해진 몇 개의 값 중에서 하나를 가지는 변수, 값이 같은 관측치들을 묶어 개수를 센다. 연속형 변수는 다양한 값을 가질 수 있으나 범주형 변수는 정해진 값 중에서 하나를 선택해야 한다. .. 2018. 2. 13.
통계학 & R 프로그램 스터디 12일차 :: 물수능과 불수능 :: 표준화(3) - 표준화 예제, 수능 표준점수, IQ 지능지수 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 12일차 - 물수능과 불수능 :: 표준화(3) - 표준화 예제 - 수능 표준점수, IQ 지능지수 지난 번 두 번에 스터디에 걸쳐서 데이터의 표준화에 대해서 공부했다. 통계학 & R 프로그램 스터디 10일차 :: 물수능과 불수능 :: 표준화(1) - 중심화 통계학 & R 프로그램 스터디 11일차 :: 물수능과 불수능 :: 표준화(2) - 척도화 오늘은 표준화를 조금 더 구체적인 예를 통해 확실히 이해해보도록 하자! 표준화 예제 2011년 불수능에서 수학의 평균은 47.8, 표준편차는 19.7이다. 2015년 물수능에서는 평균이 55.4, 표준편차는 28.5이다. (책에는 이렇게 소개되었는데 확인은 못해봤다..ㅋ) 이를 바탕으로 수능을 치른 학생 1,000명의 가상 성적을 히스.. 2018. 2. 9.
통계학 & R 프로그램 스터디 11일차 :: 물수능과 불수능 :: 표준화(2) - 척도화 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 11일차 - 물수능과 불수능 :: 표준화(2) - 척도화 지난번에는 데이터의 표준화의 첫단계인 중심화 Centering에 대해서 스터디를 했다. (통계학 & R 프로그램 스터디 10일차 :: 물수능과 불수능 :: 표준화(1) - 중심화 ) 오늘은 그에 이어서 척도화 Scaling에 대해 스터디를 진행할 예정이다. 오늘은 지난 번과 조금 다른 예를 가지고 왔다. 원래 점수 $$6, 10, 15, 18, 19, 22$$ 에 2배를 해서 새로운 변수 $y$를 만들었다. $$12, 20, 30, 36, 38, 44$$ 이전 과정을 복습할 겸 중심화를 해보자. 먼저 평균을 구해보면 $$m = \frac{12 + 20 + 30 + 36 + 38 + 44}{6} = 30$$ 30인 것을.. 2018. 2. 8.
통계학 & R 프로그램 스터디 10일차 :: 물수능과 불수능 :: 표준화(1) - 중심화 <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 10일차 - 물수능과 불수능 :: 표준화(1) - 중심화 매년 11월이 되면 수능 시험이 치러진다. 그때마다 언론을 통해 수능 시험에 대한 평가(?)가 이뤄지며 이번 수능이 "물수능"이었냐? 아니면 "불수능"이었나?가 초미의 관심사가 된다. 난이도 조절을 실패했느냐, 성공했느냐... 변별력을 위한 시험을 만든다는 것 자체가 참으로 안타까운 일이 아닐 수 없다. 어쨌든 각 시험 마다 이런 유불리가 나타날 수 밖에 없고, 한 시험에서도 선택과목을 무엇을 선택하느냐에 따라 유불리가 더 크게 나타날 수 밖에 없다. 상대적으로 쉽다고 알려진 시험을 봐서 높은 점수를 받는 것과 어렵다고 알려진 시험을 봐서 그보다는 조금 낮은 점수를 받았을 때, 누가 더 잘 한 것인가를 어떻게 판단할 .. 2018. 2. 7.
통계학 & R 프로그램 스터디 9일차 - 분산 n으로 나눌까? n-1로 나눌까? <이토록 쉬운 통계 & R> 통계학 & R 프로그램 스터디 9일차 - 더치페이와 N빵(3) :: 분산!! n으로 나눌까? n-1로 나눌까? 통계 관련된 책들을 보면 어떤 책은 분산을 $n$으로 나눠서 계산을 하고 어떤 책은 $n-1$로 나눠서 계산한다. 도대체 뭐가 맞는 걸까? 이것은 무엇이 맞고 틀리냐의 문제가 아니다. 분산을 계산하는 샘플을 무엇으로 선택하느냐에 따라 차이가 생긴다. 모집단 전체로 분산을 구하느냐? 임의로 추출한 표본집단으로 분산을 구하느냐?에 따라 계산 방법이 달라진다. 그렇다면 왜 두 경우에 계산 방법이 달라질까? * 수식 압박에 주의하세요..ㅎㅎ TeX이 변환되는 데 시간이 조금 걸릴 수 있습니다. 조금만 기다려주세요~~ 모집단에서 크기가 $n$인 표본 $X_1$, $X_2$, $\cdots$, $X_n$을.. 2018. 2. 6.
반응형