본문 바로가기
Study

[혼공단] 혼공R이 4주차 미션 - Chapter 4. 데이터 다루기. (feat. 혼자 공부하는 R 데이터분석)

by 잇포에듀 2022. 7. 31.
반응형

[혼공단] 혼공R이 4주차 미션 - Chapter 4. 데이터 다루기. (feat. 혼자 공부하는 R 데이터분석)

이번 주 스터디 내용 요약

지난 주에는 R의 기초 문법(변수와 함수, 연산자, 조건문, 반복문 등)을 익혀보았습니다.

 

[혼공단] 혼공R이 3주차 미션 - Chapter 3. R 프로그래밍 익히기. (feat. 혼자 공부하는 R 데이터분석), 사용자정의 함수, 조건문

 

[혼공단] 혼공R이 3주차 미션 - Chapter 3. R 프로그래밍 익히기. (feat. 혼자 공부하는 R 데이터분석),

[혼공단] 혼공R이 3주차 미션 - Chapter 3. R 프로그래밍 익히기. (feat. 혼자 공부하는 R 데이터분석), 사용자정의 함수, 조건문 이번주 스터디 내용 요약 이번 주에는 혼자 공부하는 R 데이터분석 'Chapt

it4edu.tistory.com

 

이번 주는 이에 이어서 본격적으로 데이터 분석에 대해 공부해볼 수 있었습니다.

 

먼저 데이터를 수집하는 다양한 방법들을 공부하였습니다. 데이터를 직접 입력하는 방법에서부터 TXT 파일, CSV 파일, 엑셀 파일, XML과 JSON 파일까지 다양한 형식의 데이터 파일을 불러오는 방법들을 익혔습니다.

 

함수 기능
read.table() TXT  파일을 가져옵니다.
read.csv() CSV 파일을 가져옵니다.
read.excel() [readxl 패키지] 엑셀 파일을 가져옵니다.
xmlToDataFrame() [XML 패키지] XML 파일을 가져옵니다.
fromJSON() [jsonlite 패키지] JSON 파일을 가져옵니다.

 

이어서 data() 함수를 이용하여 R에서 제공하는 내장 데이터 세트를 불러와서 기본적인 통계량들을 확인해보았습니다. 가장 유명한 데이터 세트 중 하나인 iris 데이터 세트(붓꽃 데이터)를 불러와서 구조를 확인하고, 평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 첨도와 왜도, 빈도 등을 분석해보았습니다.

 

마지막으로 다양한 종류의 그래프를 시각화해보았습니다. 상자 그림, 막대 그래프, 히스토그램, 파이차트, 줄기 잎 그림, 산점도 등을 직접 그려보면서 R이 제공하는 다양한 시각화 그래프들을 확인해볼 수 있었습니다.

 

이번 주 미션은 다음과 같습니다.

# 진도 기본 미션 선택 미션
4주차 Chapter 04 p.169의 iris 내장 데이터 세트의 데이터 구조 출력하고 인증샷 p.191 상자 그림 그래프의 각 요약값 정리하여 포스팅하기

기본 미션

혼자 공부하는 R 데이터분석 p.169의 iris 내장 데이터 세트의 데이터 구조 출력하고 인증샷

 

iris 내장 데이터(붓꽃 데이터)는 R에서 제공하는 기본데이터 입니다. data() 함수를 이용하여 내장 데이터 세트를 불러올 수 있습니다.

 

>>> data("iris")

 

R에서 제공하는 iris 데이터 세트는 5개의 컬럼과 150개의 관측치를 가지고 있습니다. 아주 큰 데이터는 아니지만 그렇다고 한 눈에 보기에도 쉽지는 않습니다. 이를 위해 간단하게 데이터 구조를 확인해보아야 하는데 이 때 사용하는 함수가 str() 함수입니다.

 

>>> str(iris)

 

입력하면 아래와 같이 iris 데이터 세트의 구조가 잘 출력됩니다.

 

 

  • 5개의 변수, 150개의 관측치를 가지고 있는 데이터 프레임
  • 달러($) 기호는 컬럼명, num은 숫자형 데이터라는 의미. 10개의 데이터를 보여줌.
  • Species 컬럼은 Factor 자료형에 w/3 levels, 즉 값이 setosa, versicolor, virginica 3가지 범주로 구성되어 있음.

선택 미션

혼자 공부하는 R 데이터분석 p.191 상자 그림 그래프의 각 요약값 정리하여 포스팅하기

 

상자 그림 그래프에 대한 이야기는 아래 링크에 따로 정리를 해 보았습니다. R에서 상자 그림 그리는 방법, 상자 그림에 표현되는 값들(최댓값, 최솟값, 중앙값, 사분위수)의 의미와 함수들을 간략히 적었습니다.

 

[R 데이터분석 기초] 상자 그림 그리기 boxplot | 평균값, 최댓값, 최솟값, 중앙값, 사분위수 의미

 

[R 데이터분석 기초] 상자 그림 그리기 boxplot | 평균값, 최댓값, 최솟값, 중앙값, 사분위수 의미

상자 그림(boxplot)은 데이터의 분포를 비교하거나 이상치(outlier)를 판단할 때 주로 사용하는 그래프입니다. 상자 그림은 다음과 같이 5가지 항목을 시각화한 요약 정보를 제공합니다. 극단값(최댓

it4edu.tistory.com

 

이렇게 혼공학습단 8기, 혼공R이 4주차 스터디를 마무리 합니다.

 

이제 1주일 동안 방학이네요. 잘 쉬면서 지난 내용들 복습하고 남은 2주간의 미션도 잘 마무리해보겠습니다! 읏쌰!! 

 

 


 

 

혼자 공부하는 R 데이터 분석 - YES24

혼자 해도 충분하다! 1:1 과외하듯 배우는 R 데이터 분석 자습서이 책은 독학으로 R 데이터 분석을 배우는 입문자가 ‘꼭 필요한 내용을 제대로’ 학습할 수 있도록 구성했다. ‘무엇을’, ‘어떻

www.yes24.com

 

반응형

댓글