본문 바로가기
개인 공부/데이터 분석

[스터디 1일차 도약] 아나콘다 설치 시 제공되는 라이브러리들 :: 모두의 데이터 분석 with 파이썬

by 잇포에듀 2020. 2. 21.
반응형

[스터디 1일차 도약] 아나콘다 설치 시 제공되는 라이브러리들 :: 모두의 데이터 분석 with 파이썬

이전 스터디(https://it4edu.tistory.com/55)에서 아나콘다를 설치해보았습니다. 아나콘다가 뭔지도 모르고 설치를 해 보았는데, 소개 페이지에 가보니 아나콘다를 설치하면 데이터 분석에 유용한 여러 가지 라이브러리들이 한꺼번에 설치되는 것 같습니다.

 

각 라이브러리들이 무슨 일을 하는지를 조금이라도 알면 파이썬으로 무엇을 할 수 있는지도 알 수 있을 것 같아서, 안내 페이지에 소개된 라이브러리들에 대해 간단히 조사해 보겠습니다.

 

* 이 내용은 "모두의 데이터 분석 with 파이썬" 책에는 나오지 않는 내용으로 저 개인적으로 궁금해서 조사해 본 것들입니다. 라이브러리 설명을 읽어보아도 사용해보지 않으니 잘 이해는 안 되지만 언젠가는 다시 필요할 날이 있으리라 믿고 시작해보겠습니다.

 

Jupyter, spyder, NumPy, SciPy, Numba, pandas, DASK, Bokeh, HoloViews, Datashader, matplotlib, scikit-learn, H2O.ai, TensorFlow, Conda. 이런 라이브러리들은 어떤 일을 하는 것일까?라는 단순한 호기심에서 시작합니다.


Jupyter

http://jupyter.org

  • 인터랙티브 데이터 과학, 컴퓨팅 환경
  • 대략 "독립실행형 웹기반 코드작성/실행지원 CMS 프로그램"
  • 오픈소스
  • Python, R, Haskell, Spark 지원
  • 웹환경에서 실행코드와 문서를 함께 작성하며 그 실행 결과를 볼 수 있음
  • 코드와 그 결과를 문서에서 함께 볼 수 있다는 장점으로 분석 실무에 폭넓게 사용됨

※ 출처 : https://zetawiki.com/wiki/Jupyter


spyder

https://www.spyder-ide.org/

  • 오픈소스 크로스플랫폼 파이썬 IDE
  • NumPy, SciPy, Matplotlib, IPython 이 통합됨
  • MIT 라이선스

※ 출처 : https://zetawiki.com/wiki/%EC%8A%A4%ED%8C%8C%EC%9D%B4%EB%8D%94_Spyder


NumPy

https://numpy.org/

  • 수학적 기능을 제공하는 오픈소스 파이썬 라이브러리
  • 프로그래밍 언어 Python에서 수치 계산을 효율적으로 실시하기 위한 확장 모듈
  • 핵심기능: ndarray
    • n차원의 배열 데이터 클래스
    • 다차원배열을 유연하고 빠르게 처리함
    • 효율적인 수치 계산을 위한 틀이 달린 다차원 배열(예: 벡터와 행렬 등 표현) 지원
    • + 조작을 위한 대규모 고수준 수학 함수 라이브러리
    • NumPy 내부는 C언어[1]로 구현되어 빠름

※ 출처 : https://zetawiki.com/wiki/NumPy


SciPy

http://www.scipy.org/

  • Python을 위한 과학적 도구의 오픈소스 라이브러리
  • 과학 연산에 필요한 기능을 제공하는 파이썬 라이브러리
  • 프로그래밍, 수학, 과학, 공학을 위한 수치 해석 소프트웨어
  • 배열의 빠른 조작을 위한 라이브러리 포함
  • 기능: 최적화, 선형대수, 적분, FFT 등
  • 통계, 최적화, 적분, 선형 대수, 푸리에 변환 신호 이미지 처리, 유전적 알고리즘, ODE(상미분 방정식) 풀이, 특수 함수, 기타 모듈 제공

※ 출처 : https://zetawiki.com/wiki/SciPy


Numba

http://numba.pydata.org/

Numba is an open-source JIT compiler that translates a subset of Python and NumPy into fast machine code using LLVM, via the llvmlite Python package. It offers a range of options for parallelising Python code for CPUs and GPUs, often with only minor code changes.

Numba was started by Travis Oliphant in 2012 and has since been under active development at https://github.com/numba/numba with frequent releases. The project is driven by developers at Anaconda, Inc., with support by DARPA, the Gordon and Betty Moore Foundation, Intel, nvidia and AMD, and a community of contributors on GitHub.

 

※ 출처 : https://en.wikipedia.org/wiki/Numba


pandas

http://pandas.pydata.org/

  • Python 데이터 분석 라이브러리
  • 데이터 분석을 위한 파이썬 라이브러리
  • R언어의 데이터프레임과 같은 이름의 데이터프레임 구조에 데이터를 집어넣고 다양한 조작으로 데이터 분석을 편리하게 해 줌
  • CSV 파일을 불러오기가 편리함

※ 출처 : https://zetawiki.com/wiki/Pandas


DASK

https://dask.org/


Bokeh

https://docs.bokeh.org/en/latest/


HoloViews

http://holoviews.org/


Datashader

https://datashader.org/

 


matplotlib

http://matplotlib.org/

  • 데이터 시각화 파이썬 라이브러리
  • 첫 릴리즈: 2003년

※ 출처 : https://zetawiki.com/wiki/Matplotlib


scikit-learn

http://scikit-learn.org/stable/

  • 파이썬 머신러닝 라이브러리
  • 첫릴리즈: 2007년
  • 기능: 분류, 회귀, 군집화 알고리즘 등
    벡터 머신, 랜덤 포레스트, 그래디언트 부스팅, k-평균, DBSCAN 등 포함
  • NumPy, SciPy와 함께 사용 가능
  • 작성언어: Python, Cython, C, C++
  • BSD 라이선스

※ 출처 : https://zetawiki.com/wiki/%EC%82%AC%EC%9D%B4%ED%82%B7-%EB%9F%B0


TensorFlow

https://www.tensorflow.org/

  • 머신러닝, 딥러닝을 위한 오픈소스 라이브러리
  • 데이터 플로우 그래프를 이용한 수치 연산 라이브러리
  • CPU 또는 GPU를 사용하여 연산을 구동할 수 있음
  • 개발사: 구글 브레인 팀
  • 작성언어: Python, C++
  • 2001년, 구글 내 연구와 제품개발을 위한 목적으로 제작
  • 2015년, 아파치 2.0 오픈소스 라이선스로 공개됨

※ 출처 : https://zetawiki.com/wiki/%ED%85%90%EC%84%9C%ED%94%8C%EB%A1%9C%EC%9A%B0


Conda

https://conda.io/en/latest/


휴... 힘들다...

인터넷에서 쉽게 찾을 수 있는 것들 위주로 조사를 해 보았습니다. 지금으로써는 읽어도 무슨 말인지 잘 모르겠네요. 필요할 때마다 찾아서 쓰다보면 조금씩 알게 되겠지요.

 

이 모든 라이브러리를 다 알 필요도 없고, 필요한 것만 조금씩 활용해보면 될 것 같습니다.

 

이제 진행하게 될 스터디에서는 어떤 라이브러리를 어떻게 사용하게 될까요? 점점 재미있어지네요^^

 

요 밑에 하트모양 공감 버튼있는 거 아시죠?

공부하면서 힘내라고 한 번씩 눌러주시면 감사하죠~~

반응형

댓글