데이터 분석을 위해서는 파이썬(Python)이라는 오픈소스 프로그램을 사용하는데요,
파이썬에서 사용하는 Numpy, Pandas, SciPy, scikit-learn, statsmodels, Matplotlib 패키지에 대해 알아보고자 합니다.
Numpy (넘파이)
- Numpy 사이트 : https://numpy.org/
Numpy는 행렬이나 다차원 배열을 쉽게 처리하는 사이언스 컴퓨팅을 위한 라이브러리입니다.
Numpy 패키지에서 제공되는 클래스, 메소드들은 Numpy 사이트의 상단 메뉴에 'API reference'를 클릭하시면 확인하실 수 있으며, '돋보기' 아이콘을 클릭하시면 검색하실 수도 있습니다.
2. Pandas (판다스)
- Pandas 사이트 : https://pandas.pydata.org/
Pandas는 데이터 구조와 데이터 분석 도구를 제공하는 라이브러리입니다.
여기 사이트에서 자주찾는 곳은 Document > API reference 입니다.
Pandas에서는 Series와 DataFrame 객체를 많이 사용하는데요,
'API reference' 메뉴나 '돋보기' 모양의 아이콘을 클릭하여 찾고자 하는 API를 검색하실 수 있습니다.
SciPy (사이파이)
- SciPy 사이트 : https://scipy.org/
SciPy는 통계 분석을 위한 라이브러리이며, 확률 분포, 요약 통계, 상관 분석 및 통계 검정, 회귀 분석 등의 통계 분석을 위한 stats 모듈을 이용합니다.
사이트의 상단에 있는 'Document' 메뉴를 클릭하시면 API reference 를 참고하실 수 있습니다.
scikit-learn (사이킷-런)
- scikit-learn 사이트 : https://scikit-learn.org/stable/
scikit-learn은 머신러닝을 위한 라이브러리이며, 주요 기능은 아래와 같습니다.
- 분류(classification)
- 회귀(Regression)
- 군집(Clustering)
- 차원축소(Dimensionality reduction)
- 모형 선택(Model Selection)
- 전처리(Preprocessing)
statsmodels
- statsmodels 사이트 : https://pandas.pydata.org/
statsmodels는 SciPy 라이브러리보다 다양한 통계 데이터 분석을 위한 라이브러리입니다.
statsmodels에서 제공되는 API reference는 사이트의 좌측 상단 메뉴(햄버거 모양의 아이콘)을 클릭하시고,
'API Reference' 메뉴을 클릭하시면 확인하실 수 있습니다.
Matplotlib
- Matplotlib 사이트 : https://matplotlib.org/
Matplotlib는 그래프, 차트 등의 시각화를 위한 라이브러리입니다.
Matplotlib의 API는 사이트의 상단 메뉴에 'Reference'를 클릭하시면 찾으실 수 있습니다.
Python api https://docs.python.org/ko/3/library/index.html
Numpy api https://numpy.org/doc/stable/reference/index.html#reference
Pandas api https://pandas.pydata.org/docs/reference/index.html
Sklearn api https://scikit-learn.org/stable/modules/classes.html
SciPy api https://docs.scipy.org/doc/scipy/reference/index.html#scipy-api
statsmodels api https://www.statsmodels.org/stable/api.html
matplotlib api https://matplotlib.org/stable/api/index
댓글