[통계] Python 기초

주피터 노트북

Python을 이용해 데이터 분석을 하기 위한 프로그램
분석 서버에 웹으로 접속하여 구동하는 방식
PC에서 실행할 경우 PC 자체가 서버 역할
http://localhost:8888 에 접속 (localhost는 자기 자신)

노트북 열기

작업할 데이터 파일이 있는 폴더 선택
Desktop: 바탕화면
Documents: 내 문서
Downloads: 다운로드
데이터 파일이 보이는지 확인
New → Python 3

주피터 노트북 코드 실행

단축키 SHIFT+ENTER
코드 아래 실행 결과가 표시
코드를 수정하고 다시 SHIFT+ENTER를 누르면 실행 결과를 덮어씀

패키지 설치

패키지: 추가적인 함수를 묶은 것
통계 분석을 위한 pingouin 패키지를 설치
pip 프로그램을 이용해서 설치

pip install pingouin

pip는 Jupyter Notebook 또는 Anaconda Prompt에서 실행

모듈 임포트

모듈(module): 함수들을 관련된 것끼리 모아놓은 것
모듈의 함수를 사용하려면, 먼저 모듈을 임포트(import) 해야

import pandas as pd

pandas: 표 형태의 데이터를 다루는 모듈
as pd: pandas에 pd라는 약칭을 붙임. 생략할 수 있음

파일 열기

데이터 파일: car.xlsx

df = pd.read_excel('car.xlsx')

pd. pd 모듈의(Python에서 .은 소속을 나타냄)
read_excel 함수를 이용해서
'car.xlsx' 파일을 읽어
그 내용을 df 변수에 할당

데이터 보기

df.head()

Python에서는 특정 변수에 소속된 함수들이 있음
df 변수에 소속된 head는 df의 첫 5행을 보여주는 역할
괄호 () 안에 들어갈 내용이 없어도, 함수이므로 무조건 붙임
df.head(10)과 같이 하면 첫 10행을 보여줌

Next: 통계