Pandas 기초

파이썬에서 표 형태의 데이터를 탐색하고 분석하는데 사용하는 판다스 라이브러리 사용법을 알아봅니다.


수강중

2. 데이터 프레임

동영상이 없는 텍스트 강의 자료입니다.

데이터 프레임은 간단히 말하면 표 형태의 데이터입니다. 판다스에서는 데이터 프레임을 직접 만들 수도 있고, 파일에서 불러들일 수도 있습니다. 먼저 데이터 프레임을 직접 만들려면 아래와 같이 하면 됩니다.

import pandas as pd

df = pd.DataFrame([10, 20, 30])
df
0
0 10
1 20
2 30

df는 10, 20, 30이 순서대로 들어가 있는 표입니다. 표에서 가로 줄은 이라고 합니다. 왼쪽의 0, 1, 2번은 각 행의 번호입니다. 세로 줄은 이라고 합니다. 위의 0은 열의 번호입니다.

만약 열이 2개인 표를 만들려면 아래와 같이 한 행을 리스트로 묶어서, 그 리스트들을 다시 리스트 형태로 만들면 됩니다.

df = pd.DataFrame([
    [10, 40],
    [20, 50],
    [30, 60]])
df
0 1
0 10 40
1 20 50
2 30 60

만약 열에 0, 1과 같은 번호 대신에, 이름을 붙이면 사전(dict) 형태로 넣어줍니다. 이때는 한 열을 리스트로 묶습니다.

df = pd.DataFrame({
    'x': [10, 20, 30],
    'y': [40, 50, 60]})
df
x y
0 10 40
1 20 50
2 30 60

이제 열 이름이 0, 1이 아닌 xy가 되었습니다. 각 행을 사전 형태로 만들어 리스트로 묶어도 됩니다.

df = pd.DataFrame([
    {'x': 10, 'y': 40},
    {'x': 20, 'y': 50},
    {'x': 30, 'y': 60}])
df
x y
0 10 40
1 20 50
2 30 60