Pandas 기초

파이썬에서 표 형태의 데이터를 탐색하고 분석하는데 사용하는 판다스 라이브러리 사용법을 알아봅니다.


수강중

4. 열(columns)

동영상이 없는 텍스트 강의 자료입니다.

판다스에서 데이터프레임의 열을 다루는 방법을 알아보겠습니다.

먼저 판다스를 불러들이고, 예제 데이터를 엽니다.

import pandas as pd
df = pd.read_excel('census.xlsx')

열 이름

.columns로 데이터 프레임의 열 이름을 확인할 수 있습니다.

df.columns
Index(['age', 'workclass', 'fnlwgt', 'education', 'education_num',
       'marital_status', 'occupation', 'relationship', 'race', 'sex',
       'capital_gain', 'capital_loss', 'hours_per_week', 'native_country',
       'income'],
      dtype='object')

열 선택

df['열 이름']과 같이 열을 선택할 수 있습니다. 아래는 age 열을 선택한 예입니다.

df['age']
0        39
1        50
2        38
         ..
32558    58
32559    22
32560    52
Name: age, Length: 32561, dtype: int64

df[['열이름1', '열이름2', ...]]와 같이 여러 개의 열 이름을 입력하면 여러 열을 선택할 수 있습니다.

df[['age', 'education']]
age education
0 39 Bachelors
1 50 Bachelors
2 38 HS-grad
... ... ...
32558 58 HS-grad
32559 22 HS-grad
32560 52 HS-grad

32561 rows × 2 columns

dtypes와 dtype

.dtypes로 각 열의 자료형을 확인할 수 있습니다. int는 정수형, float은 실수형입니다. object는 기타로서 주로 문자열(str)입니다. 정수형과 실수형 뒤에 붙은 수는 몇 비트 자료형인지를 나타냅니다. 예를 들어 int64는 64비트 정수형으로 2진수 64자리의 수를 표현할 수 있습니다. 10진수로는 -9,223,372,036,854,775,808부터 9,223,372,036,854,775,807까지입니다. 이렇게 큰 수를 표현할 필요가 없는 경우에는 int32int16처럼 더 작은 수만 표현할 수 있는 자료형을 사용해서 메모리를 아끼고, 계산 속도를 높이기도 합니다.

df.dtypes
age                int64
workclass         object
fnlwgt             int64
                   ...  
hours_per_week     int64
native_country    object
income            object
Length: 15, dtype: object

한 열의 자료형을 확인할 때는 .dtype을 사용합니다.

df['age'].dtype
dtype('int64')