[pandas-basic] 열(columns) :: 마인드스케일

판다스에서 데이터프레임의 열을 다루는 방법을 알아보겠습니다.

먼저 판다스를 불러들이고, 예제 데이터를 엽니다.

import pandas as pd
df = pd.read_excel('census.xlsx')

열 이름

.columns로 데이터 프레임의 열 이름을 확인할 수 있습니다.

df.columns

Index(['age', 'workclass', 'fnlwgt', 'education', 'education_num',
       'marital_status', 'occupation', 'relationship', 'race', 'sex',
       'capital_gain', 'capital_loss', 'hours_per_week', 'native_country',
       'income'],
      dtype='object')

열 선택

df['열 이름']과 같이 열을 선택할 수 있습니다. 아래는 age 열을 선택한 예입니다.

df['age']

0        39
1        50
2        38
         ..
32558    58
32559    22
32560    52
Name: age, Length: 32561, dtype: int64

df[['열이름1', '열이름2', ...]]와 같이 여러 개의 열 이름을 입력하면 여러 열을 선택할 수 있습니다.

df[['age', 'education']]

	age	education
0	39	Bachelors
1	50	Bachelors
2	38	HS-grad
...	...	...
32558	58	HS-grad
32559	22	HS-grad
32560	52	HS-grad

32561 rows × 2 columns

dtypes와 dtype

.dtypes로 각 열의 자료형을 확인할 수 있습니다. int는 정수형, float은 실수형입니다. object는 기타로서 주로 문자열(str)입니다. 정수형과 실수형 뒤에 붙은 수는 몇 비트 자료형인지를 나타냅니다. 예를 들어 int64는 64비트 정수형으로 2진수 64자리의 수를 표현할 수 있습니다. 10진수로는 -9,223,372,036,854,775,808부터 9,223,372,036,854,775,807까지입니다. 이렇게 큰 수를 표현할 필요가 없는 경우에는 int32나 int16처럼 더 작은 수만 표현할 수 있는 자료형을 사용해서 메모리를 아끼고, 계산 속도를 높이기도 합니다.

df.dtypes

age                int64
workclass         object
fnlwgt             int64
                   ...  
hours_per_week     int64
native_country    object
income            object
Length: 15, dtype: object

한 열의 자료형을 확인할 때는 .dtype을 사용합니다.

df['age'].dtype

dtype('int64')