열(columns)
판다스에서 데이터프레임의 열을 다루는 방법을 알아보겠습니다.
먼저 판다스를 불러들이고, 예제 데이터를 엽니다.
import pandas as pd
df = pd.read_excel('census.xlsx')
열 이름
.columns
로 데이터 프레임의 열 이름을 확인할 수 있습니다.
df.columns
Index(['age', 'workclass', 'fnlwgt', 'education', 'education_num', 'marital_status', 'occupation', 'relationship', 'race', 'sex', 'capital_gain', 'capital_loss', 'hours_per_week', 'native_country', 'income'], dtype='object')
열 선택
df['열 이름']
과 같이 열을 선택할 수 있습니다. 아래는 age
열을 선택한 예입니다.
df['age']
0 39 1 50 2 38 .. 32558 58 32559 22 32560 52 Name: age, Length: 32561, dtype: int64
df[['열이름1', '열이름2', ...]]
와 같이 여러 개의 열 이름을 입력하면 여러 열을 선택할 수 있습니다.
df[['age', 'education']]
age | education | |
---|---|---|
0 | 39 | Bachelors |
1 | 50 | Bachelors |
2 | 38 | HS-grad |
... | ... | ... |
32558 | 58 | HS-grad |
32559 | 22 | HS-grad |
32560 | 52 | HS-grad |
32561 rows × 2 columns
dtypes와 dtype
.dtypes
로 각 열의 자료형을 확인할 수 있습니다. int
는 정수형, float
은 실수형입니다. object
는 기타로서 주로 문자열(str
)입니다. 정수형과 실수형 뒤에 붙은 수는 몇 비트 자료형인지를 나타냅니다. 예를 들어 int64
는 64비트 정수형으로 2진수 64자리의 수를 표현할 수 있습니다. 10진수로는 -9,223,372,036,854,775,808부터 9,223,372,036,854,775,807까지입니다. 이렇게 큰 수를 표현할 필요가 없는 경우에는 int32
나 int16
처럼 더 작은 수만 표현할 수 있는 자료형을 사용해서 메모리를 아끼고, 계산 속도를 높이기도 합니다.
df.dtypes
age int64 workclass object fnlwgt int64 ... hours_per_week int64 native_country object income object Length: 15, dtype: object
한 열의 자료형을 확인할 때는 .dtype
을 사용합니다.
df['age'].dtype
dtype('int64')