이번 시간에는 엑셀 정형 데이터 타입을 확인하는 시간을 가져보겠습니다.
정형 데이터를 가져왔을 때 어떤 타입의 데이터인지 파악하는 것이 중요하다.
어떤 데이터 타입인지에 따라 분석 방법과 결과가 달리지기 때문이다.
1. 데이터 타입(단일 변수)
1-1. 수치형 데이터 (숫자)
- 이산형 : 변수의 값을 셀 수 있는 자료. 정수값으로 나타낼 수 있으며, 값 사이에는 간격이 존재한다
ex) 동전 던지기에 앞면이 나온 횟수, 수업 참여 횟수 등
- 연속형 : 모든 구간의 값을 가질 수 있는 숫자 자료. 실수값을 가지며, 값 사이에는 무한히 많은 가능한 값을 가질 수 있다
ex) 사람들의 키, 무게, 온도, 시간 등
1-2. 범주형 데이터 (문자)
- 명목형 : 데이터 간 크기와 순서가 존재하지 않는 자료. 서로 구별되는 카테고리로 구성되며 서로 다른 범주에 속하는 것을 나타낸다.
ex) 성별(남성, 여성), 혈액형(A,B,C,D) 등
- 순서형 : 특정 기준에 따라 순서의 의미를 갖는 자료. 값 간에 상대적인 순서 or 등급이 존재 한다.
ex) 학점(A,B,C,D,F), 만족도(매우 만족, 만족, 보통, 불만족, 매우 불만족)
문자형(Character) | 수치형(Numeric) | |
문자형(Character) | Chi-square 검정 | t-test, 분산 분석 |
수치형(Numeric) | Logistic regression | 상관분석 회귀분석 |
그럼 데이터를 불러와 어떤 데이터 타입인지 한 번 알아보자.
2. 데이터 확인
정형 데이터를 가져와 분석, 처리하기위해 Pandas 라이브러리를 사용하자
shape 함수를 이용하여 Column의 수와 index의 수를 확인했고 head 함수를 통해 5개의 row를 뽑아 데이터를 확인 하였다.
info 함수를 통해 컬럼의 타입과 결측치를 확인 해줄 수 있다.
int - 숫자형(정수), float - 숫자형(실수), object - 범주형
데이터 타입을 확인 해준 후 숫자 데이터와 문자 데이터를 구분지어 처리를 해주자
2-1 수치형 데이터
describe 함수이용 - 단순사용하게 되면수치형 데이터의 요약을 보여준다.
2-2 범주형 데이터
unique 함수 - 범주형 데이터 항목을 보여준다.
value_counts 함수 - 데이터 항목의 갯수를 보여준다.
범주형 자료를 하나하나 입력하여 describe 함수를 통해 데이터를 확인 하는 것도 가능하지만 범주형 데이터가 많을 때는 어떻게 하면 좋을까?
먼저 컬럼 전체를 tolist 함수를 이용하여 리스트 형태로 바꿔 준다
describe 함수를 통해 수치형 데이터도 리스트 형태로 바꾸어 준다
그 후 set 을 이용하여 전체 - 수치형을 해주면 끝!
참고 : 실제 엑셀 데이터 전처리 쉽게하기! (python / data / pandas) #Python #파이썬 #Pandas (youtube.com)