이번시간에는 Pandas 라이브러리를 이용한 정형데이터 분석에 대한 내용을 다뤄 보겠습니다.
1. CSV데이터 불러오기
import pandas as pd
-> Pandas 라이브러리를 pd로 명칭하겠다
csv 파일
pd.read_csv('경로/파일이름.csv')
-> 불러올 데이터가 파이썬 파일과 같은 경로에 있을 경우 생략 가능하다
엑셀 파일
pd.read_excel('경로/파일이름.xls')
위 데이터를 살펴보면 1열에 각 행의 인덱스가 명시되어 있고 열에따라 구분하고 있다.
2 데이터 형태 살펴보기
2.1 shape
위 함수를 통해 데이터 형태를 알아볼 수 있다.
위 데이터는 705571개의 데이터와 20개의 컬럼으로 이루어져 있다.
2.2 info
데이터에 전체적인 요약을 알 수 있다.
2. 3 describe
우리가 가져온 데이터에서 연속형 데이터만 뽑아 5 number summary를 보여준다
'
2.4 head, tail
상위 5개,하위 5의 데이터를 보여준다
2.5 isnull
결측치 데이터를 확인할 수 있다.
위와같이 True라고 표시 된 부분의 데이터가 없다는 것을 알 수 있다.
3. 데이터 추출
3.1컬럼명에 따라 추출하기
데이터이름['컬럼명']
Dataframe 형태로 가져오고 싶을 때는 []를 한 번 더 사용 해주자.
위 같이 추출된 데이터에 형태를 살펴보는 함수를 사용하여 추출된 데이터의 형태를 살펴볼 수 도 있다!