본문 바로가기
통계/데이터 분석 기초

Python Pandas 실무 데이터 분석(데이터 불러오기, 데이터 요약,형태 파악,데이터 추출)

by 만슨 2024. 3. 14.

 

이번시간에는 Pandas 라이브러리를 이용한 정형데이터 분석에 대한 내용을 다뤄 보겠습니다. 

 

1. CSV데이터 불러오기

import pandas as pd

-> Pandas 라이브러리를 pd로 명칭하겠다

 

csv 파일

pd.read_csv('경로/파일이름.csv')

-> 불러올 데이터가 파이썬 파일과 같은 경로에 있을 경우 생략 가능하다 

 

엑셀 파일

pd.read_excel('경로/파일이름.xls')

 

csv 데이터

 

위 데이터를 살펴보면 1열에 각 행의 인덱스가 명시되어 있고 열에따라 구분하고 있다.

 

 

2 데이터 형태 살펴보기 

2.1 shape

위 함수를 통해 데이터 형태를 알아볼 수 있다. 

 

 

위 데이터는 705571개의 데이터와 20개의 컬럼으로 이루어져 있다. 

 

2.2 info

데이터에 전체적인 요약을 알 수 있다.

 

 

2. 3 describe

우리가 가져온 데이터에서 연속형 데이터만 뽑아 5 number summary를 보여준다

'

2.4 head, tail

상위 5개,하위 5의 데이터를 보여준다

 

2.5 isnull

결측치 데이터를 확인할 수 있다.

 

위와같이 True라고 표시 된 부분의 데이터가 없다는 것을 알 수 있다.

isnull().sum()을 통해 요약하여 볼 수 있다.

 

 

3. 데이터 추출

3.1컬럼명에 따라 추출하기 

데이터이름['컬럼명']

 

Dataframe 형태로 가져오고 싶을 때는 []를 한 번 더 사용 해주자.

 

 

 

위 같이 추출된 데이터에 형태를 살펴보는 함수를 사용하여 추출된 데이터의 형태를 살펴볼 수 도 있다!

 

참고 : [데이터분석] 분식이의 Python Pandas 실무 데이터 분석 2탄 (데이터 불러오기 / 데이터 요약 확인, 결측치, missing data 확인 / 컬럼데이터 추출) (youtube.com)