본문 바로가기

통계/데이터 분석 기초13

Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리1 오늘은 실제 엑셀데이터를 가저와서 전처리 해보는 시간을 가져보겠습니다. 데이터 확인 오늘 우리가 처리할 데이터 형태를 보면 여러 문제가 있습니다 정돈된 데이터가 아닌 컬럼이 독립적이지 않고 날짜 데이터가 컬럼별로 다르게 나와 있습니다. 컬럼명이 명시되어 있지 않습니다. 이러한 데이터를 어떻게 전처리 할지 한 번 알아 보겠습니다. 엑셀 데이터 불러오기 pandas 라이브러리를 통해 엑셀 데이터를 가져와 보았습니다 역시 데이터 정리가 되어있지 않네요 3. 데이터 전처리 위 데이터는 제품명이 키값으로 되어있는 데이터이다. 따라서 제품명을 기준으로 날짜 데이터를 처리해주면 될 것 같습니다. 3-1. 행 제거 후 가져오기 데이터를 살펴보면 2행에 컬럼명이 명시되어 있네요 이럴 때는 데이터를 가져올 때 2행부터 가.. 2024. 3. 18.
Python Pandas 실무 데이터 분석 : 시각화2 (다변수 데이터 시각화 / 가격과 해약여부의 관계) 오늘은 다변수 데이터에 대해 시각화 하는 시간을 가져보도록 하겠습니다. 1. 다변수 데이터 시각화 1-1. x : 연속 / y : 연속 산점도 / 회귀선 / 상관분석 등을 해줄 수 있다. 1-1-1. 산점도 Seaborn 라이브러리의 scatterplot 함수를 사용해준다 위와같이 hue 를 이용한 범수형 데이터의 오버레이와 size를 이용한 연속형 데이터의 오버레이 또한 사용할 수 있다. jointplot 을 이용하여 x,y 변수의 각각의 데이터 들의 분포도 한 번에 볼 수 있다 1-1-2 회귀 Seaborn 라이브러리의 implot 함수를 사용해준다 pairplot 을 이용하여 가지고 있는 데이터 셋에 있는 모든 연속형 데이터에 대한 분포들을 확인해볼 수 있다. 모든 연속형 변수를 보기엔 데이터가 너.. 2024. 3. 17.
Python Pandas 실무 데이터 분석 : 시각화 (그래프 저장 / 한글 폰트 / seaborn / matplotlib / 단일 변수 시각화) 오늘은 Matplot, Seaborn 라이브러리를 이용하여 데이터를 시각화 하는 방법에 대해서 알아보겠습니다. Matplot - 시각화에 있어 여러가지 옵션들을 다양하게 사용해서 시각화 할 수 있는 라이브러리 Seaborn - Matplot 라이브러리를 기반으로 한 통계 전공 시각화 라이브러리 데이터 시각화란? 데이터 시각화는 정보를 한 눈에 보기 쉽게 시각적으로 표현하여 인사이트를 도출하고 이해하기 쉽게 만드는 과정이다. 시각화 또한 데이터 타입에 따른 시각화 유형이 달라지게 된다 단일 변수 데이터 타입 유형 연속형 확률분포 or 히스토그램 범주형 빈도 수 그래프 (Bar / Pie Chart) 다변수 데이터 타입 유형 Y : 연속 / X : 연속 산점도 / 회귀 그래프 / 히트맵 Y : 연속 / X .. 2024. 3. 17.
Python Pandas 실무 데이터 분석 : 날짜 데이터 처리 이번시간은 날짜 파이썬 Pandas 라이브러리를 이용하여 날짜데이터를 처리해보는 시간을 가져보도록 하겠습니다. 날짜 형태의 데이터로 바꿔주기 to_datetime 함수 object 이던 '날짜' 컬럼이 datetime64[ns] 로 바뀐것을 볼 수 있다. 날짜 형태로 바뀐 데이터에서 dt.momth, dt.week, dt.day, dt.day_name등 여러가지 함수를 이용하여 값을 가져와 사용할 수 있다. 그러나 to_datetime 함수 사용시 datetime 함수에 맞지 않는 형태로 기입되어 있으면 변환이 되지 않는다! ex) 위와 같이 '오전' 이라는 문자가 포함 되어 있는 데이터를 to_datetime 함수를 이용하여 변환시켜 보겠다 타입에러의 발생으로 변환되지 않는다. 해결방법 apply 함수.. 2024. 3. 15.