본문 바로가기

전체 글27

Python Pandas 실무 데이터 분석 : 시각화 (그래프 저장 / 한글 폰트 / seaborn / matplotlib / 단일 변수 시각화) 오늘은 Matplot, Seaborn 라이브러리를 이용하여 데이터를 시각화 하는 방법에 대해서 알아보겠습니다. Matplot - 시각화에 있어 여러가지 옵션들을 다양하게 사용해서 시각화 할 수 있는 라이브러리 Seaborn - Matplot 라이브러리를 기반으로 한 통계 전공 시각화 라이브러리 데이터 시각화란? 데이터 시각화는 정보를 한 눈에 보기 쉽게 시각적으로 표현하여 인사이트를 도출하고 이해하기 쉽게 만드는 과정이다. 시각화 또한 데이터 타입에 따른 시각화 유형이 달라지게 된다 단일 변수 데이터 타입 유형 연속형 확률분포 or 히스토그램 범주형 빈도 수 그래프 (Bar / Pie Chart) 다변수 데이터 타입 유형 Y : 연속 / X : 연속 산점도 / 회귀 그래프 / 히트맵 Y : 연속 / X .. 2024. 3. 17.
Python Pandas 실무 데이터 분석 : 날짜 데이터 처리 이번시간은 날짜 파이썬 Pandas 라이브러리를 이용하여 날짜데이터를 처리해보는 시간을 가져보도록 하겠습니다. 날짜 형태의 데이터로 바꿔주기 to_datetime 함수 object 이던 '날짜' 컬럼이 datetime64[ns] 로 바뀐것을 볼 수 있다. 날짜 형태로 바뀐 데이터에서 dt.momth, dt.week, dt.day, dt.day_name등 여러가지 함수를 이용하여 값을 가져와 사용할 수 있다. 그러나 to_datetime 함수 사용시 datetime 함수에 맞지 않는 형태로 기입되어 있으면 변환이 되지 않는다! ex) 위와 같이 '오전' 이라는 문자가 포함 되어 있는 데이터를 to_datetime 함수를 이용하여 변환시켜 보겠다 타입에러의 발생으로 변환되지 않는다. 해결방법 apply 함수.. 2024. 3. 15.
Python Pandas 실무 데이터 분석 : 엑셀 데이터 구조 파악하기 이번 시간에는 엑셀 정형 데이터 타입을 확인하는 시간을 가져보겠습니다. 정형 데이터를 가져왔을 때 어떤 타입의 데이터인지 파악하는 것이 중요하다. 어떤 데이터 타입인지에 따라 분석 방법과 결과가 달리지기 때문이다. 1. 데이터 타입(단일 변수) 1-1. 수치형 데이터 (숫자) - 이산형 : 변수의 값을 셀 수 있는 자료. 정수값으로 나타낼 수 있으며, 값 사이에는 간격이 존재한다 ex) 동전 던지기에 앞면이 나온 횟수, 수업 참여 횟수 등 - 연속형 : 모든 구간의 값을 가질 수 있는 숫자 자료. 실수값을 가지며, 값 사이에는 무한히 많은 가능한 값을 가질 수 있다 ex) 사람들의 키, 무게, 온도, 시간 등 1-2. 범주형 데이터 (문자) - 명목형 : 데이터 간 크기와 순서가 존재하지 않는 자료. 서.. 2024. 3. 15.
Python Pandas 실무 데이터 분석(행 추출, 정렬, 필터링, 저장) 이번시간에는 가져온 데이터에 행 추출, 정렬, 필터링(오름차순,내림차순), 저장 을 해보겠습니다 1. 행 추출 iloc[행 번호] - 행 번호에 맞는 데이터를 추출 해준다 위와 같이 행 범위를 설정해주어 추출 하는것도 가능하다. 2. 데이터 정렬 2.1 sort.values(by='정렬기준', ascending = True or False) - 정렬기준에 따라 정렬 해준다 여기서 ascending 을 생략 및 True로 설정하면 오름차순 False로 설정하면 내림차순으로 정렬 된다 2.2 sort.value(by=['정렬기준1','정렬기준2']) - 여러가지 정렬기준을 정하고 싶을 땐 by라는 함수 안에 리스트 형태로 정렬기준을 여러가지 지정 해준다. 3. 데이터 필터 데이터들 중에 조건에 맞는 데이터를.. 2024. 3. 14.