본문 바로가기

통계/데이터 분석 기초13

통계적 데이터 분석 절차 (DDA / EDA / CDA / PDA) 통계적 데이터 분석 절차 DDA / EDA / CDA / PDA 에 대해서 순서별로 알아보겠습니다 1. 기술적 데이터 분석 DDA (Descriptive Data Analysis) DDA란 ? 분석할 데이터의 현재의 모습을 요약하여 기술하는 분석 방법 1. 데이터의 구조와 타입 확인 데이터의 구조 (정형 데이터 구조) index : 데이터의 순서 (데이터의 개수) Column : 데이터의 항목 (데이터 타입) Value : 데이터의 값 (데이터의 형식 Format) ex. 2024-3-27 , 2024년3월27일 데이터 타입 연속형 (숫자) 범주형 (문자) 순서형 (날짜/시간 등) 2. 비즈니스 문제상황에 대한 규명 분석 목적 과제 정의 3. 목표변수 (Y, Label, Target) 설정 4. 기술 통.. 2024. 3. 27.
Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리 4 (apply / Pivoting / Save / Ploty) 저번 포스팅에이어 전처리를 좀 더 해준 후 데이터 분석을 해보겠습니다. 목표 점포 별 판매량의 추이를 그래프로 표현 상품의 종류를 나누어 표현 가장 많이 팔린 점포만 확인 1. 상품의 종류를 나누어서 표현 정규식 apply 함수를 사용하여 상품들을 분류하여 주겠습니다. 위 처럼 분류한 데이터를 이용하여 'Non Type' 을 제외한 데이터들을 시각화 해보겠습니다. loc에 조건을 주어 'Non Type' 을 제외 시킨 후 info 함수를 통해 데이터를 확해보았다. 데이터를 확인 해보니 '판매량' 컬럼이 수치형 타입이 아닌 범주형 타입을 가지고 있다. 판매량의 타입을 int 형으로 변환 시켜줄려고 하니 오류가 발생하였다. ',' 와 같은 기호 떄문에 변환이 되지 않는 것이다. replace 함수를 이용하여.. 2024. 3. 26.
Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리 3 (Stack / Melt) 엑셀 데이터 전처리를 이어서 진행 해보겠습니다. 데이터 오늘 전처리할 데이터는 음료회사의 점포, 상품, 수량으로 이루어진 데이터 이다 오늘 목표는 점포 별 판매량의 추이를 그래프로 표현 상품의 종류를 나누어 표현 가장 많이 팔린 점포만 확인 입니다 데이터 재구조화 및 전처리 원본 데이터의 구조를 바꾸어 주는 것 pivot(), pd.pivot_table() stack(), unstack() melt() wide_to_long 먼저 필요없는 컬럼인 '순번', '상품코드' 컬럼을 삭제 해준 후 상품명을 기준으로 각 점포별 수량을 볼 수 있게 재구조화 해주겠습니다. 1. Stack 함수 상품명을 index로 둔 다음 stack 함수를 이용하여 전처리 - '상품명'을 index로 둔 이유는 value값에 수치 .. 2024. 3. 26.
Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리2 (Table Join) 이번 시간에는 저번시간에 이어 엑셀 데이터 전처리를 이어서 마무리 해보겠습니다. 저번시간에 실제 데이터를 전처리하여 위와같은 날짜를 키로 가진 물품에 대한 제고량을 알수있는 형태로 만들어 주었습니다. 이어서 계속 진행해보겠습니다. 먼저 컬럼명을 정의해주겠습니다. rename 함수를 사용하여 컬럼명을 재정의 해주었습니다. 이제 원래의 데이터와 우리가 전처리 해준 데이터를 붙혀 보도록 하겠습니다. 데이터 합치기 우선 기존의 데이터중 필요한 데이터프레임을 가져옵니다. 그 다음 우리가 전처리해준 데이터프레임과 기존 데이터프레임을 합쳐보도록 하겠습니다 . Table Join right / left - 명시해준 테이블을 기준으로 다른 테이블에 데이터를 가져와서 합친다 inner - 중복된 데이터들만 가져와서 합친다.. 2024. 3. 18.