통계적 데이터 분석 절차 DDA / EDA / CDA / PDA 에 대해서 순서별로 알아보겠습니다
1. 기술적 데이터 분석 DDA (Descriptive Data Analysis)
DDA란 ?
분석할 데이터의 현재의 모습을 요약하여 기술하는 분석 방법
1. 데이터의 구조와 타입 확인
- 데이터의 구조 (정형 데이터 구조)
- index : 데이터의 순서 (데이터의 개수)
- Column : 데이터의 항목 (데이터 타입)
- Value : 데이터의 값 (데이터의 형식 Format) ex. 2024-3-27 , 2024년3월27일
- 데이터 타입
- 연속형 (숫자)
- 범주형 (문자)
- 순서형 (날짜/시간 등)
2. 비즈니스 문제상황에 대한 규명
- 분석 목적
- 과제 정의
3. 목표변수 (Y, Label, Target) 설정
4. 기술 통계량 확인 - 분석할 데이터가 통계적으로 어떤 특성을 갖는지 확인
- 연속형 : 대표값(평균 / 중앙값 / 최대 최소값 등) , 산포(표준편차 / 분산 등), 분포의 모양
- 범주형 : 항목 / 빈도수
5. 데이터 전처리
2. 탐색적 데이터 분석 (EDA)
EDA란 ?
목표변수(Y, Label, Target)와 설명변수(X, Feature, input) 간의 관계, 트랜드를 파악하는 단계이다
데이터 시각화 기법을 통해 경향(Trend)를 파악한다
위 기술적 데이터 분석 과정에서 알게된 데이터 타입에 따라 시각화 하는 방법또한 다르다
- 데이터 타입
- 단일변수
- 연속형 : 데이터 분포 확인(Histogram / KDE 확률밀도함수 / Box Plot)
- 범주형 : 각 항목의 빈도수 확인 (Bar Chart / pie Chart)
- 다 변수
- x : 범주형 , Y : 연속형 : 집단 간 (항목 간) 통계량 비교 (Bar Chart / Box Plot)
- x : 연속형 , Y : 연속형 : 두 데이터 간 상관성 (Scatter Plot 산점도)
- x : 순서형 , Y : 연속형 : 시간 (순서)에 따른 경향성 확인 (Line Plot)
3. 확증적 데이터 분석 (CDA)
CDA 란?
EDA 단계에서 확인한 데이터들간의 관계 및 트렌드 들이 객관적으로 타당한 분석인지 규명하고자 하는 바를 가설로 수립하여, 객관적인 수치로 검증하는 절차이다
즉 통계적 가설 검정을 이용하여 검증하는 것이다.
통계적 가설 검정 : 귀무가설 , 대립가설을 새워 P - Value 값을 확인하여 검증하는 것
- 귀무가설 : 기각 시킬 목적으로 수립하는 가설
- 대립가설 : 채택 시킬 목적으로 수립하는 가설
- P -Value : 귀무가설이 참일 확률
- 유의수준 : 귀무가설의 기각 여부를 결정하는데 기준이 되는 확률
여기서 P -Value 값은 상황에 맞는 여러가지 분석 도구 (T-test , ANOVA, 상관분석 등..)를 이용하여 구한다
4. 예측적 데이터 분석 (PDA)
PDA란?
데이터 간 관계를 통해 관계식을 만들고 새로운 데이터가 들어왔을 때 최적 조건을 예측 하는 단계이다.
기계학습(Machine Learning)이 PDA에 해당된다고 할 수 있습니다!
참고 : https://www.youtube.com/watch?v=uLCHm8w60Ho&list=PLhdHuKlSngGzqelaQv7byMNLhtqqqeNqO&t=149
https://www.youtube.com/watch?v=sGW1-gNIawM&list=PLhdHuKlSngGzqelaQv7byMNLhtqqqeNqO&index=2