본문 바로가기
통계/데이터 분석 기초

통계적 데이터 분석 절차 (DDA / EDA / CDA / PDA)

by 만슨 2024. 3. 27.

 

통계적 데이터 분석 절차 DDA / EDA / CDA / PDA 에 대해서 순서별로 알아보겠습니다

 

1. 기술적 데이터 분석 DDA (Descriptive Data Analysis)

DDA란 ? 

분석할 데이터의 현재의 모습을 요약하여 기술하는 분석 방법

 

1. 데이터의 구조타입 확인

  • 데이터의 구조 (정형 데이터 구조)
    1. index : 데이터의 순서 (데이터의 개수)
    2. Column : 데이터의 항목 (데이터 타입)
    3. Value : 데이터의 값 (데이터의 형식 Format) ex. 2024-3-27 , 2024년3월27일
  • 데이터 타입 
    1. 연속형 (숫자)
    2. 범주형 (문자)
    3. 순서형 (날짜/시간 등)

2. 비즈니스 문제상황에 대한 규명 

  • 분석 목적
  • 과제 정의

3. 목표변수 (Y, Label, Target) 설정 

 

4. 기술 통계량 확인 - 분석할 데이터가 통계적으로 어떤 특성을 갖는지 확인

  • 연속형 : 대표값(평균 / 중앙값 / 최대 최소값 등) , 산포(표준편차 / 분산 등), 분포의 모양
  • 범주형 : 항목 / 빈도수

5. 데이터 전처리

 

 

2. 탐색적 데이터 분석 (EDA)

EDA란 ? 

목표변수(Y, Label, Target)와 설명변수(X, Feature, input) 간의 관계, 트랜드를 파악하는 단계이다

데이터 시각화 기법을 통해 경향(Trend)를 파악한다 

 

위 기술적 데이터 분석 과정에서 알게된 데이터 타입에 따라 시각화 하는 방법또한 다르다

 

- 데이터 타입

  • 단일변수
    1. 연속형 : 데이터 분포 확인(Histogram / KDE 확률밀도함수 / Box Plot)
    2. 범주형 : 각 항목의 빈도수 확인 (Bar Chart / pie Chart)
  • 다 변수
    1. x : 범주형 , Y : 연속형 : 집단 간 (항목 간) 통계량 비교 (Bar Chart / Box Plot)
    2. x : 연속형 , Y : 연속형 : 두 데이터 간 상관성 (Scatter Plot 산점도)
    3. x : 순서형 , Y : 연속형 : 시간 (순서)에 따른 경향성 확인 (Line Plot)  

 

 

3. 확증적 데이터 분석 (CDA)

CDA 란?

 

EDA 단계에서 확인한 데이터들간의 관계 및 트렌드 들이 객관적으로 타당한 분석인지 규명하고자 하는 바를 가설로 수립하여, 객관적인 수치로 검증하는 절차이다

 

즉 통계적 가설 검정을 이용하여 검증하는 것이다.

 

통계적 가설 검정 : 귀무가설 , 대립가설을 새워 P - Value 값을 확인하여 검증하는 것

 

 - 귀무가설 : 기각 시킬 목적으로 수립하는 가설

 - 대립가설 : 채택 시킬 목적으로 수립하는 가설

 - P -Value : 귀무가설이 참일 확률

 - 유의수준 : 귀무가설의 기각 여부를 결정하는데 기준이 되는 확률

 

여기서 P -Value 값은 상황에 맞는 여러가지 분석 도구 (T-test , ANOVA, 상관분석 등..)를 이용하여 구한다

 

 

4. 예측적 데이터 분석 (PDA)

PDA란?

 

데이터 간 관계를 통해 관계식을 만들고 새로운 데이터가 들어왔을 때 최적 조건을 예측 하는 단계이다.

 

기계학습(Machine Learning)이 PDA에 해당된다고 할 수 있습니다!

 

 

참고 : https://www.youtube.com/watch?v=uLCHm8w60Ho&list=PLhdHuKlSngGzqelaQv7byMNLhtqqqeNqO&t=149   

https://www.youtube.com/watch?v=sGW1-gNIawM&list=PLhdHuKlSngGzqelaQv7byMNLhtqqqeNqO&index=2