이번시간에는 활용 제조 / 공정 데이터를 사용하여 머신러닝의 지도학습에 대해서 알아보는 시간을 가져보겠습니다
지도학습
지도학습이란 ?
목표변수(Y)와 설명변수(X) 간의 관계를 수식화 하여, 새로운 설명변수(X)에 대해 목표변수(Y)를 예측하거나 분류하는 기법이다.
지도학습에는 2가지 종류가 있습니다
- 회귀 (Regression, Y 가 연속형 변수 일 때) : 정확한 목표변수(Y)를 예측
- 분류 (Classification, Y 가 범주형 변수 일 때) : 특정 항목을 정확하게 구분
지도 학습 절차
지도학습은 다음과 같은 절차에 따라서 진행됩니다.
- 데이터 핸들링 - 데이터 불러오기, 파생변수 생성, 이상치 제거 등 ..
- 회귀 / 분류 기법을 적용시킬 목표변수(Y)와 설명변수(X)를 설정
- 학습데이터(Train set)와 검증 데이터(Test set)를 분할
- 학습 데이터를 이용해, 수식을 생성(Modeling을 통해 Model 생성)
- 학습을 수행할 때 학습이 잘 되게끔 데이터를 다듬어주는 특성공학(feature engineering)적 기법 사용
- 학습 알고리즘을 이용하여 Model 학습
- 평가 (Evaluation)
- 학습 성능 평가(Train Set)을 통해 학습능력을 평가해준다
- 일반화 성능 평가(Test Set)을 통해 일반화 능력을 평가해준다
이제 실제 데이터를 통한 실습을 해보겠습니다.
웨이퍼 공정 작업 데이터를 통한 실습
Wafer 불량 여부 데이터를 가지고
지도 학습 절차를 통해 분류 모델을 만들어 보겠습니다.
1. 데이터 핸들링
데이터를 불러와 info 함수로 데이터 타입들을 파악하였다
isnull().sum() 함수를 통해 데이터에 결측치가 없다는 것도 확인해주었다.
isnull() 함수만 사용하면 True , False 값으로 나오게 된다.
이미 데이터 핸들링이 되어있는 데이터이므로 다음 절차로 넘어가 보겠다.
2. 회귀 / 분류 기법을 적용시킬 목표변수(Y)와 설명변수(X)를 설정
먼저 Wafer 폐기 여부를 판별하는 모델을 생성해 보겠습니다
폐기된 와이퍼의 수를 확인해보았습니다.
설명변수를 설정할 때는 내가 설정한 목표변수에 직접적인 영향을 끼치는 변수들을 제거해주어야 한다
목표변수 (Y) , 설명변수 (X)
목표변수 (Y) 는 폐기된 와이퍼를 나타내는 'target_binom'로 잡고
설명변수 (X) 는 불 필요한 컬럼을 drop 해준 후 수치형 데이터만 설명변수로 설정하였습니다.
describe() - 모든 수치 데이터의 통계량을 나타내준다.
3. 학습데이터(Train set)와 검증 데이터(Test set)를 분할
학습데이터와 검증데이터를 분할해주기 위해 sklearn라이브러리를 받아주었다
train_test_split - 데이터를 train , test 데이터로 나누어 주는 함수
데이터 수가 적절하게 잘 분할된 것을 볼 수 있다.
4. 학습 데이터를 이용해, 수식을 생성(Modeling을 통해 Model 생성)
DecisionTree 알고리즘을 사용하여 학습시켜 주겠습니다.
다음 포스팅에서 이어서 우리가 만든 학습모델을 평가하는 포스팅을 해보겠습니다
참고 : https://www.youtube.com/watch?v=bbZ0ZYdtMBM&list=PLhdHuKlSngGzqelaQv7byMNLhtqqqeNqO&index=7