본문 바로가기

Python7

[Python / 머신러닝 / 기초] 활용 제조 / 공정 - 실무 데이터 마이닝 실습 2(분류 모델 평가 / 정확도 / 오차행렬 / 재현율 / 정밀도 / F1) 이번시간에는 저번 포스팅 때 만들었던 학습 모델에 대 평가를 진행해보도록 하겠습니다 이전 포스팅 보러가기: [Python / 머신러닝] 활용 제조 / 공정 - 실무 데이터 마이닝 (지도 학습 / 분류 모델 ) 분류 모델 평가 1. 머신러닝 평가 종류 1-1. 분류 모델 학습 능력 평가 학습 능력 평가란? 우리가 만들어준 model을 만들 때 사용했던 데이터 X_train을 다시 model 넣어주어 Y_train값과 새롭게 얻어지는 Y_train_pred 값을 비교하는 평가 즉 만들어진 모델이 올바른 수식을 도출했는가를 확인하는 평가이다. 1-2. 분류 모델 일반화 능력 평가 일반화 능력 평가란? 우리가 만들어준 model 모델을 만들 때 사용하지 않은 데이터가 들어왔을 때(X_test) 올바른 결과를 도.. 2024. 3. 28.
[Python / 머신러닝 / 기초] 활용 제조 / 공정 - 실무 데이터 마이닝 실습1 (지도 학습 / 분류 모델 ) 이번시간에는 활용 제조 / 공정 데이터를 사용하여 머신러닝의 지도학습에 대해서 알아보는 시간을 가져보겠습니다 지도학습 지도학습이란 ? 목표변수(Y)와 설명변수(X) 간의 관계를 수식화 하여, 새로운 설명변수(X)에 대해 목표변수(Y)를 예측하거나 분류하는 기법이다. 지도학습에는 2가지 종류가 있습니다 회귀 (Regression, Y 가 연속형 변수 일 때) : 정확한 목표변수(Y)를 예측 분류 (Classification, Y 가 범주형 변수 일 때) : 특정 항목을 정확하게 구분 지도 학습 절차 지도학습은 다음과 같은 절차에 따라서 진행됩니다. 데이터 핸들링 - 데이터 불러오기, 파생변수 생성, 이상치 제거 등 .. 회귀 / 분류 기법을 적용시킬 목표변수(Y)와 설명변수(X)를 설정 학습데이터(Trai.. 2024. 3. 28.
Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리 4 (apply / Pivoting / Save / Ploty) 저번 포스팅에이어 전처리를 좀 더 해준 후 데이터 분석을 해보겠습니다. 목표 점포 별 판매량의 추이를 그래프로 표현 상품의 종류를 나누어 표현 가장 많이 팔린 점포만 확인 1. 상품의 종류를 나누어서 표현 정규식 apply 함수를 사용하여 상품들을 분류하여 주겠습니다. 위 처럼 분류한 데이터를 이용하여 'Non Type' 을 제외한 데이터들을 시각화 해보겠습니다. loc에 조건을 주어 'Non Type' 을 제외 시킨 후 info 함수를 통해 데이터를 확해보았다. 데이터를 확인 해보니 '판매량' 컬럼이 수치형 타입이 아닌 범주형 타입을 가지고 있다. 판매량의 타입을 int 형으로 변환 시켜줄려고 하니 오류가 발생하였다. ',' 와 같은 기호 떄문에 변환이 되지 않는 것이다. replace 함수를 이용하여.. 2024. 3. 26.
Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리 3 (Stack / Melt) 엑셀 데이터 전처리를 이어서 진행 해보겠습니다. 데이터 오늘 전처리할 데이터는 음료회사의 점포, 상품, 수량으로 이루어진 데이터 이다 오늘 목표는 점포 별 판매량의 추이를 그래프로 표현 상품의 종류를 나누어 표현 가장 많이 팔린 점포만 확인 입니다 데이터 재구조화 및 전처리 원본 데이터의 구조를 바꾸어 주는 것 pivot(), pd.pivot_table() stack(), unstack() melt() wide_to_long 먼저 필요없는 컬럼인 '순번', '상품코드' 컬럼을 삭제 해준 후 상품명을 기준으로 각 점포별 수량을 볼 수 있게 재구조화 해주겠습니다. 1. Stack 함수 상품명을 index로 둔 다음 stack 함수를 이용하여 전처리 - '상품명'을 index로 둔 이유는 value값에 수치 .. 2024. 3. 26.