본문 바로가기

전체 글27

Python Pandas 실무 데이터 분석 : 머신러닝 기초 (Scikit Learn) 안녕하세요 이번시간에는 머신러닝에 대해서 가볍게 한 번 알아보겠습니다. 머신러닝이란 ? - 인공지능(AI)를 구현하는 방법 중 하나로 빅데이터를 기계 스스로가 분석(학습)하고, 분석한 내용을 통해 결론(수식)을 도출하는 기술이다. 이처럼 학습 결과로 얻어진 지능을 이용하여 분석하고 사용하는 기술을 '머신러닝(Machine Learning)' 이라고 합니다. - 머신러닝 핵심 3 요소 데이터 : 학습 목적에 맞는 데이터 셋 구축 알고리즘 : 학습 목적에 맞는 적절한 알고리즘 선택 ex) 선형 회귀분석 / 의사 결정 나무 / KNN / SVM .... 하드웨어 : CPU / GPU - Scikit Learn 파이썬에서 머신러닝을 할 수 있게 도와주는 라이브러리 정형데이터를 처리하는 Pandas 와의 상호작용.. 2024. 3. 22.
Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리2 (Table Join) 이번 시간에는 저번시간에 이어 엑셀 데이터 전처리를 이어서 마무리 해보겠습니다. 저번시간에 실제 데이터를 전처리하여 위와같은 날짜를 키로 가진 물품에 대한 제고량을 알수있는 형태로 만들어 주었습니다. 이어서 계속 진행해보겠습니다. 먼저 컬럼명을 정의해주겠습니다. rename 함수를 사용하여 컬럼명을 재정의 해주었습니다. 이제 원래의 데이터와 우리가 전처리 해준 데이터를 붙혀 보도록 하겠습니다. 데이터 합치기 우선 기존의 데이터중 필요한 데이터프레임을 가져옵니다. 그 다음 우리가 전처리해준 데이터프레임과 기존 데이터프레임을 합쳐보도록 하겠습니다 . Table Join right / left - 명시해준 테이블을 기준으로 다른 테이블에 데이터를 가져와서 합친다 inner - 중복된 데이터들만 가져와서 합친다.. 2024. 3. 18.
Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리1 오늘은 실제 엑셀데이터를 가저와서 전처리 해보는 시간을 가져보겠습니다. 데이터 확인 오늘 우리가 처리할 데이터 형태를 보면 여러 문제가 있습니다 정돈된 데이터가 아닌 컬럼이 독립적이지 않고 날짜 데이터가 컬럼별로 다르게 나와 있습니다. 컬럼명이 명시되어 있지 않습니다. 이러한 데이터를 어떻게 전처리 할지 한 번 알아 보겠습니다. 엑셀 데이터 불러오기 pandas 라이브러리를 통해 엑셀 데이터를 가져와 보았습니다 역시 데이터 정리가 되어있지 않네요 3. 데이터 전처리 위 데이터는 제품명이 키값으로 되어있는 데이터이다. 따라서 제품명을 기준으로 날짜 데이터를 처리해주면 될 것 같습니다. 3-1. 행 제거 후 가져오기 데이터를 살펴보면 2행에 컬럼명이 명시되어 있네요 이럴 때는 데이터를 가져올 때 2행부터 가.. 2024. 3. 18.
Python Pandas 실무 데이터 분석 : 시각화2 (다변수 데이터 시각화 / 가격과 해약여부의 관계) 오늘은 다변수 데이터에 대해 시각화 하는 시간을 가져보도록 하겠습니다. 1. 다변수 데이터 시각화 1-1. x : 연속 / y : 연속 산점도 / 회귀선 / 상관분석 등을 해줄 수 있다. 1-1-1. 산점도 Seaborn 라이브러리의 scatterplot 함수를 사용해준다 위와같이 hue 를 이용한 범수형 데이터의 오버레이와 size를 이용한 연속형 데이터의 오버레이 또한 사용할 수 있다. jointplot 을 이용하여 x,y 변수의 각각의 데이터 들의 분포도 한 번에 볼 수 있다 1-1-2 회귀 Seaborn 라이브러리의 implot 함수를 사용해준다 pairplot 을 이용하여 가지고 있는 데이터 셋에 있는 모든 연속형 데이터에 대한 분포들을 확인해볼 수 있다. 모든 연속형 변수를 보기엔 데이터가 너.. 2024. 3. 17.