본문 바로가기

통계19

Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리 4 (apply / Pivoting / Save / Ploty) 저번 포스팅에이어 전처리를 좀 더 해준 후 데이터 분석을 해보겠습니다. 목표 점포 별 판매량의 추이를 그래프로 표현 상품의 종류를 나누어 표현 가장 많이 팔린 점포만 확인 1. 상품의 종류를 나누어서 표현 정규식 apply 함수를 사용하여 상품들을 분류하여 주겠습니다. 위 처럼 분류한 데이터를 이용하여 'Non Type' 을 제외한 데이터들을 시각화 해보겠습니다. loc에 조건을 주어 'Non Type' 을 제외 시킨 후 info 함수를 통해 데이터를 확해보았다. 데이터를 확인 해보니 '판매량' 컬럼이 수치형 타입이 아닌 범주형 타입을 가지고 있다. 판매량의 타입을 int 형으로 변환 시켜줄려고 하니 오류가 발생하였다. ',' 와 같은 기호 떄문에 변환이 되지 않는 것이다. replace 함수를 이용하여.. 2024. 3. 26.
Python Pandas 실무 데이터 분석 : 엑셀 데이터 전처리 3 (Stack / Melt) 엑셀 데이터 전처리를 이어서 진행 해보겠습니다. 데이터 오늘 전처리할 데이터는 음료회사의 점포, 상품, 수량으로 이루어진 데이터 이다 오늘 목표는 점포 별 판매량의 추이를 그래프로 표현 상품의 종류를 나누어 표현 가장 많이 팔린 점포만 확인 입니다 데이터 재구조화 및 전처리 원본 데이터의 구조를 바꾸어 주는 것 pivot(), pd.pivot_table() stack(), unstack() melt() wide_to_long 먼저 필요없는 컬럼인 '순번', '상품코드' 컬럼을 삭제 해준 후 상품명을 기준으로 각 점포별 수량을 볼 수 있게 재구조화 해주겠습니다. 1. Stack 함수 상품명을 index로 둔 다음 stack 함수를 이용하여 전처리 - '상품명'을 index로 둔 이유는 value값에 수치 .. 2024. 3. 26.
Python 실전 Project 축구선수 시장가치 분석 2 ( Transfermarkt 실전 크롤링, 데이터 저장하기, 2개의 페이지 한 번에 크롤링하기) 이번 시간에는 Transfermarkt 사이트에서 실제 축구선수의 시장가치 분석을 위한 크롤링을 해보겠습니다. 실전 크롤링 먼저 크롤링에 필요한 라이브러리를 가져오겠습니다 그 후 우리가 분석할 https://www.transfermarkt.com/spieler-statistik/wertvollstespieler/marktwertetop 웹 사이트의 정보를 request를 통해서 불러오겠습니다! Requests 응답으로 200이 온 것으로 보아 올바른 응답이 왔음을 알 수 있습니다. BeautifulSoup을 통해 분석 준비를 해보겠습니다 BeautifulSoup soup의 정보를 보니 url의 html 정보가 잘 담긴 것을 볼 수 있습니다. 선수들의 정보가 담긴 태그와 클래스 찾고 가져오기 이제 선수들의.. 2024. 3. 25.
Python 실전 Project 축구선수 시장가치 분석 1 (웹 크롤링, Requests, BeautifulSoup 사용) 이번 시간에는 축구선수 시장가치 분석을 한 번 해보겠습니다. Transfermarket.com 사이트에서 웹 크롤링을 통해 데이터를 가져오고 파이썬의 Pandas를 이용하여 분석을 해보겠습니다. 먼저 웹 크롤링이 먼지 알아보겠습니다. 웹 크롤링 이란 ? 웹 사이트에 있는 데이터를 추출해서 올 떄 자동화 된 프로세를 하는 것 웹 페이지의 기본 구조 HTML (Structure) - 뼈대 , 구조 CSS (Styling) - 디자인 Java script (Functionality) - 기능적 Chrome 개발자 도구 Chrome에서 오른쪽 마우스 -> 검사(N) F12 더보기 -> 도구 더보기 -> 개발자 도구 Chrome 개발자 도구에서 위 아이콘을 클릭하여 웹 페이지에 마우스 커서를 옮기면 마우스 커서가.. 2024. 3. 25.