Python 실전 Project 축구선수 시장가치 분석 1 (웹 크롤링, Requests, BeautifulSoup 사용)

이번 시간에는 축구선수 시장가치 분석을 한 번 해보겠습니다.

Transfermarket.com 사이트에서 웹 크롤링을 통해 데이터를 가져오고 파이썬의 Pandas를 이용하여 분석을 해보겠습니다.

먼저 웹 크롤링이 먼지 알아보겠습니다.

웹 크롤링 이란 ?
웹 사이트에 있는 데이터를 추출해서 올 떄 자동화 된 프로세를 하는 것

웹 페이지의 기본 구조

HTML (Structure) - 뼈대 , 구조
CSS (Styling) - 디자인
Java script (Functionality) - 기능적

Chrome 개발자 도구

Chrome에서 오른쪽 마우스 -> 검사(N)
F12
더보기 -> 도구 더보기 -> 개발자 도구

Chrome 개발자 도구에서 위 아이콘을 클릭하여 웹 페이지에 마우스 커서를 옮기면 마우스 커서가 위치한 부분의 코드가 어떻게 이루어져있는지 보여준다.

웹 크롤링에 필요한 기본 지식을 알았으니 파이썬을 이용하여 웹 크롤링을 한 번 해보자

1. 파이썬을 이용한 웹 크롤링

1-1. 크롤링에 필요한 파이썬 라이브러리

Requests - 웹 페이지(html) 읽어 오기, 정적 웹 페이지 사용
Selenium - 웹 페이지 자동화, 동적 웹 페이지(스크롤, 로그인, ...) 사용
BeautifulSoup - 원하는 데이터 가져오기 (스크래핑)

1-2. Requests 라이브러리 사용법

https://requests.readthedocs.io/en/master/

Requests: HTTP for Humans™ — Requests 2.31.0 documentation

Requests: HTTP for Humans™ Release v2.31.0. (Installation) Requests is an elegant and simple HTTP library for Python, built for human beings. Behold, the power of Requests: >>> r = requests.get('https://api.github.com/user', auth=('user', 'pass')) >>> r.

requests.readthedocs.io

에서 reqeusts 사용 코드를 한 번 보자

위처럼 요청을 보냈을 때, 200응답이 오지 않는다면

User agent 정보를 header에 넣어 요청해주자

User agent 정보는 google에 'my user agent' 를 검색해주면 알 수 있다.

1. headers 와 url 의 정보 넣어주기
headers = {'user-Agent' : '유저정보'}
url = '접속할 사이트'
2. requests.get으로 요청 한 후 status_code로 응답 확인 하
requests.get(url, headers = headers)
.status_code

1-2. Beautifulsoup 라이브러리 사용법

pip install beautifulsoup4 - beautifulsoup 설치

Beautiful Soup Documentation — Beautiful Soup 4.12.0 documentation (crummy.com)

Beautiful Soup Documentation — Beautiful Soup 4.12.0 documentation

Beautiful Soup Documentation Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It commonly saves programmers h

www.crummy.com

위 사이트에서 사용법을 한 번 살펴보자

먼저 html_doc 안에 문서 정보를 저장해준 후

BeautifulSoup(html_doc, ' html.parser') 변수에 넣어준다.