Python 웹 스크래핑

Python으로 웹에 있는 자료들을 스크래핑 하는 방법을 알아봅니다.


수강중

7. 웹 스크래핑 해보기

라이브러리 불러들이기

웹스크래핑을 위해 lxml.htmlrequests를 불러들입니다.

import lxml.html
import requests

응답 코드

위키백과에 요청을 보내고 res 변수에 웹사이트 응답을 받아옵니다.

url = 'https://ko.wikipedia.org/wiki/HTML'
res = requests.get(url)

코드 실행결과로 <Response [200]>이 출력됩니다.

res
<Response [200]>

응답 코드만 확인하려면:

res.status_code
200

응답코드 200은 해당 웹사이트에 대해 정상적으로 값을 받았다는 것을 의미합니다.

웹사이트 제목

응답의 텍스트를 처리하여 필요한 요소를 추출할 수 있도록 합니다.

root = lxml.html.fromstring(res.text)

CSS 선택자를 이용하여 원하는 요소를 선택합니다. 여기서는 title 태그를 선택합니다.

ts = root.cssselect('title')

title 요소가 한 개 선택되었습니다.

ts
[<Element title at 0x1a5abca3a98>]

선택된 요소의 텍스트를 추출합니다.

ts[0].text
'HTML - 위키백과, 우리 모두의 백과사전'