웹 스크래핑 해보기

라이브러리 불러들이기

웹스크래핑을 위해 lxml.html과 requests를 불러들입니다.

import lxml.html
import requests

위키백과에 요청을 보내고 res 변수에 웹사이트 응답을 받아옵니다.

url = 'https://ko.wikipedia.org/wiki/HTML'
res = requests.get(url)

코드 실행결과로 <Response [200]>이 출력됩니다.

res

<Response [200]>

응답 코드만 확인하려면:

res.status_code

응답코드 200은 해당 웹사이트에 대해 정상적으로 값을 받았다는 것을 의미합니다.

응답의 텍스트를 처리하여 필요한 요소를 추출할 수 있도록 합니다.

root = lxml.html.fromstring(res.text)

CSS 선택자를 이용하여 원하는 요소를 선택합니다. 여기서는 title 태그를 선택합니다.

ts = root.cssselect('title')

title 요소가 한 개 선택되었습니다.

ts

[<Element title at 0x1a5abca3a98>]

선택된 요소의 텍스트를 추출합니다.

ts[0].text

'HTML - 위키백과, 우리 모두의 백과사전'