웹 스크래핑 해보기
라이브러리 불러들이기
웹스크래핑을 위해 lxml.html
과 requests
를 불러들입니다.
import lxml.html
import requests
응답 코드
위키백과에 요청을 보내고 res
변수에 웹사이트 응답을 받아옵니다.
url = 'https://ko.wikipedia.org/wiki/HTML'
res = requests.get(url)
코드 실행결과로 <Response [200]>
이 출력됩니다.
res
<Response [200]>
응답 코드만 확인하려면:
res.status_code
200
응답코드 200은 해당 웹사이트에 대해 정상적으로 값을 받았다는 것을 의미합니다.
웹사이트 제목
응답의 텍스트를 처리하여 필요한 요소를 추출할 수 있도록 합니다.
root = lxml.html.fromstring(res.text)
CSS 선택자를 이용하여 원하는 요소를 선택합니다. 여기서는 title
태그를 선택합니다.
ts = root.cssselect('title')
title
요소가 한 개 선택되었습니다.
ts
[<Element title at 0x1a5abca3a98>]
선택된 요소의 텍스트를 추출합니다.
ts[0].text
'HTML - 위키백과, 우리 모두의 백과사전'