인공지능 공부/남박사의 파이썬 실전
(인프런) 파이썬 실전 requests, requests_html, beautifulsoup
앨런튜링_
2021. 5. 30. 15:26
'''
크롤링을 해보자
1. 원하는 웹페이지에 접속하여 HTML 데이터를 받아온다
2. 받아온 HTML 데이터를 분석가능한 형태로 가공한다
3. 원하는 데이터를 추출한다.
'''
##파이썬 라이브러리를 사용하면됨!
##내장 라이브러리는 성능이 별로..
import requests
from requests_html import HTMLSession
from bs4 import BeautifulSoup
##데이터를 받아오는 방법
response = requests.get('https://www.naver.com')
# print(response.status_code)
# print(response.headers)
# print(response.content) ##디코딩이 되지 않은 것
print(response.text) ##디코딩이 된 것
##분석가능한 형태로 가공해보자
##분석 라이브러리 pip install BeautifulSoup4
##text 데이터를 parser에 주면 내가 원하는 걸 파싱하는 부분
bs = BeautifulSoup(response.text, "html.parser")
# print(bs.select("img")) ##img 태그를 모두 뽑아라
##리스트 형태라 보기힘듬
for img in bs.select("img"):
print(img)
##또다른 분석방법 requests_html을 분석해보자
session = HTMLSession()
response = session.get("https://www.naver.com")
print(response.html.links)