안녕하세요. 오늘은 python의 웹 스크래핑 라이브러리인 scrapy를 사용해 보고자 합니다.
실습 환경은 window10, python 3.9.5, vscode 입니다.
오늘의 실습은 https://docs.scrapy.org/en/latest/intro/overview.html#scrapy-at-a-glance 스크래피의 공식 문서를 보고 진행 합니다.
1. 프로젝트 시작하기
터미널에 다음과 같은 명령어를 입력하면 scrapy project가 만들어 집니다.
scrapy startproject tutorial
위와 같은 구조로 프로젝트가 생성 됩니다.
그 후에 tutorial/tutorial/에 scrapy 파일들을 작성하면 됩니다. 아래 코드는 공식 문서에 있는 예제 코드입니다.
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
def start_requests(self):
urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
page = response.url.split("/")[-2]
filename = f'quotes-{page}.html'
with open(filename, 'wb') as f:
f.write(response.body)
self.log(f'Saved file {filename}')
-- 미완성 --
'프로그래밍 > python' 카테고리의 다른 글
fast api 파이썬의 고성능 프레임워크 (0) | 2021.04.27 |
---|---|
python celery 속도 향상 시키기 (0) | 2021.04.26 |