20/08/12 TL. Scrapy

오늘 할 일

영어공부 꼭!!!

~~불키 자료 정리~~

//coursera - Logistic Regrression Model

scrapy 익히기

~~nomadcoder - React로 영화 앱 만들기 3강까지~~

Fitting Room

내일 할 일

nomadcoder - React로 영화 앱 만들기

----------------------------------------------------------------------------------------

아나콘다 프롬프트 명령어

https://3210w0.tistory.com/181

[아나콘다] Anaconda Prompt 명령어

1. >conda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 (base) C:\Users\0w0>conda usage: conda-script.py..

3210w0.tistory.com

스크래피

https://engkimbs.tistory.com/897

스크래피(scrapy) 설치 및 scrapy 프로젝트 시작하기

이전 scrapy에 대한 소개와 아키텍처에 대한 글과 이어지는 내용입니다~ [Python/Python 프로그래밍] - 크롤링, 스크래핑할 때 이거 쓰세요. 최고의 파이썬 크롤링 솔루션 scrapy window에서 anaoncda를 통��

engkimbs.tistory.com

item.py: 크롤링할 데이터를 저장하는 기능을 하는 객체의 클래스를 정의하는 곳입니다.
middlewares.py: scrapy의 커스텀 middleware의 기능을 정의하는 곳입니다. middleware는 다시 한 번 이야기하자면 engine에서 다른 모듈로 request와 response 정보가 교환될 때 지나가는 중간 통로입니다.
pipelines.py: item pipelines의 커스텀 모듈을 정의하는 곳입니다. pipeline은 item이 다른 저장소로 저장될 때 거치는 통로라고 생각하면 됩니다.
settings.py: 현재 scrapy 프로젝트의 설정을 하는 파이썬 파일입니다.
scrapy.cfg: scrapy 프로젝트들의 전체적인 설정을 하는 곳입니다. 어떤 프로젝트가 어떤 설정을 따를 것인지 배포는 어떤 식으로 할 것인지를 정합니다.

name : scrapy의 Spider 객체를 식별하는 역할을 하는 클래스 변수입니다. 오직 하나의 유일한 name을 Spider 객체는 가질 수 있습니다.
start_requests: 크롤링이 최초로 시작되는 요청 메서드입니다. 반드시 반복가능한(iterable) 요청 객체인 Requests를 반환해야하며 크롤링할 url들을 명시해야합니다. 이 최초의 요청이 시작되면 이로 인한 연속적인 요청이 Spider에서 이루어집니다. 이 때문에 반복가능한(iterable) 객체를 반환하도록 되어 있는 것입니다.
parse: 요청한 데이터에 대한 응답 객체인 Reponse 객체를 받아서 응답 데이터를 파싱하는 데 쓰이는 메서드입니다. Spider에서의 각 요청 데이터들에 대한 응답을 파싱하는 데에 포인트를 두셔야 합니다. 위 response 파라미터는 TextResponse라는 인스턴스이며 페이지의 컨텐츠에 대한 정보를 담고 있습니다.

출처: https://engkimbs.tistory.com/897 [새로비]

'TL' 카테고리의 다른 글

20/08/14 TL (2)	2020.08.14
20/08/13 TL (0)	2020.08.13
20/08/11 TL (5)	2020.08.11
20/08/10 TL. Logical Regression, Airbnb 데이터셋 분석 (0)	2020.08.10
20/08/09 TL (0)	2020.08.09

Contents

새소식

인기 검색어

20/08/12 TL. Scrapy

'TL' 카테고리의 다른 글

당신이 좋아할만한 콘텐츠

티스토리툴바