크롤링, 스크래이핑
**크롤링 **
인터넷상의 정보를 수집하고 특정 목적에 사용하기 쉽게 형식을 가공하고 저장하는 프로그램
구현시 유의사항
-
한번 접근한 URL을 기록해 두번 접근하지 않게 한다.
-
특정 패턴과 일치하는 URL만 순회하도록 만든다.
-
시작페이지부터 접근해 들어가는 페이지에 깊이에 제한을 둔다.
스크래이핑
수집한 콘텐츠에서 필요한 정보를 추출하는 것을 “스크레이핑” 이라고 한다.
콘텐츠와 불필요한 부분을 제거해야 검색과 분석용도로 활용이 가능하다.
웹 크롤러가 지켜야 하는 규칙
-
크롤링 대상 서버에 심한 부하 걸지 않기.
-
크롤링으로 추출한 콘텐츠의 저작권 지키기.
-
크롤링 거부 의사를 밝힌 웹 사이트와 웹 페이지 크롤링 하지 않기.
-
동시에 여러 요청 보내지 않기.
-
요청 간격은 최소 1초 이상으로 설정하기.
-> Robot.txt에 크롤링 간격이 지정되어 있으면 그 시간에 맞추기. 크롤링 거부 의사를 밝히면 크롤링 하지 않기
This article is licensed under CC BY 4.0 by the author.