Post
EN

크롤링, 스크래이핑

**크롤링 **

인터넷상의 정보를 수집하고 특정 목적에 사용하기 쉽게 형식을 가공하고 저장하는 프로그램

구현시 유의사항

  1. 한번 접근한 URL을 기록해 두번 접근하지 않게 한다.

  2. 특정 패턴과 일치하는 URL만 순회하도록 만든다.

  3. 시작페이지부터 접근해 들어가는 페이지에 깊이에 제한을 둔다.

스크래이핑

수집한 콘텐츠에서 필요한 정보를 추출하는 것을 “스크레이핑” 이라고 한다.

콘텐츠와 불필요한 부분을 제거해야 검색과 분석용도로 활용이 가능하다.

웹 크롤러가 지켜야 하는 규칙

  1. 크롤링 대상 서버에 심한 부하 걸지 않기.

  2. 크롤링으로 추출한 콘텐츠의 저작권 지키기.

  3. 크롤링 거부 의사를 밝힌 웹 사이트와 웹 페이지 크롤링 하지 않기.

  4. 동시에 여러 요청 보내지 않기.

  5. 요청 간격은 최소 1초 이상으로 설정하기.

-> Robot.txt에 크롤링 간격이 지정되어 있으면 그 시간에 맞추기. 크롤링 거부 의사를 밝히면 크롤링 하지 않기

This article is licensed under CC BY 4.0 by the author.