Robots.txt

robots.txt 로봇 배제 표준
공식사이트

1 개요

robots.txt는 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약이다. 아직 권고안이라 꼭 지킬 의무는 없으며 robots.txt는 웹사이트의 최상위 경로(=루트)에 있어야 한다. 즉, 사이트를 치고 슬래시 후 바로 robots.txt를 넣으면 볼 수 있다는 것이다. ex) http://namu.wiki/robots.txt

2 사용예

반드시 폴더명 맨 끝에 /를 붙여야한다.

특정 디렉토리의 접근을 허가하려면


User-agent: 제어할 로봇의 User-Agent
Allow: /foo/bar/

특정 디렉토리의 접근을 차단하려면


User-agent: 제어할 로봇의 User-Agent
Disallow: /foo/bar/

모든 문서에 대해 접근을 허가하려면 이게 의미가 있을까?


User-agent: *
Allow: /

사용 중인 사이트: 디시인사이드

모든 문서에 대해 접근을 차단하려면


User-agent: *
Disallow: /

사용 중인 사이트: 네이버[1]

유익하거나 이상한 사용예 있으면 추가바람

2.1 유명한 로봇들

[1]

이름User-Agent
GoogleGooglebot
Google imageGooglebot-image
MsnMSNBot
NaverNaverBot[2]
DaumDaumoa

2.2 나무위키의 robots.txt

[2]에서 확인할 수 있다.

2.3 Google의 robots.txt

[3]에서 볼 수 있다.

3 기타

그런데, 사족으로 다음은 웹 서비스를 위한 호스트명(www.daum.net 혹은 daum.net)에서 robots.txt를 요청하니 "원하시는 페이지를 찾을 수가 없습니다."(...)라고 뜬다. 다만 다음의 다른 서비스를 통해 robots.txt를 확인해보면 별도로 막는 것은 없음을 확인할 수 있다.
  1. 즉, 네이버는 원칙 하에는 크롤링을 절대 금한다는 말이 된다.(...)
  2. 2005년부터는 Yeti