Robots.txt

1 개요

robots.txt는 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약이다. 아직 권고안이라 꼭 지킬 의무는 없으며 robots.txt는 웹사이트의 최상위 경로(=루트)에 있어야 한다. 즉, 사이트를 치고 슬래시 후 바로 robots.txt를 넣으면 볼 수 있다는 것이다. ex) http://namu.wiki/robots.txt

2 사용예

반드시 폴더명 맨 끝에 /를 붙여야한다.

특정 디렉토리의 접근을 허가하려면

User-agent: 제어할 로봇의 User-Agent Allow: /foo/bar/

특정 디렉토리의 접근을 차단하려면

User-agent: 제어할 로봇의 User-Agent Disallow: /foo/bar/

모든 문서에 대해 접근을 허가하려면 ~~이게 의미가 있을까?~~

User-agent: * Allow: /

사용 중인 사이트: 디시인사이드 등

모든 문서에 대해 접근을 차단하려면

User-agent: * Disallow: /

사용 중인 사이트: 네이버^[1] 등

유익하거나 이상한 사용예 있으면 추가바람

2.1 유명한 로봇들

[1]

이름	User-Agent
Google	Googlebot
Google image	Googlebot-image
Msn	MSNBot
Naver	NaverBot^[2]
Daum	Daumoa

2.2 나무위키의 robots.txt

[2]에서 확인할 수 있다.

2.3 Google의 robots.txt

[3]에서 볼 수 있다.

3 기타

그런데, 사족으로 다음은 웹 서비스를 위한 호스트명(www.daum.net 혹은 daum.net)에서 robots.txt를 요청하니 "원하시는 페이지를 찾을 수가 없습니다."(...)라고 뜬다. 다만 다음의 다른 서비스를 통해 robots.txt를 확인해보면 별도로 막는 것은 없음을 확인할 수 있다.

↑ 즉, 네이버는 원칙 하에는 크롤링을 절대 금한다는 말이 된다.(...)
↑ 2005년부터는 Yeti

[1] 즉, 네이버는 원칙 하에는 크롤링을 절대 금한다는 말이 된다.(...)

[2] 2005년부터는 Yeti

[1]

[2]