robots.txt 로봇 배제 표준
공식사이트
1 개요
robots.txt는 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약이다. 아직 권고안이라 꼭 지킬 의무는 없으며 robots.txt는 웹사이트의 최상위 경로(=루트)에 있어야 한다. 즉, 사이트를 치고 슬래시 후 바로 robots.txt를 넣으면 볼 수 있다는 것이다. ex) http://namu.wiki/robots.txt
2 사용예
반드시 폴더명 맨 끝에 /를 붙여야한다.
특정 디렉토리의 접근을 허가하려면
User-agent: 제어할 로봇의 User-Agent Allow: /foo/bar/ |
특정 디렉토리의 접근을 차단하려면
User-agent: 제어할 로봇의 User-Agent Disallow: /foo/bar/ |
모든 문서에 대해 접근을 허가하려면 이게 의미가 있을까?
User-agent: * Allow: / |
사용 중인 사이트: 디시인사이드 등
모든 문서에 대해 접근을 차단하려면
User-agent: * Disallow: / |
유익하거나 이상한 사용예 있으면 추가바람
2.1 유명한 로봇들
이름 | User-Agent |
Googlebot | |
Google image | Googlebot-image |
Msn | MSNBot |
Naver | NaverBot[2] |
Daum | Daumoa |
2.2 나무위키의 robots.txt
[2]에서 확인할 수 있다.
2.3 Google의 robots.txt
[3]에서 볼 수 있다.