문서 편집 권한이 없습니다. 다음 이유를 확인해주세요: 요청한 명령은 다음 권한을 가진 사용자에게 제한됩니다: 사용자. 문서의 원본을 보거나 복사할 수 있습니다. [목차] robots.txt 로봇 배제 표준 [[http://www.robotstxt.org/|공식사이트]] == 개요 == robots.txt는 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약이다. 아직 권고안이라 꼭 지킬 의무는 없으며 robots.txt는 웹사이트의 최상위 경로(=루트)에 있어야 한다. 즉, 사이트를 치고 슬래시 후 바로 robots.txt를 넣으면 볼 수 있다는 것이다. ex) http://namu.wiki/robots.txt == 사용예 == '''반드시 폴더명 맨 끝에 /를 붙여야한다.''' 특정 디렉토리의 접근을 허가하려면 ||''' User-agent: 제어할 로봇의 User-Agent Allow: /foo/bar/ '''|| 특정 디렉토리의 접근을 차단하려면 ||''' User-agent: 제어할 로봇의 User-Agent Disallow: /foo/bar/ '''|| 모든 문서에 대해 접근을 허가하려면 ~~이게 의미가 있을까?~~ ||''' User-agent: * Allow: / '''|| 사용 중인 사이트: [[디시인사이드]] 등 모든 문서에 대해 접근을 차단하려면 ||''' User-agent: * Disallow: / '''|| 사용 중인 사이트: [[네이버]][* 즉, 네이버는 원칙 하에는 크롤링을 절대 금한다는 말이 된다.(...)] 등 유익하거나 이상한 사용예 있으면 [[추가바람]] === 유명한 로봇들 === [[http://user-agent-string.info/list-of-ua/bots]] ||'''이름'''||'''User-Agent '''|| ||Google||Googlebot|| ||Google image||Googlebot-image|| ||Msn||MSNBot|| ||Naver||NaverBot[* 2005년부터는 Yeti]|| ||Daum||Daumoa|| === 나무위키의 robots.txt === [[https://namu.wiki/robots.txt]]에서 확인할 수 있다. {{{#!html <iframe src="https://namu.wiki/robots.txt "></iframe>}}} === [[Google]]의 robots.txt === [[http://www.google.com/robots.txt]]에서 볼 수 있다. {{{#!html <iframe src="http://www.google.com/robots.txt"></iframe>}}} == 기타 == 그런데, 사족으로 다음은 웹 서비스를 위한 호스트명(www.daum.net 혹은 daum.net)에서 robots.txt를 요청하니 "원하시는 페이지를 찾을 수가 없습니다."(...)라고 뜬다. 다만 다음의 다른 서비스를 통해 robots.txt를 확인해보면 별도로 막는 것은 없음을 확인할 수 있다. Robots.txt 문서로 돌아갑니다.