로봇 배제 표준(robots.txt)

로봇 배제 표준(robots.txt)

2021. 4. 13. 23:32ㆍ웹 취약점

로봇 배제 표준?

웹사이트에 로봇이 접근하는 것을 방지하기 위한 규약을 의미한다.

접근제한에 대한 설명을 robots.txt 에 작성

robots.txt 파일은 해당페이지의 루트 디렉토리에 위치해야 함.

ex)

모든 검색로봇 접근 차단.

User-agent: *

Disallow: /

모든 검색로봇 접근 허용.

User-agent: *

Allow: /

모든 pdf 파일 차단 -> 끝이 .pdf로 끝나면 차단

User-agent: *

Disallow: /*.pdf$

특정 검색로봇만 허용/나머지 봇 차단

User-agent: Googlebot

User-agent: Slurp

Allow: /

특정 폴더만 접근 금지

User-agent: *

Disallow: /폴더명/

검색로봇

네이버 - Yetibot, 다음 - Daumoa, 구글 - Googlebot, 야후 - Slurp, 마이크로소프트 - Msnbot 빙 - Bingbot

#정보보안