로봇 배제 표준(robots.txt)

2021. 4. 13. 23:32웹 취약점

로봇 배제 표준?

웹사이트에 로봇이 접근하는 것을 방지하기 위한 규약을 의미한다.

 

접근제한에 대한 설명을 robots.txt 에 작성

robots.txt 파일은 해당페이지의 루트 디렉토리에 위치해야 함.

 

ex)

모든 검색로봇 접근 차단.

User-agent: *

Disallow: /

 

모든 검색로봇 접근 허용.

User-agent: *

Allow: /

 

모든 pdf 파일 차단 -> 끝이 .pdf로 끝나면 차단

User-agent: *

Disallow: /*.pdf$

 

특정 검색로봇만 허용/나머지 봇 차단

User-agent: Googlebot

User-agent: Slurp

Allow: /

 

특정 폴더만 접근 금지

User-agent: *

Disallow: /폴더명/

 

검색로봇 

네이버 - Yetibot, 다음 -  Daumoa, 구글 - Googlebot, 야후 - Slurp, 마이크로소프트 - Msnbot 빙 - Bingbot

 

 

 

google/robots.txt

 

 

'웹 취약점' 카테고리의 다른 글

정보노출 취약점  (0) 2021.04.20
포트스캔의 이해(nmap 활용)  (0) 2021.04.17
구글 검색 기법  (0) 2021.04.13
디렉토리 인덱싱 취약점  (0) 2021.04.13
SQLMAP을 이용한 인젝션 자동화공격  (0) 2021.04.11