로봇 배제 표준(robots.txt)
2021. 4. 13. 23:32ㆍ웹 취약점
로봇 배제 표준?
웹사이트에 로봇이 접근하는 것을 방지하기 위한 규약을 의미한다.
접근제한에 대한 설명을 robots.txt 에 작성
robots.txt 파일은 해당페이지의 루트 디렉토리에 위치해야 함.
ex)
모든 검색로봇 접근 차단.
User-agent: *
Disallow: /
모든 검색로봇 접근 허용.
User-agent: *
Allow: /
모든 pdf 파일 차단 -> 끝이 .pdf로 끝나면 차단
User-agent: *
Disallow: /*.pdf$
특정 검색로봇만 허용/나머지 봇 차단
User-agent: Googlebot
User-agent: Slurp
Allow: /
특정 폴더만 접근 금지
User-agent: *
Disallow: /폴더명/
검색로봇
네이버 - Yetibot, 다음 - Daumoa, 구글 - Googlebot, 야후 - Slurp, 마이크로소프트 - Msnbot 빙 - Bingbot
'웹 취약점' 카테고리의 다른 글
정보노출 취약점 (0) | 2021.04.20 |
---|---|
포트스캔의 이해(nmap 활용) (0) | 2021.04.17 |
구글 검색 기법 (0) | 2021.04.13 |
디렉토리 인덱싱 취약점 (0) | 2021.04.13 |
SQLMAP을 이용한 인젝션 자동화공격 (0) | 2021.04.11 |