AWS 리소스가 내 웹 사이트를 크롤링하는 데 사용되는 경우 어떻게 해야 합니까?

2분 분량

웹 사이트를 크롤링하는 데 AWS 리소스가 사용되고 있습니다. 어떻게 해야 합니까?

간략한 설명

robots.txt 파일을 생성하거나 수정하여 크롤러로부터 웹 사이트를 보호하는 것이 가장 좋습니다. robots.txt 파일은 웹 크롤러 활동을 규제하기 위해 일반적으로 허용되는 표준입니다.

robots.txt 파일을 수정하면 다음에 영향을 줄 수 있습니다.

웹 사이트를 크롤링할 수 있는 크롤러.
크롤러가 크롤링할 수 있는 페이지.
페이지를 크롤링할 수 있는 속도.

robots.txt 파일로 AWS 리소스에서 실행되는 크롤러를 억제하지 않으면 침해 보고서를 제출합니다.

해결 방법

robots.txt 파일 생성 또는 수정

robots.txt 파일은 크롤러에 적용되는 모든 제한을 나열합니다. 이 파일이 웹 사이트의 루트 도메인에 연결되면 크롤러를 중지하거나 속도를 늦출 수 있습니다.

로그에서 중지하려는 크롤러의 User-agent 이름을 확인합니다. 해당 크롤러가 도메인의 페이지를 크롤링하지 않도록 차단하려면 User-agent 이름을 robots.txt 파일에 추가합니다.

User-agent: crawler
Disallow: /

참고: crawler를 크롤러의 User-agent 이름으로 바꿉니다.

새 텍스트 블록에서 크롤러마다 다른 규칙을 정의할 수 있습니다. 예를 들어, crawler1이 페이지를 크롤링하지 않도록 차단하는 경우를 가정합니다. 하지만 crawler2는 제한된 속도로 페이지 크롤링을 허용하려고 합니다.

User-agent: crawler1
Disallow: /

User-agent: crawler2
Crawl-delay: 60

참고: crawler1 및 crawler2를 크롤러의 User-agent 이름으로 바꿉니다.

이제 crawler2는 도메인을 크롤링할 수 있지만, 60밀리초에 한 번만 가능합니다.

웹 콘텐츠에서 모든 크롤러를 차단하려면 와일드카드 문자를 사용합니다.

User-agent: *
Disallow: /

참고: 많은 검색 엔진이 크롤러를 사용하여 검색 결과에 사용할 페이지를 인덱싱합니다. 모든 크롤러가 웹 사이트를 크롤링하지 못하도록 차단하면 사용자가 페이지를 찾기 어려울 수 있습니다.

규칙을 정의하여 크롤러가 크롤링할 수 있는 디렉터리 또는 페이지를 지정할 수 있습니다. 예를 들어, crawler를 directory1 및 directory2 크롤링에서 차단하려는 경우 directory2 내부의 example.html 페이지를 제외하고 다음과 같이 가정합니다.

User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html

참고: crawler를 크롤러의 User-agent 이름으로 바꿉니다.
directory1 및 directory2를 디렉터리의 이름으로 바꿉니다.
example.html을 페이지 이름으로 바꿉니다.

도메인에 robots.txt 파일 추가

robots.txt 파일을 루트 도메인에 추가합니다. 예를 들어, 도메인이 example.com이면 다음 경로에 파일을 추가합니다.

www.example.com/robots.txt

AWS 침해 신고

악성 크롤러는 robots.txt 파일을 무시할 수 있습니다. robots.txt 파일로도 AWS 리소스에서 실행되는 크롤러가 억제되지 않는다고 판단되면 전체 로그와 함께 침해 보고서를 제출합니다. 이러한 로그에는 날짜, 타임스탬프(시간대 포함) 및 크롤링 활동의 소스 IP 주소가 포함되어야 합니다. AWS 신뢰 및 안전 팀은 robots.txt 파일을 검토하여 관련 고객의 규정 미준수 여부를 확인해야 합니다.

AWS 리소스가 내 웹 사이트를 크롤링하는 데 사용되는 경우 어떻게 해야 합니까?

간략한 설명

해결 방법

관련 정보

관련 콘텐츠