Des ressources AWS sont utilisées pour analyser mon site Web. Que puis-je faire ?

Lecture de 3 minute(s)

Brève description

Il est recommandé de protéger votre site Web contre les analyseurs en créant ou en modifiant votre fichier robots.txt. Le fichier robots.txt est une norme généralement acceptée pour la régulation de l'activité des analyseurs Web.

La modification du fichier robots.txt peut avoir un impact sur les éléments suivants :

Les analyseurs qui peuvent analyser votre site Web.
Les pages que les analyseurs peuvent analyser.
La cadence à laquelle les pages peuvent être analysées.

Si un analyseur s'exécutant sur des ressources AWS ne respecte pas votre fichier robots.txt, transmettez un rapport d'utilisation abusive.

Solution

Créer ou modifier le fichier robots.txt

Le fichier robots.txt répertorie toutes les restrictions mises en place pour les analyseurs. Ce fichier peut arrêter ou ralentir les analyseurs lorsqu'ils sont attachés au domaine racine d'un site Web.

Vérifiez dans vos journaux le nom User-agent de l'analyseur - crawler - que vous souhaitez arrêter. Pour l'empêcher d'analyser les pages de votre domaine, ajoutez le nom de l'User-agent à votre fichier robots.txt :

User-agent: crawler
Disallow: /

Remarque : remplacez crawler par le nom User-agent de l'analyseur.

Vous pouvez définir différentes règles pour chaque analyseur dans un nouveau bloc de texte. Par exemple, supposons que vous souhaitez empêcher totalement le crawler1d'analyser votre page. Mais simultanément, vous souhaitez que le crawler2 puisse analyser votre page à une cadence réduite :

User-agent: crawler1
Disallow: /

User-agent: crawler2
Crawl-delay: 60

Remarque : remplacez le crawler1 et le crawler2 par les noms d'User-agent des analyseurs.

Lecrawler2est désormais autorisé à analyser votre domaine, mais uniquement à une cadence d'une fois toutes les 60 millisecondes.

Pour bloquer tous les analyseurs de votre contenu web, utilisez un caractère générique :

User-agent: *
Disallow: /

Remarque : de nombreux moteurs de recherche utilisent des analyseurs pour indexer les pages à utiliser dans les résultats de la recherche. Le fait d'empêcher tous les analyseurs d'analyser votre site Web peut rendre votre page plus difficile à trouver par les utilisateurs.

Vous pouvez définir des règles pour spécifier les répertoires ou les pages qui peuvent être analysés par les analyseurs. Par exemple, supposons que vous souhaiter empêcher l'analyseur d'analyser directory1 et directory2 à l'exception d'une page example.html à l'intérieur du directory2 :

User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html

Remarque : remplacez crawler par le nom User-agent de l'analyseur.
Remplacez directory1 et directory2 par les noms de vos répertoires.
Remplacez example.html par le nom de votre page.

Ajoutez votre fichier robots.txt à votre domaine.

Ajoutez le fichier robots.txt à votre domaine racine. Par exemple, si votre domaine est example.com, ajoutez le fichier dans le chemin suivant :

www.example.com/robots.txt

Contacter AWS Abuse

Les analyseurs malveillants peuvent ignorer votre fichier robots.txt. Si vous pensez qu'un analyseur s'exécutant sur des ressources AWS ne respecte pas le fichier robots.txt après que vous l'avez modifié, transmettez un rapport d'utilisation abusive accompagné des journaux complets. Ces journaux doivent inclure la date, l'horodatage (y compris le fuseau horaire) et l'adresse IP source de l'activité d'analyse. Sachez que l'équipe AWS Trust and Safety doit examiner votre fichier robots.txt pour confirmer la non-conformité du client impliqué.

Informations connexes

Comment signaler une utilisation abusive des ressources AWS ?

Sujets

Gestion et gouvernance

Balises

AWS Account Management

Langue

Français

AWS OFFICIELA mis à jour il y a 4 ans

Aucun commentaire

Contenus pertinents

Quels services AWS sont nécessaires pour remplacer une base de données MySQL classique ?
rePost-User-8854683
demandé il y a un an
Problème de facturation inattendue avec Amazon Web Services
rePost-User-1581363
demandé il y a un an
Comment s'assurer que toutes les ressources sont désactivées ?
rePost-User-2282818
demandé il y a un an
[workmail] Le système n'a pas pu livrer votre courrier.
romain
demandé il y a 4 mois
Herbergement site web ecommerce
Faouziya
demandé il y a un an
Pourquoi mon application ou mon site Web hébergé sur Route 53 est-il inaccessible ?
AWS OFFICIELA mis à jour il y a un an
Dois-je utiliser CloudFront pour diffuser le contenu de mon site Web ?
AWS OFFICIELA mis à jour il y a 2 ans
Comment puis-je utiliser Route 53 pour accéder à une version interne de mon site Web en utilisant le même nom de domaine qui est également utilisé publiquement ?
AWS OFFICIELA mis à jour il y a 2 ans
Comment puis-je configurer AWS WAF pour protéger mes ressources contre les attaques courantes ?
AWS OFFICIELA mis à jour il y a 3 ans