Des ressources AWS sont utilisées pour analyser mon site Web. Que puis-je faire ?

Dernière mise à jour : 02/09/2020

Des ressources AWS sont utilisées pour analyser mon site Web. Que puis-je faire ?

Brève description

Il est recommandé de protéger votre site Web contre les analyseurs en créant ou en modifiant votre fichier robots.txt. Le fichier robots.txt est une norme généralement acceptée pour la régulation de l'activité des analyseurs Web.

La modification du fichier robots.txt peut avoir un impact sur les éléments suivants :

  • Les analyseurs qui peuvent analyser votre site Web.
  • Les pages que les analyseurs peuvent analyser.
  • La cadence à laquelle les pages peuvent être analysées.

Si un analyseur s'exécutant sur des ressources AWS ne respecte pas votre fichier robots.txt, transmettez un rapport d'utilisation abusive.

Solution

1. Créer ou modifier le fichier robots.txt

Le fichier robots.txt répertorie toutes les restrictions mises en place pour les analyseurs. Ce fichier peut arrêter ou ralentir les analyseurs lorsqu'ils sont attachés au domaine racine d'un site Web.

Vérifiez dans vos journaux le nom User-agent de l'analyseur - crawler - que vous souhaitez arrêter. Pour l'empêcher d'analyser les pages de votre domaine, ajoutez le nom de l'User-agent à votre fichier robots.txt :

User-agent: crawler
Disallow: /

Remarque : remplacez crawler par le nom User-agent de l'analyseur.

Vous pouvez définir différentes règles pour chaque analyseur dans un nouveau bloc de texte. Par exemple, supposons que vous souhaitez empêcher totalement le crawler1d'analyser votre page. Mais simultanément, vous souhaitez que le crawler2 puisse analyser votre page à une cadence réduite :

User-agent: crawler1
Disallow: /

User-agent: crawler2
Crawl-delay: 60

Remarque : remplacez le crawler1 et le crawler2 par les noms d'User-agent des analyseurs.

Lecrawler2est désormais autorisé à analyser votre domaine, mais uniquement à une cadence d'une fois toutes les 60 millisecondes.

Pour bloquer tous les analyseurs de votre contenu web, utilisez un caractère générique :

User-agent: *
Disallow: /

Remarque : de nombreux moteurs de recherche utilisent des analyseurs pour indexer les pages à utiliser dans les résultats de la recherche. Le fait d'empêcher tous les analyseurs d'analyser votre site Web peut rendre votre page plus difficile à trouver par les utilisateurs.

Vous pouvez définir des règles pour spécifier les répertoires ou les pages qui peuvent être analysés par les analyseurs. Par exemple, supposons que vous souhaiter empêcher l'analyseur d'analyser directory1 et directory2 à l'exception d'une page example.html à l'intérieur du directory2 :

User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html

Remarque : remplacez crawler par le nom User-agent de l'analyseur.
Remplacez directory1 et directory2 par les noms de vos répertoires.
Remplacez example.html par le nom de votre page.

2. Ajoutez votre fichier robots.txt à votre domaine.

Ajoutez le fichier robots.txt à votre domaine racine. Par exemple, si votre domaine est example.com, ajoutez le fichier dans le chemin suivant :

www.example.com/robots.txt

3. Contacter AWS Abuse

Les analyseurs malveillants peuvent ignorer votre fichier robots.txt. Si vous pensez qu'un analyseur s'exécutant sur des ressources AWS ne respecte pas le fichier robots.txt après que vous l'avez modifié, transmettez un rapport d'utilisation abusive accompagné des journaux complets. Ces journaux doivent inclure la date, l'horodatage (y compris le fuseau horaire) et l'adresse IP source de l'activité d'analyse. Sachez que l'équipe AWS Trust and Safety doit examiner votre fichier robots.txt pour confirmer la non-conformité du client impliqué.


Cet article vous a-t-il été utile ?


Besoin d'aide pour une question technique ou de facturation ?