Base de connaissances

1 000 FAQ, 500 tutoriels et vidéos explicatives. Ici, il n'y a que des solutions !

Gérer le fichier robots.txt créé par défaut

Ce guide donne des informations sur le fichier robots.txt créé par défaut pour les hébergement Web sur lesquels ce fichier est absent.

Le fichier robots.txt agit comme un guide pour les robots d'exploration des moteurs de recherche
Il est placé à la racine d'un site Web et contient des instructions spécifiques pour ces robots, indiquant quels répertoires ou pages ils sont autorisés à explorer et lesquels ils doivent ignorer
Attention cependant, les robots peuvent choisir d'ignorer ces directives, en faisant du robots.txt un guide volontaire plutôt qu'une règle stricte

Contenu du fichier

Si le fichier robots.txt est absent d'un site Infomaniak, un fichier du même nom est automatiquement généré avec les directives suivantes:

User-agent: *
Crawl-delay: 10

Ces directives indiquent aux robots d'espacer leurs requêtes de 10 secondes, ce qui évite de surcharger inutilement les serveurs.

Il est possible de contourner le robots.txt en suivant ces étapes:

Créez un fichier vide robots.txt (il servira uniquement d'emplacement pour que les règles ne s'appliquent pas).
Gérez la redirection du URI (Uniform Resource Identifier) robots.txt vers le fichier de votre choix à l'aide d'un fichier .htaccess.

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_URI} /robots.txt$
RewriteRule ^robots\.txt$ index.php [QSA,L]
</IfModule>

Le module mod_rewrite d'Apache est activé pour permettre les redirections.
La condition RewriteCond %{REQUEST_URI} /robots.txt$ vérifie si la requête concerne le fichier robots.txt.
La règle RewriteRule ^robots\.txt$ index.php [QSA,L] redirige toutes les requêtes vers robots.txt vers index.php, avec l'option [QSA] qui conserve les paramètres de requête.

Il est recommandé de placer ces instructions au début du fichier .htaccess.

Lien vers cette FAQ:

Voir toutes les FAQ de ce produit