1 000 FAQ, 500 tutoriels et vidéos explicatives. Ici, il n'y a que des solutions !
Utiliser le fichier robots.txt créé par défaut
Ce guide donne des informations sur le fichier robots.txt créé par défaut pour les hébergement Web sur lesquels ce fichier est absent.
Préambule
Le fichier robots.txt agit comme un guide pour les robots d'exploration des moteurs de recherche. Il est placé à la racine d'un site web et contient des instructions spécifiques pour ces robots, indiquant quels répertoires ou pages ils sont autorisés à explorer et lesquels ils doivent ignorer. Attention cependant, les robots peuvent choisir d'ignorer ces directives, en faisant du robots.txt un guide volontaire plutôt qu'une règle stricte.
Contenu du fichier
Si le fichier robots.txt est absent d'un site Infomaniak, un fichier robots.txt est automatiquement généré avec les directives suivantes:
User-agent: *
Crawl-delay: 10
Ces directives indiquent aux robots d'espacer leurs requĂŞtes de 10 secondes, ce qui Ă©vite de surcharger inutilement les serveurs.
Contourner le robots.txt créé par défaut
Il est possible de contourner le robots.txt en suivant ces Ă©tapes:
- créer un fichier vide "robots.txt" (il servira uniquement d'emplacement pour que les règles ne s'appliquent pas)
- gérer la redirection du URI (Uniform Resource Identifier) "robots.txt" vers le fichier de votre choix à l'aide d'un fichier .htaccess
Exemple
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_URI} /robots.txt$
RewriteRule (.+) index.php?p=$1 [QSA,L]
</IfModule>
Cet exemple redirige l'URI "robots.txt" vers "index.php", ce qui serait le cas si nous n'avions pas notre règle par défaut. Il est recommandé de placer ces instructions au début du fichier .htaccess.