Du bon usage du robots.txt
Le robots.txt est un fichier qui se place à la racine de votre site. C’est un simple fichier texte contenant des instructions simples à destination des moteurs. Il indique aux robots quels répertoires indexer ou non.
Si l’on veut interdire aux moteurs certaines parties de son site, on peut utiliser le fichier robots.txt. Il permet de donner les permissions aux crawlers d’indexer (ou non) certaines parties de votre site.
Pour créer un fichier robots.txt, il suffit d’enregistrer un fichier texte sous le nom robots.txt (attention à ne pas oublier le « s » à robots et de le nommer en minuscule) et de le placer à la racine de son site. Il ne doit exister qu’un seul fichier robots.txt par site.
Si vous souhaitez protéger des répertoires de l’indexation, il faut utiliser le robots.txt comme suit :
Ex : vous souhaitez protéger le répertoire suivant : et la page suivante :
votre fichier sera donc construit sous cette forme :
User-agent: * Disallow: /prive
tout ce qui commence par « prive » ne sera donc pas indexé.
Si l’on souhaite interdire l’indexation de mais pas de , on aura :
User-agent: * Disallow: /prive/
Cette syntaxe interdit l’indexation du répertoire /prive et de tout ce qu’il contient (pages et sous-repertoires). Le « * » veut dire que la règle s’applique à tous les moteurs.
Si on souhaite que la règle ne s’applique qu’au moteur Google par exemple, on notera :
User-agent: googlebot Disallow: /prive/
Si l’on souhaite interdire l’indexation de tout son site à tous les moteurs (parce qu’il est en construction par exemple) on écrira :
User-agent: * Disallow: /
Enfin, l’absence de robots.txt à la racine d’un site génère de nombreuses erreurs 404 auprès des robots.. et comme il ne faut pas fâcher les robots, il suffit de mettre un robots.txt donnant l’autorisation à tous les robots l’exploration de tout le site 😉
User-Agent: * Disallow:
Questions / réponses :
Comment vérifier la syntaxe de mon fichier?
En utilisant par exemple l’utilitaire robots.txt en ligne mis à disposition par Yooda.
Existe-t-il une alternative au fichier robots.txt?
Oui, on peut utiliser la balise Meta Robots sur toutes les pages dont on souhaite interdire l’indexation.
Où trouver les informations sur les noms des robots?
Sur ce site vous trouverez une liste impressionnante de robots.
Pourquoi je vois dans l’index de google les urls de mes pages que j’avais pourtant interdites à l’exploration via le robots.txt?
Google respecte le robots.txt. Cependant même s’il n’indexe pas ces pages-là (elles n’apparaissent pas en cache) il connait leur existence et le mentionne dans ses résultats. Quelle est donc la meilleure solution pour cacher aux yeux des robots un répertoire de mon site? Le .htaccess incontestablement, nous y reviendrons.