Du bon usage du robots.txt

Le robots.txt est un fichier qui se place à la racine de votre site. C’est un simple fichier texte contenant des instructions simples à destination des moteurs. Il indique aux robots quels répertoires indexer ou non.

Si l’on veut interdire aux moteurs certaines parties de son site, on peut utiliser le fichier robots.txt. Il permet de donner les permissions aux crawlers d’indexer (ou non) certaines parties de votre site.

Pour créer un fichier robots.txt, il suffit d’enregistrer un fichier texte sous le nom robots.txt (attention à ne pas oublier le « s » à robots et de le nommer en minuscule) et de le placer à la racine de son site. Il ne doit exister qu’un seul fichier robots.txt par site.

Si vous souhaitez protéger des répertoires de l’indexation, il faut utiliser le robots.txt comme suit :
Ex : vous souhaitez protéger le répertoire suivant : et la page suivante :

votre fichier sera donc construit sous cette forme :

User-agent: * Disallow: /prive

tout ce qui commence par « prive » ne sera donc pas indexé.

Si l’on souhaite interdire l’indexation de mais pas de , on aura :

User-agent: * Disallow: /prive/

Cette syntaxe interdit l’indexation du répertoire /prive et de tout ce qu’il contient (pages et sous-repertoires). Le « * » veut dire que la règle s’applique à tous les moteurs.

Si on souhaite que la règle ne s’applique qu’au moteur Google par exemple, on notera :

User-agent: googlebot Disallow: /prive/

Si l’on souhaite interdire l’indexation de tout son site à tous les moteurs (parce qu’il est en construction par exemple) on écrira :

User-agent: * Disallow: /

Enfin, l’absence de robots.txt à la racine d’un site génère de nombreuses erreurs 404 auprès des robots.. et comme il ne faut pas fâcher les robots, il suffit de mettre un robots.txt donnant l’autorisation à tous les robots l’exploration de tout le site 😉

User-Agent: * Disallow:

Questions / réponses :
Comment vérifier la syntaxe de mon fichier?
En utilisant par exemple l’utilitaire robots.txt en ligne mis à disposition par Yooda.

Existe-t-il une alternative au fichier robots.txt?
Oui, on peut utiliser la balise Meta Robots sur toutes les pages dont on souhaite interdire l’indexation.

Où trouver les informations sur les noms des robots?
Sur ce site vous trouverez une liste impressionnante de robots.

Pourquoi je vois dans l’index de google les urls de mes pages que j’avais pourtant interdites à l’exploration via le robots.txt?
Google respecte le robots.txt. Cependant même s’il n’indexe pas ces pages-là (elles n’apparaissent pas en cache) il connait leur existence et le mentionne dans ses résultats. Quelle est donc la meilleure solution pour cacher aux yeux des robots un répertoire de mon site? Le .htaccess incontestablement, nous y reviendrons.

Marie Pourreyron

Blogueuse intermittente, consultante SEO, SEA, SEM et visibilité des sites web, Auvergnate et Cannoise à la fois. Je propose mes services en audit de référencement, accompagnement et formation, e-reputation, rédaction web orientée SEO et community management. Je gère aussi votre campagne Adwords ou Google Shopping. N'hésitez-pas à me contacter pour toute demande de collaboration.

6 commentaires

  1. jb kechi   •  

    Bonjour,

    le lien vers l’utilitaire robots.txt de yooda ne fonctionne pas.

    Bravo pour ce nouveau blog.

    Cordialement,
    un ancien élève de l’IUP InfoCom.

  2. Marie   •     Auteur

    Bonjour!

    Merci, je viens de corriger l’erreur. Bravo pour ton blog aussi, il est très complet (mais moi je suis sous mac 😉 ) A bientôt!

  3. Pingback: Sécuriser Son Blog WordPress [Etape 1] - Robots.txt | FabNet Revenue

  4. Pingback: Google, dictateur des temps modernes | Pink Seo – Another SEO blog

  5. Pingback: Résolvez en 10 minutes les problèmes référencement d'une page | Pink Seo - Another SEO blog

  6. olivier   •  

    Je ne savais pas que si je ne veux pas interdire de page sur un site il est quand même préférable de mettre un fichier robots.txt pour éviter les erreurs 404.
    Merci pour l’info, il va falloir que je crée mes fichiers robots.txt alors.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *