Ce billet est la traduction plus ou moins fidèle du billet « 10 minute missing page audit » publié par Dr. Pete sur SEOmoz.

Cet audit en 10 minutes ne remplacera pas un audit complet et professionnel de votre site mais il vous permettra de déterminer pourquoi une page est absente des résultats de recherche, pourquoi elle ne se positionne pas, vérifier si elle a été pénalisée et pointer les problèmes de duplication.

0:00-0:30 – Vérifiez que le site est indexé

Il faut toujours commencer par le début : est-ce que votre page est réellement introuvable? La commande site: de Google est votre meilleure alliée pour vérifier ce point. Combinée à des mots clefs (« mots clefs » pour rechercher l’expression exacte) et des opérateurs tels que intitle: inurl: etc elle vous permet d’en savoir plus. La commande la plus basique est juste :

Utilisez ici le domaine racine. On ne sait jamais quand Google indexe de multiples sous-domaines (ou le mauvais sous-domaine et cette information sera utile plus tard. Ici on veut juste vérifier que Google connait l’existence de votre site.

0:30-1:00 – Vérifiez que la page n’est pas indexée

Admettons que Google connait l’existence de votre site, il est temps de vérifier une page spécifique. On peut entrer le chemin complet derrière la commande site: ou utiliser une combinaison de site: et inurl:

Si la page n’est pas indexée, remontez le problème en testant le « /répertoire » et vérifier si d’autres pages au même niveau sont indexées. Si la page n’est pas indexée du tout, la prochaine étape ne sert à rien.

1:00-1:30 – Vérifiez que la page ne se positionne pas

Si la page est indexée mais que vous ne pouvez pas la trouver dans les résultats de recherche, entrez un extrait de la balise TITLE et faites une « recherche exact » (entre guillemets) dans Google. Si vous ne pouvez toujours pas la trouver, combinez site:example.com avec la TITLE de votre page ou une partie de la TITLE. Si la page est indexée mais ne se positionne pas, vous pouvez sauter les prochaines étapes et reprendre à la 4ème minute.

1:30-2:00 – Vérifiez le robots.txt

Admettons que votre site soit indexé partiellement mais que la page en question est absente de l’index. Bien que les erreurs dans le robots.txt soient de plus en plus rares, il n’est pas inutile d’y jeter un oeil pour vérifier que vous n’avez pas bloqué accidentellement les robots. Le robots.txt se trouve ici : http://www.iana.org/domains/example/.

Ce que vous cherchez ici c’est un bout de code qui ressemble à ceci :

Cela peut être une directive bloquant tous les user agents ou juste un comme Googlebot. Vérifiez toutes les directives qui utilisent le « disallow » vers la page spécifique ou le dossier en question.

2:00-2:30 – Vérifiez la META Noindex

Un autre problème bloquant peut arriver avec une mauvaise utilisation de la META Noindex. Dans le header du code source HTML (entre <head> et </head> on recherchera quelque chose comme ceci :

Bien qu’il puisse paraître étrange de bloquer une page que l’on souhaite voir indexer, la mauvaise utilisation d’une META Noindex et Rel=Canonical (voir ci-dessous) peut résulter de l’installation de certains CMS.

2:30-3:00 – Vérifiez le Rel=Canonical

Ce point est un peu plus délicat. Le tag Rel=Canonical est souvent une bonne chose qui aide à la déclaration d’une page canonique et qui évite la duplication de contenu. Le tag ressemble à cela :

Le problème arrive lorsque vous canonisez trop étroitement. Par exemple si toutes les pages de votre site possèdent un tag canonical avec l’url « www.example.com » Google comprendra qu’il faut réduire votre index de recherche à UNE seule page.

Pourquoi feriez-vous cela? Vous ne le voulez certainement pas mais cela peut arriver du fait de la mauvaise configuration d’un CMS, d’un plugin ou autre. Ce problème est d’ailleurs en pleine expansion.

3:00-4:00 – Vérifiez les mauvaises redirection dans le header

Dans certains cas une page peut renvoyer un mauvais header, un code d’erreur (404 par exemple) ou une redirection mal structurée (301/302) qui empêchera une bonne indexation. Vous avez besoin d’un vérificateur d’entête pour cela (il en existe beaucoup de gratuits sur le net), essayez HTTP Web-Sniffer. Vous cherchez un code « 200 OK« . Si vous trouvez une liste de redirection, une 404 ou tout autre code d’erreur (4xx ou 5xx) vous pouvez avoir un problème. Si vous avez une redirection (301 ou 302) vous envoyez votre page introuvable vers une autre. Supprimez donc la redirection.

4:00-5:00 – Vérifiez la duplication par d’autres sites

Il y a deux causes possibles à la duplication de contenu : la duplication par votre propre si ou celle par d’autres sites. La seconde arrive lorsque vous partagez votre contenu (par exemple avec vos affiliés) ou lorsque des sites vous scrappent. Le problème est que si Google détecte la duplication, il va probablement indexer une page et ignorer les autres.

Si vous suspectez que le contenu de votre page introuvable a été copiée par un autre site, cherchez un bout de phrase unique de votre contenu et Google le surlignera (faites une recherche exacte). Si un autre site apparait dans les résultats, il est probable que votre page a été considérée comme une duplication.

5:00-7:00 – Vérifiez la duplication interne

La duplication interne arrive habituellement lorsque Google crawl de multiples variations d’une URL pour la même page, comme quand il y a des paramètres de session dans l’URL. Si Google arrive sur une même page avec 2 urls différentes, il voit deux pages différentes et l’une d’entre elle sera probablement ignorée. Parfois cela passe, mais des fois Google ignore la mauvaise.

Pour la duplication interne, utilisez une recherche avec site: et quelques mots clefs unique de la TITLE de la page (toujours entre guillements) ou utilisez intitle:. Les URL dupliquées ont naturellement la même TITLE et le titre de la page est le meilleur endroit pour détecter le problème. Si vous trouvez la même page plusieurs fois avec des URLs différentes ou une ou deux pages suivies de :

il est fort probable que votre page introuvable ait été filtrée à cause d’une duplication interne.

7:00-8:00 – Listez les textes de vos ancres

Les deux points suivants sont un peu plus délicats et subjectifs. Mais ils peuvent être utiles si vous suspectez une dévaluation ou pénalisation de certaines de vos pages. Un moyen facile de détecter le problème est quand vous avez une liste d’anchor text suspectes, en général un mot clef non commun qui revient trop souvent dans vos liens entrants. Cela peut venir d’une trop agressive campagne de linking ou de quelque chose tel qu’un widget qui va dominer votre profil de liens.

Open Site Explorer vous permet de trouver facilement les ancres de vos backlinks. Entrez votre URL, cliquez sur « Anchor Text Distributions » et sélectionnez « Phrases » :

Ce que vous cherchez est un échantillon de répétions non naturelle. Quelques répétions peuvent être ok car vous allez naturellement utilisez comme ancre votre non de domaine ou votre marque par exemple. Mais par exemple imaginons que 70% des liens pointant vers SEOmoz aient pour ancre « Danny Dover est formidable », cela ne serait pas naturel. Si Google pense que c’est un signe de manipulation, vous pouvez voir la page cible pénalisée.

8:00-10:00 : Vérifiez la qualité de votre profil de liens

Un profil de liens de qualité c’est très subjectif et vous n’avez pas le temps de le faire en 2 minutes. Mais si vous avez une pénalité en cours, c’est parfois facile de pointer les mauvais liens rapidement. Nous allons encore utiliser Open Site Explorer et nous allons utilisez les options : Followed + 301, External Pages Only, All Pages on The Root Domain :

Vous pouvez exportez les liens sur Excel mais ici, vérifiez rapidement. Pointez les problèmes tels que :

  • Ancre de liens suspectes
  • Sites hors sujets
  • Liens positionnés dans des blocs « échange de liens » ou « liens payants »
  • Liens qui proviennent d’un footer pleins d’autres liens
  • Liens publicitaires qui sont suivis (et qui ne devraient pas)

De plus, vérifiez tous les liens de basse qualité comme commentaires de blogs, articles marketing, etc. Si déterminer votre profil de liens peut prendre des heures, repérer les liens spammy ne prend que quelques minutes. Si vous pouvez repérer ce problème rapidement, Google le pourra lui aussi.

10:00 – Et voilà

Dix minutes c’est relativement court (vous avez mis peut être plus de dix minutes pour lire ce post, quant à moi j’ai mis plus de 10 minutes pour l’écrire!) et vous pouvez apprendre beaucoup sur votre site en quelques minutes. Bien entendu trouver et résoudre un problème sont deux choses très différentes mais j’espère que cette méthode vous permettra de détecter certains problèmes de votre référencement.