Outre le fait que Google nous trace et nous cache des éléments importants qui nous concernent, que Google nous demande de dénoncer certaines pratiques qu’il juge contraire à ses guidelines, Google nous dit aussi quoi faire. J’avais déjà poussé un coup de gueule au sujet du nofollow (Google nous répète qu’il faut faire notre site pour les internautes mais nous demande de placer certains liens en nofollow, hors le nofollow est à destination des moteurs donc Google se contredit) et là je souhaite en pousser un autre au sujet d’un thème abordé lors de la conférence Pubcon de Las Végas qui a eu lieu hier.

Lors de cette conférence certains points ont été abordés et approfondis :

  • Bloquer archive.org est un signal négatif
  • La rapidité de génération d’une page peut influencer le positionnement positivement
  • Il est conseillé de laisser tomber ses domaines blacklistés plutôt que de tenter de les réintégrer car ils ont un historique chargé
  • La répétion de mots clefs dans les ancres internes (en particulier dans le footer) est troublant
  • Avoir plusieurs sites traitants de différentes sections dans une même thématique / niche peut-être un indicateur de spam (ce qui confirme que Google sait tracer les différents sites appartenant à une même entité ou personne)

Le point qui me choque le plus c’est celui qui concerne archive.org. Un petit rappel sur la WayBackMachine s’impose.

Capture d’écran archive Google

Capture d’écran archive Google

Le projet archive.org

Ce projet date de 1996 et il a pour but d’être une sorte de mémoire du web. Il prend des captures d’écran plus ou moins régulièrement des sites web et les propose en libre accès. Ces clichés pris régulièrement représentent 20 To de données tous les mois! Si pour la plupart des webmasters ces captures d’écrans représentent une sorte d’album de l’évolution de son site, ces clichés peuvent aussi être utilisés comme preuve, en tous cas aux Etats-Unis, lors de procès. D’autre part, la mise en mémoire d’une page internet peut servir de preuve lors d’un dépôt de brevet pour prouver l’existence antérieure d’un produit / d’une marque ou autre.

S’il est amusant de voir les évolutions d’un site sur un nom de domaine, si cela peut servir pour récupérer des domaines ayant eu une vie remplie et conforme aux guidelines Google, certains webmasters peuvent décider pour diverses raisons, de bloquer le spider de Archive.org. Cela peut se faire très facilement comme expliqué ici au moyen d’un ajout dans votre fichier robots.txt :

User-agent: ia_archiver
Disallow: /

Red Flag!

Cependant Matt Cutts nous dit aujourd’hui que cette pratique peut envoyer « un signal négatif » à Google car c’est un signal de « spam potentiel ». En effet il a été observé que la plupart des spammeurs interdisaient la mise mémoire de leurs sites par Archive.org et à ce titre, faire comme un spammeur n’est pas recommandé par Google. Bloquer archive.org permet d’éviter le stockage de ses différentes pages mais effacera aussi tout l’historique de ces mêmes pages. Or on peut penser que si on respecte les règles de Google on n’a rien à se reprocher. Cela dit on peut vouloir éviter d’être mis en mémoire sur Archive.org pour des raisons tout à fait valables comme :

  • éviter le stockage d’une page en plein développement
  • respect des droits d’auteur
  • ne pas laisser en libre accès un contenu qui passe en accès privé / payant
  • redonner une virginité à un domaine en effaçant son historique

Il a déjà été démontré que Google ne respectait pas la balise noarchive, maintenant c’est par l’intimidation que Google veut nous persuader que l’interdiction de capture d’écran de notre site par archive.org pourrait nous porter préjudice. Bien entendu ce red flag n’en est qu’un parmi plusieurs centaines mais c’est un pas de plus que franchit Google pour nous dicter la manière que l’on doit gérer nos sites internet. Et s’il y a quelque-chose que je déteste par-dessus tout, c’est qu’on me dise quoi faire 😉

Ainsi je continuerai de bloquer archive.org pour des raisons que j’estime valables et je vous encourage à faire de même. La prochaine étape consistera certainement à éviter que Google nous pose une puce dans le cerveau car, comme l’avait dit LaurentB sur son ancien site (et qui dans son nouveau billet focalise sur le vain combat de Google contre le spam) :

Tout est encore à venir et Larry Page, co-fondateur de Google, nous souffle ce que pourrait devenir le Google du futur : «On peut imaginer un jour que votre cerveau soit renforcé par Google. Par exemple, vous pensez à quelque chose, et votre téléphone cellulaire vous chuchote la réponse dans l’oreille.»