Le SEO n’est pas qu’une affaire de contenu bien rédigé, il y a une grande quantité de critères à respecter. Les moteurs de recherche n’attribuent pas une note à chacune des pages de votre site web selon le contenu de celles-ci.

Il y a d’autres facteurs à prendre en compte, aussi bien pour votre référencement que pour votre lecteur. Que va penser un lecteur qui voit plein de pages qui n’ont pas d’intérêt particulier pour lui ? même question pour les moteurs de recherche ? Votre site ne proposant pas que du contenu intéressant, il se verra être rabaissé dans les résultats des moteurs de recherche.

Pour pallier aux problèmes de pertinence de certaines pages, on va parler du fichier robots.txt qui permettra d’éviter l’indexation de certaines pages de votre site pour optimiser le référencement des autres.

Avant de continuer, je tiens à vous rappeler la différence entre indexer et référencer :

L’indexation Cette page va être présent dans les résultats des moteurs de recherche. Quel que soit son positionnement. se fait lorsque le robot tombe sur votre page (et encore, pas à tous les coups).
Le référencement va être étroitement lié avec la position de la page. Mieux une page est référencée, meilleure sera sa position et donc le trafic engendré.

Une page peut être bien ou mal référencée mais une page ne peut être bien ou mal indexée, elle l’est ou elle ne l’est pas.

On va voir ensemble pourquoi le fichier robots.txt est si important.

Pourquoi le fichier robots.txt est important

Le fichier robots.txt est le premier fichier que Google détecte avec ses robots qui analysent les sites, on dit que les robots « crawl » les sites. La première étape d’un robot en arrivant sur un site internet est donc de regarder les indications de ce fichier s’il est présent et de prendre note de ces dernières.

Le crawl budget de Google et les facteurs qui l’affecte

Si vous avez beaucoup de page, Google va mettre plus de temps à crawler (visiter et analyser) l’ensemble de votre site et à vérifier si telle page ou telle page n’a pas été modifié, même un tout petit peu. Du coup il y a un nombre limité d’URL qu’il se permet de crawler, cela dépend du « crawl rate limit » ou du taux de limite d’exploration ainsi que du « crawl demand » ou de la demande d’exploration.

Le taux limite d’exploration dépend de 2 facteurs :

Crawl health : c’est en quelque sorte les performances du site web et du server. Plus votre site et votre hébergeur est bon, mieux ce sera.
De la limite définie dans Google Search Console, pour la modifier, le support de Google vous donne un article qui vous explique comment définir la vitesse de crawl du Googlebot.

La demande d’exploration dépend lui aussi de 2 facteurs

La popularité : plus vous êtes connu (en d’autres termes, plus vous avez de backlink de qualité) plus Google voudra que votre contenu soit rafraichi rapidement.
Le manque d’actualisation du contenu : Google veut que votre site internet soit constamment mis à jour pour donner la meilleure expérience.

Pour résumer, le budget crawl est le nombre d’URLs que le Googlebot peut et veut crawler.

Vous souhaitez aider Googlebot à dépenser son crawl budget de la meilleure façon possible pour votre site. Pour ça, il doit explorer les meilleurs pages de votre site web. C’est pour cela qu’il faut le guider et désindexer certaines pages sans grand intérêt.

Il y a certains facteurs qui, selon Google, « affectent négativement l’exploration et l’indexation d’un site ».

Voici une liste de ces mauvais facteurs :

La navigation à facette (les filtres utilisés pour sélectionner des produits sur les sites e-commerce)
Les identifiants de session (les pages auxquelles ont accèdent suite à une connexion)
Certaines pages d’erreurs
Les pages hackées
Les pages à faible qualité et le spam

Retour sur les fichiers robots.txt

Imaginez le résultat d’un fichier qui dit quelles pages on veut faire crawler et quelles pages on ne veut pas. Le fichier robots.txt permet de bien gérer le budget crawl de Google en lui donnant les bonnes directives et de vous donner un bonus non négligeable en SEO.

Ce n’est pas le fichier robots.txt en lui même qui procure les boosts SEO mais bien ce que vous en faites.

Dans le reste de l’article on aborde enfin la pratique et on met en place ce fichier.

Trouver et accéder à son fichier robots.txt

Les fichiers robots.txt se trouvent toujours au même endroit sur votre site web. Il se situe toujours à la racine :

www.monsite.ma/robots.txt

Il faut procéder à la vérification sur notre site et être sûr qu’il n’y ait pas d’erreur 404 ou autre chose. Si c’est le cas, on va on ajouter un.

Notez bien qu’il est très important que ce fichier ait le nom « robots » et l’extension «.txt ». Toute faute d’orthographe rendra le fichier illisible donc ne vous trompait pas sur l’écriture de ces neuf caractères. Je compte sur vous.

Pour le trouver et y accéder et d’utiliser un logiciel spécifique pour accéder à l’hébergement de votre site. Pour cela je vous conseille d’utiliser le logiciel Fillezilla client qui vous permettra de vous connecter à ce dernier via le protocole FTP, dont vous avez certainement déjà entendu parler.

Une fois le logiciel installé on vous demande une adresse hôte, un identifiant, un mot de passe, un numéro de port. Tout cela vous est donné lors de l’achat de votre hébergement par mail. En cas de problème je vous invite donc à vous rapprocher de votre hébergeur pour récupérer tout ceci.

Maintenant que vous identifiants sont entrés, il faut se rendre dans le fichier principal nommé, la plupart du temps « www ». Voici donc dans le fichier racine de votre site web .

S’il n’est pas déjà présent, c’est ici qu’il faudra donc glisser le fameux fichier.

La création du fichier robots.txt

Voici de quoi se compose un fichier robots.txt, ce n’est rien de très sorcier il n’y a pas besoin de savoir programmer, c’est très simple.

Les instructions sont donc :

User-agent :
Disallow :
Allow :
Sitemap :

La commande User-Agent sert à dire à quel bot(robot) on s’adresse. Sauf cas particulier, l’idéal est de s’adresser à tous les bots avec la commande :

User-agent : *

La commande Disallow est la principale, celle qui sert à dire qu’on ne veut pas laisser les robots crawler les URLs ou bien même les répertoires. Cependant, cette commande ne permet pas d’interdire le passage des robots à 100% (j’explique cela un peu plus bas dans l’article).

Par exemple :

Disallow : /page-non-optimisee

ce qui bloque la page www.monsite.ma/page-non-optimisee)

La commande Allow est un peu implicite. Chaque page est déjà en Allow automatiquement. Elle sera utile pour autoriser une petite partie d’un répertoire que l’on n’autorise pas. Pour m’expliquer un peu mieux je n’autorise pas l’indexation de tout le répertoire /author/ mais je veux quand même en garder un ça donnerait :

Disallow : /Author/Allow : /Author/louis-maitreau

La commande Sitemap sert à indiquer dans son fichier le positionnement de son fichier Sitemap.xml (fichier opposé au robots.txt, qui sert à donner les pages que l’on souhaite voir indexées) exemple :

Sitemap : https://www.monsite.ma/sitemap

Je vous invite à ouvrir un logiciel de traitement de texte comme Word, OpenOffice ou bien même simplement un logiciel comme Bloc-note, disponible sur chaque ordinateur Windows et TextEdit sur Mac.

N’oubliez pas que les directives doivent êtres placées au nombre d’une par ligne. Il faut donc faire un retour pour chaque nouvelles instructions.

On commence maintenant la rédaction de son fichier robots.txt optimisé :

Optimiser son fichier robots.txt

L’optimisation de son fichier robots.txt va dépendre de votre site et des besoins que vous avez. Je vais donc m’efforcer de vous montrer les cas les plus communs.

Je rappelle que vous pouvez empêcher l’indexation de vos pages, non pas bloquer l’accès aux moteurs de recherche. Ces petites bêtes voient tout et sauront vous pénaliser si vous tentez de manipuler leur algorithme.

Essayez de vous adresser à l’ensemble des user-agent via la commande :

User-agent: *

La meilleure utilisation possible est de ne pas montrer au public les parties « privées » de votre site et donc de ne pas les indexer.

Voici des exemples de page à ne pas indexer

Des pages dont le contenu n’est pas intéressant ou que l’on souhaite cacher comme par exemple ses mentions légales, une page de remerciement après avoir rentré son adresse e-mail pour s’inscrire à la newsletter du site web…
Éviter le contenu dupliqué entre certaines pages. Par exemple la version imprimable de son site
Ne pas vouloir indexer des fichiers PDF qui auraient le même contenu que les pages de votre site
Ne pas vouloir indexer des images dans Google image
Des pages avec un contenu de faible qualité
Des pages non visitées depuis longtemps (dont le trafic provient des moteurs de recherche)
Des fichiers de construction du site web comme avec WordPress par exemple.

On peut voir des pages de remerciement directement dans résultats de recherche, ce qui est plutôt bizarre vu que nous n’avons effectué aucune action en particulier.

Le problème c’est que cette directive qu’on donne aux robots ne nous assure pas de ne pas voir les pages sur les index des moteurs de recherche. En effet Disallow empêche simplement le crawl. Il suffit d’avoir un lien vers cette page mise en Disallow et elle se retrouvera quand même indexée. C’est pour cette raison que je veux vous présenter deux autres commandes :

Noindex : cette commande viendra en plus de Disallow pour empêcher la page d’être indexée. Grâce à cela, vous serez un plus assuré que votre page ne sera pas indexé (oui il peut quand même arriver qu’elle soit indexée)
NoFollow : Cette commande va dire au moteur de recherche de ne pas aller sur les liens que vous avez dans la page pour que les robots ne les suivent pas. C’est plutôt utile sur ces liens de faibles qualités

Ces deux commandes fonctionnent comme Allow et Disallow.

Les balises Meta robots

Ces balises sont différentes du fichier robots.txt. Elles vont faire le même travail en revanche.

Cette balise va empêcher l’indexation et le suivi des liens

Assurez-vous de vous placer entre les balises <head> et d’y placer la balise <meta name= « robots » content= « noindex »/>

Vous pouvez aussi ajouter la mention nofollow en mettant dans l’attribut content : « noindex, nofollow ».

Pour ceux qui seraient sur WordPress, Yoast simplifie l’insertion de cette balise dans son cadre sous le contenu écrit.

Il suffit de cliquer sur la roue dentée à gauche :

N’hésitez pas à jeter un œil à mon fichier robots.txt pour vous inspirer. Étant sur WordPress, mon cas peut être différent du votre. La plupart des CMS proposent ce genre de possibilité via une extention.

Cependant attention à ne pas se mêler les pinceaux entre le fichier robots et les metas robots. Si vous donner une directive de no index grâce à la meta et une directive de non crawl sur le fichier robots.txt, il peut y avoir des conflits.

En fin de compte la page ne sera pas indexée puisque Google aura eu l’ordre d’arrêter de crawler la page déjà indexée.

Tester le fichier

On commence dans un premier temps par mettre son fichier sur son hébergement via Fillezilla dans le fichier racine comme je l’expliquais précédemment. Pour tester le fichier robots, on se rend sur Google Search Console et on s’y connecte. Rendez-vous dans l’onglet couverture pour voir ce que Google index.

Il va falloir attendre un peu que Google voit votre fichier robots et une fois que ce sera fait, vous le verrez apparaitre.

Tester le et vous voilà avec un fichier robots bien optimisé !

Conclusion

La configuration de votre robots.txt va permettre d’aider les moteurs de recherche à mieux référencer votre site internet en optimisant votre budget crawl mais en plus de ça, vous mènerez vos lecteurs aux endroits les plus intéressant pour eux.

La mise en place de cet outil ne demande que très peu d’effort et est valide sur un long terme. Il est tout à fait possible d’y revenir plus tard en cas d’oubli d’une page ou simplement de publication d’une page non utile aux lecteurs.

Ce fichier peut faire une différence significative sur l’indexation de vos pages et donc du trafic qui en découle.Optimisez le au mieux pour votre SEO.

Cependant, on y voue de moins en moins d’importance au fil du temps. On l’utilise pour empêcher le crawl de certaines pages et s’assurer que d’autres soient bien crawlés (même si c’est plus de la paranoïa). On ne l’utilise plus pour empêcher l’indexation. La meilleure solution reste avant tout la balise meta robots.

A bientôt pour un prochain article.

About the Author yassine

Follow me

Share 0

Comment faire le parfait fichier robots txt