Comment créer et paramétrer votre Robots.txt pour améliorer votre SEO?

Par My Little Big Web

Le fichier robots.txt, aussi connu sous le nom de protocole d’exclusion des robots, est un fichier particulièrement intéressant. Il permet de fournir des directives aux robots des moteurs de recherche quant à l’exploration (crawling) des pages de votre site web.
Contrairement à ce que l’on pourrait penser, il est très simple de créer et de paramétrer un fichier robots.txt. Pas besoin d’avoir de connaissances spécifiques en développement web, si c’est la question que vous vous posez. La seule chose dont vous aurez besoin, c’est d’un peu de temps devant vous. Et croyez-nous, le résultat vaut largement le détour ! Dans cet article, les experts SEO de notre agence Web montréalaise vous expliquent pourquoi ce fichier est important pour votre SEO et nous allons vous montrer comment le configurer de manière optimale.

 

En quoi consiste le fichier robots.txt?

Dans le monde d’Internet, les robots consistent majoritairement en des logiciels qui visitent les sites web. Les exemples les plus communs sont, sans aucun doute, les robots des moteurs de recherche.  Ces robots utilisés par Google, Bing, Yahoo, Baidu (etc.) ont pour rôle d’explorer l’ensemble des contenus des sites internet et de les indexer par la suite.

Cette indexation permet d’apparaître, plus ou moins favorablement, dans les résultats de recherche en fonction de requêtes spécifiques.

Et justement, le fichier robots.txt vous permet d’influencer cette exploration. Autant vous dire que c’est un outil très puissant !
Avant d’explorer un site web, les robots d’exploration vérifient toujours le fichier robots.txt à la recherche d’instructions.
Si votre site ne dispose pas de ce fichier ou que celui-ci est mal configuré, alors les robots sont censés crawler l’entièreté de votre site web.

 

Pourquoi le fichier robots.txt est-il important pour votre SEO?

Deux raisons principales expliquent l’importance du fichier robots.txt concernant votre SEO :

Premièrement, il vous permet de choisir les ressources de votre site que vous souhaitez voir explorées. Tout ce que vous jugez sans intérêt peut donc facilement être écarté du processus d’exploration des robots, afin qu’ils se concentrent sur l’essentiel. Autrement dit vos contenus les plus pertinents (pages de services, articles de blogue, etc.).

Deuxièmement, grâce à celui-ci, vous pouvez contrôler la quantité de contenu explorée par les moteurs de recherche. Souvenez-vous, sans ce précieux fichier, ceux-ci sont censés explorer la totalité de votre site. Et si vous avez énormément de pages, il est possible que le temps de crawl que Google accorde à votre site soit trop faible. Dans ce cas, le robot pourrait passer son temps à explorer les pages les moins importantes de votre site.

Il s’agit donc de faciliter l’exploration de votre site web en éliminant les URLs à faible valeur ajoutée afin d’optimiser le crawl budget (limites en termes de nombre de pages explorées sur un site web) des robots.

Voici quelques exemples de ce que Google considère comme URLs à faible valeur ajoutée :

  • Celle générées par la navigation à facettes (affiner une recherche à l’aide filtre)

Exemple-navigation-facettes

 

  • Celles générées par les identifiants de session. Par exemple, la connexion à son compte sur une boutique en ligne.
    connexion-compte-amazon

 

En éliminant ces URLs, vous vous assurerez que vos pages ayant réellement de la valeur seront explorées et indexées. De ce fait, vous augmenterez grandement vos chances d’être bien référencé.

Maintenant que vous comprenez un peu mieux l’importance du fichier robots.txt pour votre SEO, nous pouvons passer à l’étape suivante, à savoir sa création ainsi que sa configuration.

 

Créer et configurer son fichier robots.txt

Pour commencer, il faut créer votre fichier robots.txt. Pour cela, pas besoin de programme spécifique, vous pouvez utiliser un éditeur de texte basique : Bloc-notes si vous êtes sous Windows ou TextEdit si vous êtes sur macOS.

Veillez à bien le nommer « robots.txt », n’oubliez pas le « s » à la fin, sinon, il ne fonctionnera pas.

Ensuite, il faut que vous le placiez à la racine de votre site. Concrètement, si votre site est accessible via l’adresse https://monsite.com, le fichier robots.txt se trouvera à l’adresse suivante https://monsite.com/robots.txt.

Pour ce faire, deux solutions s’offrent à vous. Vous pouvez vous connecter à l’hébergeur de votre site internet, puis accéder au gestionnaire de fichiers dédié. Sinon, vous pouvez utiliser un client FTP (« File Transfer Protocol »), à l’instar de FilzeZilla afin de communiquer avec le serveur de votre site.

exemple-racine-site-web

 

Règles de base

Votre fichier robots.txt placé, il ne vous reste plus qu’à le remplir. Pour vous donner une idée, voici ce à quoi peut ressembler un fichier robots.txt configuré :fichier-robots-txt-configur

 

Vous n’y comprenez pas grand-chose, pas vrai ? Pas de panique, nous allons prendre le temps de tout définir ;).

Premièrement, il faut savoir que deux règles principales régissent ce fichier :

    • La directive « User-agent ». Elle désigne les robots des moteurs de recherche qui doivent suivre les directives énoncées dans le fichier.

directive-user-agent-robots

  • La directive « Disallow ». Elle est utilisée pour indiquer qu’un répertoire ou une page du site ne doit pas être explorée par le « User-agent ». Sans cette directive, le robot explore normalement votre site web.

directive-disallow-robots

Cette règle du robots.txt est particulièrement intéressante pour votre SEO, puisque vous pouvez demander aux robots de ne pas explorer vos pages à faible valeur ajoutée.Pour optimiser le crawl budget des robots, vous pouvez, à l’aide de cette directive, leur demander de ne pas explorer les parties de votre site qui ne sont pas affichées au public.

Vous pouvez par exemple interdire l’accès à votre page de connexion :directive-interdiction-page-connexion-robots

Ainsi, les robots ne perdront pas leur temps à explorer cette page et pourront se concentrer sur le plus important.

Continuons la présentation des règles de base. Il faut savoir qu’il existe des signes génériques qui sont associés aux directives :

      • L’astérisque * est ce qu’on appelle une « wildcard ». Dans le cas présent, elle signifie que le fichier robots.txt peut être exploré par l’ensemble des robots (user-agent).

– On voit sur la deuxième ligne qu’il est interdit (disallow) à tous les robots d’accéder à l’ensemble des répertoires et des pages du site web. Le symbole / est utilisé pour signaler cela.

Les bases étant établies, nous allons à présent aborder les règles additionnelles.

 

Règles additionnelles

La directive Allow

La directive « Allow » s’oppose à la directive « Disallow ». Elle n’est supportée que par Google et Bing. Généralement, elle est utilisée comme ceci :

directive-allow-exemple-robotsDans cet exemple, l’ensemble des robots devrait éviter le répertoire /media, sauf le fichier formulaire.pdf

 

Empêcher l’accès à un moteur de recherche précis

Admettons que vous voulez bloquer l’accès aux répertoires et aux pages de votre site au robot de Bing (Bingbot). Il vous faudra procéder comme suit :

interdiction-exploration-bingbot-robots

À noter que les robots des autres moteurs de recherche pourront explorer l’ensemble de votre site.
Vous pouvez, si vous le souhaitez, créer différentes règles pour différents robots. Pour vous aider, voici une liste :

liste-robots-moteurs-recherche-robots

 

Signe générique $

En plus des signes génériques * et /, il est possible de marquer la fin d’une URL à l’aide du signe $.

exemple-signe-robots

Concrètement, cet exemple signifie que l’ensemble des robots des moteurs de recherche devraient éviter les URLs qui finissent par .php.

Note : les URLs avec des paramètres spécifiques du type : https://monsite.fr/page.php?lang=fr seront toujours accessibles étant donné que l’URL ne se finit pas directement après l’extension .php.

 

 Sitemap

Ce n’est pas obligatoire, mais si vous le souhaitez, vous pouvez aussi utiliser votre fichier robots.txt afin de mener les moteurs de recherche à votre sitemap XML. Autant en profiter, la plupart des moteurs de recherche le supportent (Google, Bing, Yahoo). Ainsi, ils comprendront mieux l’arborescence de votre site web.

ajout-sitemap-robots

 

Commentaires

Cette règle n’est pas prise en compte par les robots. Pour autant, elle permet de clarifier votre fichier robots.txt, surtout si celui-ci comporte un grand nombre de directives.

Toute phrase doit être précédée du symbole #, afin que les robots comprennent qu’il s’agit d’un commentaire.

exemple-commentaire-robots

 

Directive noindex

Rappelez-vous, nous vous disions plus tôt que la directive « Disallow » était intéressante pour votre SEO. Eh bien, ce n’est pas tout à fait le cas, puisque même si elle empêche l’exploration de vos pages, il peut arriver que vos pages soient tout de même indexées.
La directive « noindex » permet d’empêcher cela. Associée à la directive « Disallow », elle permet de s’assurer que les robots ne visitent pas ou n’indexent pas certaines pages.
Reprenons l’exemple des pages de remerciements. Si vous voulez qu’elles ne soient pas indexées, voici comment il faut procéder : C’est l’inverse.

utilisation-directive-noindex

Il est aussi possible de demander aux robots de ne pas explorer les liens présents sur une page, pour cela il faut utiliser la directive « nofollow ». Sa configuration ne faisant pas partie du fichier robots.txt, nous n’allons pas l’aborder. Pour les curieux, Google a dédié une page à ce sujet.

OBTENEZ UN COACHING GRATUIT DE 30 MINUTES EN REMPLISSANT LE FORMULAIRE !
  • Ce champ n'est utilisé qu'à des fins de validation et devrait rester inchangé.

 

Quelques spécificités à retenir

Le fichier robots.txt, aussi simple soit-il, possède un certain nombre de spécificités qu’il convient de connaître afin d’éviter toute erreur qui pourrait nuire à votre site.

    • Ne pas tout mettre sur une même ligne : veillez à ce que chacune de vos directives soit sur une ligne différente. Plusieurs directives sur une même ligne provoqueront des problèmes et des incompréhensions pour les robots.

exemple-meme-ligne-robots

  • Ordre de préséance : chaque robot traite le fichier robots.txt différemment. Par défaut, c’est la première directive qui l’emporte sur tout le reste. Cependant, c’est un peu différent chez Google et Bing. Ce sont les directives les plus spécifiques qui importent le plus.
  • Attention aux robots malveillants : le fichier robots.txt n’est qu’une indication sur ce que doivent faire les moteurs de recherche. Si les robots « bienveillants » jouent le jeu, ce n’est pas forcément le cas des robots « malveillants » qui ignoreront purement et simplement votre fichier.
  • Le fichier ne peut excéder 500 Ko : garder cela en tête lorsque vous configurez votre fichier robots.txt. Si celui-ci dépasse la taille maximale, il risque de ne pas être pris en compte.
  • Sensibilité à la casse : le fichier robots.txt est sensible à la casse, tout comme les différentes règles qui le composent. Alors, faites bien attention à cela. Concrètement, évitez toute majuscule dans le nom de vos répertoires, vos liens, etc.

Un fichier robots.txt par domaine ou sous-domaine : les directives d’un fichier ne peuvent être appliquées qu’à l’hôte où le fichier est hébergé.

 

Vérifier si son fichier robots.txt fonctionne

Maintenant que votre fichier est configuré, il vous faut le tester pour savoir si celui-ci est valide.
Pour ce faire, rendez-vous sur Google Search Console. Connectez-vous à votre compte. Ceci fait, il vous faudra accéder à l’ancienne version de la Search Console.

acces-ancienne-version-gsc-robots

 

Puis, dans l’onglet « Exploration », cliquez sur « Outil de test du fichier robots.txt ».

outil-test-fichier-robots

 

Remplissez le champ avec les données contenues dans votre fichier robots.txt, puis cliquez sur tester. Vous pouvez voir si votre fichier est compatible avec les différents robots.

bouton-tester-robots

 

Si le bouton « Tester » se change en « Autorisée », nous avons le plaisir de vous annoncer que votre fichier est valide ! =)
Il ne vous reste plus qu’à le placer à la racine de votre site web.

 

Conclusion

Vous savez à présent comment créer et configurer un fichier robots.txt. Vous devriez rapidement observer une augmentation de votre visibilité dans les résultats de recherche.

Grâce à ce fichier, vous allez grandement aider les robots des moteurs de recherche à comprendre votre site. Ceux-ci pourront alors explorer plus intelligemment votre site web et afficher dans les résultats de recherche vos pages les plus pertinentes.

Si toutefois, vous avez besoin d’aide pour mettre en place votre fichier robots.txt, n’hésitez pas à contacter notre équipe d’expert!