Le fichier robots.txt, aussi connu sous le nom de protocole d’exclusion des robots, est un fichier particulièrement intéressant. Il permet de fournir des directives aux robots des moteurs de recherche quant à l’exploration (crawling) des pages de votre site web.
Contrairement à ce que l’on pourrait penser, il est très simple de créer et de paramétrer un fichier robots.txt. Pas besoin d’avoir de connaissances spécifiques en développement web, si c’est la question que vous vous posez. La seule chose dont vous aurez besoin, c’est d’un peu de temps devant vous. Et croyez-nous, le résultat vaut largement le détour! Dans cet article, les experts SEO de notre agence Web montréalaise vous expliquent pourquoi ce fichier est important pour votre SEO et nous allons vous montrer comment le configurer de manière optimale.
1. Qu'est-ce que le fichier robots.txt?
Dans le monde du Web, les robots consistent majoritairement en des logiciels qui visitent les sites Web. Les exemples les plus communs sont, sans aucun doute, les robots des moteurs de recherche. Ces robots utilisés par Google, Bing, Yahoo, Baidu (etc.) ont pour rôle d’explorer l’ensemble des contenus des sites Internet et de les indexer par la suite.
Cette indexation permet d’apparaître, plus ou moins favorablement, dans les résultats de recherche en fonction de requêtes spécifiques.
Et justement, le fichier robots.txt vous permet d’influencer cette exploration. Autant vous dire que c’est un outil très puissant! Avant d’explorer un site Web, les robots d’exploration vérifient toujours le fichier robots.txt à la recherche d’instructions. Si votre site ne dispose pas de ce fichier ou que celui-ci est mal configuré, alors les robots sont censés crawler l’entièreté de votre site Web.
2. Pourquoi le fichier robots.txt est-il important pour votre SEO?
Deux raisons principales expliquent l’importance du fichier robots.txt concernant votre SEO.
2.1. Indiquez à Google quelles sont vos pages importantes
Premièrement, il vous permet de choisir les ressources de votre site que vous souhaitez voir explorées. Tout ce que vous jugez sans intérêt peut donc facilement être écarté du processus d’exploration des robots, afin qu’ils se concentrent sur l’essentiel. Autrement dit vos contenus les plus pertinents (pages de services, articles de blogue, etc.).
2.2. Contrôlez le crawl budget
Deuxièmement, grâce à celui-ci, vous pouvez contrôler la quantité de contenu explorée par les moteurs de recherche. Souvenez-vous, sans ce précieux fichier, ceux-ci sont censés explorer la totalité de votre site. Et si vous avez énormément de pages, il est possible que le temps de crawl que Google accorde à votre site soit trop faible. Dans ce cas, le robot pourrait passer son temps à explorer les pages les moins importantes de votre site.
2.3. En bref, aidez Google à mieux comprendre votre site Web
Il s’agit donc de faciliter l’exploration de votre site web en éliminant les URLs à faible valeur ajoutée afin d’optimiser le crawl budget (limites en termes de nombre de pages explorées sur un site web) des robots.
Voici quelques exemples de ce que Google considère comme URLs à faible valeur ajoutée:
- Celle générées par la navigation à facettes (affiner une recherche à l’aide filtre)
- Celles générées par les identifiants de session. Par exemple, la connexion à son compte sur une boutique en ligne.
En éliminant ces URLs, vous vous assurerez que vos pages ayant réellement de la valeur seront explorées et indexées. De ce fait, vous augmenterez grandement vos chances d’être bien référencé.
Maintenant que vous comprenez un peu mieux l’importance du fichier robots.txt pour votre SEO, nous pouvons passer à l’étape suivante, à savoir sa création ainsi que sa configuration.
3. Créez et configurez votre fichier robots.txt
3.1. Créez votre fichier robots.txt
Pour commencer, il faut créer votre fichier robots.txt. Pour cela, pas besoin de programme spécifique, vous pouvez utiliser un éditeur de texte basique : Bloc-notes si vous êtes sous Windows ou TextEdit si vous êtes sur macOS.
Veillez à bien le nommer « robots.txt », n’oubliez pas le « s » à la fin, sinon, il ne fonctionnera pas.
3.2. Placez votre fichier robots.txt à la racine du site
Ensuite, il faut que vous le placiez à la racine de votre site. Concrètement, si votre site est accessible via l’adresse https://monsite.com, le fichier robots.txt se trouvera à l’adresse suivante https://monsite.com/robots.txt.
Pour ce faire, deux solutions s’offrent à vous. Vous pouvez vous connecter à l’hébergeur de votre site internet, puis accéder au gestionnaire de fichiers dédié. Sinon, vous pouvez utiliser un client FTP (« File Transfer Protocol »), à l’instar de FileZilla afin de communiquer avec le serveur de votre site.
3.3. Les règles de base concernant le fichier robots.txt
Votre fichier robots.txt placé, il ne vous reste plus qu’à le remplir. Pour vous donner une idée, voici ce à quoi peut ressembler un fichier robots.txt configuré:
Vous n’y comprenez pas grand-chose, pas vrai? Pas de panique, nous allons prendre le temps de tout définir.
Premièrement, il faut savoir que deux règles principales régissent ce fichier:
- La directive « User-agent » : Elle désigne les robots des moteurs de recherche qui doivent suivre les directives énoncées dans le fichier.
- La directive « Disallow » : Elle est utilisée pour indiquer qu’un répertoire ou une page du site ne doit pas être explorée par le « User-agent ». Sans cette directive, le robot explore normalement votre site web.
Cette règle du robots.txt est particulièrement intéressante pour votre SEO, puisque vous pouvez demander aux robots de ne pas explorer vos pages à faible valeur ajoutée. Pour optimiser le crawl budget des robots, vous pouvez, à l’aide de cette directive, leur demander de ne pas explorer les parties de votre site qui ne sont pas affichées au public.
Vous pouvez par exemple interdire l’accès à votre page de connexion :
Ainsi, les robots ne perdront pas leur temps à explorer cette page et pourront se concentrer sur le plus important.
Continuons la présentation des règles de base. Il faut savoir qu’il existe des signes génériques qui sont associés aux directives :
- L’astérisque * est ce qu’on appelle une « wildcard ». Dans le cas présent, elle signifie que le fichier robots.txt peut être exploré par l’ensemble des robots (user-agent).
- On voit sur la deuxième ligne qu’il est interdit (disallow) à tous les robots d’accéder à l’ensemble des répertoires et des pages du site web. Le symbole / est utilisé pour signaler cela.
Les bases étant établies, nous allons à présent aborder les règles additionnelles.
3.4. Les règles additionnelles concernant le fichier robots.txt
3.4.1. La directive Allow
La directive « Allow » s’oppose à la directive « Disallow ». Elle n’est supportée que par Google et Bing. Généralement, elle est utilisée comme ceci :
Dans cet exemple, l’ensemble des robots devrait éviter le répertoire /media, sauf le fichier formulaire.pdf
3.4.2. Empêcher l’accès à un moteur de recherche précis
Admettons que vous voulez bloquer l’accès aux répertoires et aux pages de votre site au robot de Bing (Bingbot). Il vous faudra procéder comme suit :
À noter que les robots des autres moteurs de recherche pourront explorer l’ensemble de votre site. Vous pouvez, si vous le souhaitez, créer différentes règles pour différents robots. Pour vous aider, voici une liste:
3.4.3. Le signe générique $
En plus des signes génériques * et /, il est possible de marquer la fin d’une URL à l’aide du signe $.
Concrètement, cet exemple signifie que l’ensemble des robots des moteurs de recherche devraient éviter les URLs qui finissent par .php.
Note : les URLs avec des paramètres spécifiques du type : https://monsite.fr/page.php?lang=fr seront toujours accessibles étant donné que l’URL ne se finit pas directement après l’extension .php.
3.4.4. Le sitemap
Ce n’est pas obligatoire, mais si vous le souhaitez, vous pouvez aussi utiliser votre fichier robots.txt afin de mener les moteurs de recherche à votre sitemap XML. Autant en profiter, la plupart des moteurs de recherche le supportent (Google, Bing, Yahoo). Ainsi, ils comprendront mieux l’arborescence de votre site web.
3.4.5. Commentaires
Cette règle n’est pas prise en compte par les robots. Pour autant, elle permet de clarifier votre fichier robots.txt, surtout si celui-ci comporte un grand nombre de directives.
Toute phrase doit être précédée du symbole #, afin que les robots comprennent qu’il s’agit d’un commentaire.
3.4.6. Directive noindex
Rappelez-vous, nous vous disions plus tôt que la directive « Disallow » était intéressante pour votre SEO. Eh bien, ce n’est pas tout à fait le cas, puisque même si elle empêche l’exploration de vos pages, il peut arriver que vos pages soient tout de même indexées.
La directive « noindex » permet d’empêcher cela. Associée à la directive « Disallow », elle permet de s’assurer que les robots ne visitent pas ou n’indexent pas certaines pages.
Reprenons l’exemple des pages de remerciements. Si vous voulez qu’elles ne soient pas indexées, voici comment il faut procéder : C’est l’inverse.
Il est aussi possible de demander aux robots de ne pas explorer les liens présents sur une page, pour cela il faut utiliser la directive « nofollow ». Sa configuration ne faisant pas partie du fichier robots.txt, nous n’allons pas l’aborder ici.
4. Quelques spécificités à retenir sur le fichier robots.txt
Le fichier robots.txt, aussi simple soit-il, possède un certain nombre de spécificités qu’il convient de connaître afin d’éviter toute erreur qui pourrait nuire à votre site.
- Ne pas tout mettre sur une même ligne : veillez à ce que chacune de vos directives soit sur une ligne différente. Plusieurs directives sur une même ligne provoqueront des problèmes et des incompréhensions pour les robots.
- Ordre de préséance : chaque robot traite le fichier robots.txt différemment. Par défaut, c’est la première directive qui l’emporte sur tout le reste. Cependant, c’est un peu différent chez Google et Bing. Ce sont les directives les plus spécifiques qui importent le plus.
- Attention aux robots malveillants : le fichier robots.txt n’est qu’une indication sur ce que doivent faire les moteurs de recherche. Si les robots « bienveillants » jouent le jeu, ce n’est pas forcément le cas des robots « malveillants » qui ignoreront purement et simplement votre fichier.
- Le fichier ne peut excéder 500 Ko : garder cela en tête lorsque vous configurez votre fichier robots.txt. Si celui-ci dépasse la taille maximale, il risque de ne pas être pris en compte.
- Sensibilité à la casse : le fichier robots.txt est sensible à la casse, tout comme les différentes règles qui le composent. Alors, faites bien attention à cela. Concrètement, évitez toute majuscule dans le nom de vos répertoires, vos liens, etc.
Un fichier robots.txt par domaine ou sous-domaine : les directives d’un fichier ne peuvent être appliquées qu’à l’hôte où le fichier est hébergé.
5. Vérifiez si votre fichier robots.txt fonctionne
Maintenant que votre fichier est configuré, il vous faut le tester pour savoir si celui-ci est valide. Pour ce faire, rendez-vous sur Google Search Console. Connectez-vous à votre compte.
Puis, dans l’onglet « Exploration », cliquez sur « Outil de test du fichier robots.txt ».
Remplissez le champ avec les données contenues dans votre fichier robots.txt, puis cliquez sur tester. Vous pouvez voir si votre fichier est compatible avec les différents robots.
Si le bouton « Tester » se change en « Autorisée », nous avons le plaisir de vous annoncer que votre fichier est valide!
Il ne vous reste plus qu’à le placer à la racine de votre site Web.
Suivez vos résultats suite à l'optimisation de votre fichier robots.txt
Vous savez à présent comment créer et configurer un fichier robots.txt. Vous devriez rapidement observer une augmentation de votre visibilité dans les résultats de recherche.
Grâce à ce fichier, vous allez grandement aider les robots des moteurs de recherche à comprendre votre site. Ceux-ci pourront alors explorer plus intelligemment votre site Web et afficher dans les résultats de recherche vos pages les plus pertinentes.
Si toutefois, vous avez besoin d’aide pour mettre en place votre fichier robots.txt, n’hésitez pas à contacter notre équipe d’experts SEO!