Quels sont les problèmes les plus courants liés à l’indexation ?

Par My Little Big Web

Google est un moteur de recherche référençant les pages web des annonceurs selon de nombreux critères et un algorithme complexe. Si plusieurs de ces critères sont connus par les spécialistes, certains critères de référencement de Google restent opaques et demandent une certaine rigueur et un suivi de la part des propriétaires de pages web afin d’obtenir le meilleur référencement possible.

L’indexation d’un site web peut être définie par son enregistrement sur la base de données d’un moteur de recherche ou d’un annuaire. Cela permet ainsi de ressortir dans les résultats de requête des utilisateurs, notamment sur Google. Toutefois, s’il est facile d’indexer une page sur Google, il est indispensable de prendre en compte certains critères pour optimiser son référencement et bénéficier d’une visibilité accrue sur le web.

Comment Google fonctionne?

Pour comprendre l’indexation, il faut vraiment comprendre comment Google fonctionne. Il faut tout d’abord savoir que Google est un algorithme qui fonctionne via des robots. Ces robots vont venir sur votre site, vont explorer votre page, l’indexer et la positionner.

Exploration, indexation et positionnement sont les trois étapes majeures du référencement d’une page web. En effet, un robot va venir analyser votre site, explorer ses pages et décrypter tous les liens qui sont présents sur chacune de ces pages. Le robot va ensuite copier chacune des pages sur les serveurs de Google, et Google va toujours se référer à ces pages là quand il va décider d’indexer votre site, c’est à dire de le mettre sur son moteur de recherche.

Ainsi, indexer votre site signifie qu’il peut apparaître en première, deuxième, dixième, vingtième ou centième page de Google. Ensuite, Google va positionner vos pages. Le positionnement est le fait pour votre page web de se trouver en 1ère page, 2ème page, 3ème page etc. des résultats de requêtes selon les critères auxquels vous répondez et l’intérêt que Google accorde à votre page pour les internautes selon certains mots clés. C’est le positionnement qui vous ramène du trafic. Plus votre positionnement est élevé, plus le nombre d’utilisateurs qui seront susceptibles de tomber sur votre page est élevé. Il est donc indispensable que Google vienne analyser votre site sur une base régulière, sinon l’algorithme ne retiendra que la page qui a été visitée la première fois et mise en cache sur les serveurs de Google, et ne prendra donc pas en compte toutes les mises à jour effectuées depuis lors.

Comment communiquer avec Google?

Le travail du spécialiste en référencement web est d’analyser comment Google perçoit votre site. Ensuite, il faut donner des indications à des fichiers qui permettent de communiquer avec les robots de Google afin d’optimiser le référencement de vos pages. Il existe plusieurs types de fichiers pour communiquer avec Google.

Le fichier robots.txt

Dans tout site Internet, il doit exister un fichier qui est à la racine du site et qui est accessible très facilement si les robots décident de le visiter. C’est le fichier robots.txt. En effet, ce fichier est fait pour les robots, et ces derniers sont sensés le visiter en premier lorsqu’ils effectuent une visite du site. Ce fichier donne toutes les indications utiles pour les robots. On peut notamment décider au sein de ce fichier de ne pas indexer telle ou telle partie du site. Ce peut être le cas notamment pour des sections sécurisées, ou des pages de profil.

Il n’est pas toujours nécessaire d’indexer la totalité des pages de votre site car certaines pages ne sont pas faites pour êtres rendues publiques. Le fichier robots.txt peut donc ordonner au robot de Google de ne pas indexer les pages que vous ne souhaitez pas rendre publiques.

fichier-robots.txt-appleNéanmoins, il faut tout de même savoir que Google est libre de prendre en compte les informations transmises dans le fichier robot.txt. Ainsi, si dans la plupart des cas les indications sont suivies par les robots, Google peut décider de ne pas respecter les instructions et d’indexer selon ses propres critères.

Ensuite, il existe de nombreuses balises dans le fichier robot.txt que l’on peut faire appliquer à certaines pages du site, qui permettent aussi de donner des indications. Par exemple, si vous ne souhaitez pas indexer une page sur votre site, il existe une balise « noindex ». Si elle est sur l’une de vos pages, cela signifie que le robot n’est pas censé l’indexer, et elle n’apparaîtra jamais dans Google. Évidemment si une balise comme ça est sur l’une de vos pages principales, elle ne sera jamais indexée, donc elle ne sera jamais positionnée et vous pourrez perdre en visibilité. Sélectionnez donc soigneusement les pages de votre site que vous ne souhaitez pas indexer.

Balise-noindex

Exemple d’une balise noindex dans un fichier robots.txt

Le fichier sitemap.xml

De plus, il existe un fichier qui s’appelle le fichier « sitemap.xml ». Ce fichier est un fichier « carte de site ». Sur de nombreux sites, vous pourrez retrouver ce fichier qui établit une cartographie de toutes les URL du site, ou du moins les plus importantes. On distingue deux types de sitemap, le plan de site utilisateurs et le plan de site technique.

Plan de site utilisateur

Il existe une sitemap pour les internautes, qui se compose comme un plan de site, où toutes les URLs sont listées. Ce sitemap permet aux internautes de comprendre l’organisation de votre site, ses différentes sections, ses différentes pages, etc.

fichier-carte-du-site-apple

Fichier « carte de site » du site de Apple

Plan de site technique

Le second type de sitemap est également un plan de site mais qui est spécialement dédié à Google. C’est le fichier que l’on nomme « sitemap.xml ». Cela va donc permettre de communiquer à Google toutes les pages que l’on souhaite indexer dans le moteur de recherche.

sitemap-xml-apple

Pour savoir quels sont les aspects de votre site à améliorer au niveau de l’indexation, il peut être judicieux d’observer combien d’URLs de votre site ont été indexées. Par la suite, il faut comparer ce chiffre au nombre de pages total de votre site, ainsi qu’aux résultats de la Google Search Console.

La Google Search Console

La Google Search Console, est un outil fournit par Google tout comme Google Analytics mais qui présente d’autres types de données. En effet, Google Analytics va vous permettre de voir le trafic qui vient sur votre site, combien de temps les visiteurs restent, etc. De son côté, la Google Search Console est un outil gratuit proposé par Google et qui permet justement de voir l’état de l’indexation, les mots-clefs sur lesquels vous vous positionnez, s’il y a des problèmes sur votre site relatifs à votre positionnement, à l’indexation, et vous donne de nombreuses informations relatives à la présence de votre site sur le moteur de recherche.

Les problèmes les plus courants relatifs à l’indexation.

Quels sont les cas les plus courants de problèmes relatifs à l’indexation pour les sites web ?

On peut identifier trois types de problèmes relativement courants sur l’indexation des sites web.

Les sites qui ne sont pas du tout indexés

site-non-indexe-seo

Certains clients viennent nous voir et se demandent pourquoi leur site n’apparaît pas sur le moteur de recherche malgré les efforts faits sur le référencement. Dans certains cas –voire même relativement souvent – nous remarquons que le site n’est pas du tout indexé. En effet, il existe une différence entre le positionnement et le référencement : un site peut être positionné sur Google, et il peut être très long de consulter toutes les pages de Google avant de trouver votre site. En tant que référenceurs, nous disposons de techniques pour regarder combien de pages sont effectivement indexées sur votre site, et il arrive ainsi qu’aucune d’entre elles ne le soient. Souvent, cela peut être du à une balise noindex qui est restée sur le fichier robots.txt. Ainsi, s’il est inscrit dans ce fichier que le site ne doit pas être indexé, aucune de vos pages n’apparaitra sur le moteur de recherche avant que cette balise ait été enlevée.

Bien souvent, lorsque l’on construit un site Internet, le site sera en développement sur une URL complètement différente avant d’être indexé, tel que « dev.monsite.com » ou « programmation.monsite.com ». Ces URLs n’ont donc pas vocation à être indexées, et les programmeurs y apposent une balise noindex. Toutefois, dès lors que ces pages seront mises en ligne avec le bon URL, la balise doit être retirée pour permettre l’indexation.

OBTENEZ UN COACHING GRATUIT DE 30 MINUTES EN REMPLISSANT LE FORMULAIRE !
  • Ce champ n'est utilisé qu'à des fins de validation et devrait rester inchangé.

Les sites avec un nombre insuffisant de pages indexées.

Les robots de Google allouent un certain nombre de ressources à votre site web. En effet, si votre site contient 50.000 pages, il est peu probable que les robots visitent chacune de ces pages en une fois, mais seulement un pourcentage. De ce fait, si les robots ne choisissent de visiter que des pages de faible qualité, ou des pages secondaires, seules ces pages là seront véritablement indexées et pourront se positionner sur le moteur de recherche, au détriment des autres pages de votre site.

Pour résoudre ce problème, il est recommandé de retravailler les liens internes du site pour s’assurer que les robots comprennent bien quelles sont les pages à visiter. Il peut également être intéressant de désindexer certaines pages moins importantes afin que Google ne s’attarde pas dessus.

Les sites possédant trop de pages indexées.

Dans le cas de sites e-commerce la plupart du temps, mais aussi pour certains sites vitrine, il nous arrive de constater qu’il peut y avoir un nombre trop important de pages indexées. Pour un site e-commerce, il peut s’agir de pages qui proposent plusieurs URLs différents, c’est-à-dire une même page qui va être accessible via plusieurs URLs. Cela arrive notamment lorsque votre site va proposer un même produit avec des couleurs ou des caractéristiques différentes.

Dans le cas d’un t-shirt par exemple, l’URL d’accès pourra être par exemple : « monsite.com/nom-du-t-shirt », suivi d’un certain nombre de paramètres URLs qui vont apparaître à la fin de ce dernier, indiquant parfois les couleurs, parfois des numéros, selon comment votre site a été construit, et se situant après un point d’interrogation.

Exemple des paramètres de recherche d’un URL

Ainsi la même page apparaîtra avec le t-shirt rouge, le t-shirt noir, le t-shirt bleu, et seulement un simple paramètre changera dans l’URL. Le problème dans ce cas précis est que Google va considérer ces différentes pages comme du contenu dupliqué qui ne devrait pas être indexé dans le moteur de recherche. Il faut donc préciser que ces pages ne constituent pas du contenu dupliqué dans le fichier robots.txt, en indiquant de ne pas prendre en compte tel ou tel paramètre, ou de ne pas indexer tous les paramètres.

Dans le cas de sites vitrines, si vous avez un site WordPress qui contient une section blogue par exemple, vous pouvez choisir des catégories pour vos articles. Il peut arriver souvent que vous cochiez plusieurs catégories pour les articles qui sont postés sur le blogue. Ces articles vont alors être disponible avec plusieurs URLs selon les catégories que vous avez cochées et apparaîtront comme du contenu dupliqué. Sur tous les sites WordPress, vous pouvez décider de faire afficher la catégorie dans votre URL.

Pour éviter ce problème, vous pouvez changer les URLs de vos articles, ou bien désindexer la catégorie. Si vous décidez de changer vos URLs, il faut être très vigilant car cela peut impacter négativement votre site et votre référencement si vous ne disposez pas des connaissances suffisantes pour effectuer ces opérations.

Faites-vous aider pour améliorer l’indexation de votre site

La bonne indexation d’un site a des répercussions importantes sur le SEO de votre site et donc sur votre positionnement et votre trafic. Nous constatons souvent des erreurs qui sont faites alors que les programmeurs ou les spécialistes marketing souhaitaient améliorer les performances. Si vous souhaitez analyser l’état de l’indexation des pages de votre site, nous vous recommandons de faire appel à un spécialiste SEO. Bien entendu, vous pouvez nous contacter et nous nous ferons un plaisir de vous accompagner dans votre stratégie SEO.