Robots Txt : quelles sont les bonnes pratiques SEO ?

Mise à jour le 01/07/2022

Le fichier robots txt occupe le cœur des outils dits de SEO technique. Il s’agit effectivement d’un répertoire des pages web que la ou le webmaster du site internet souhaite que les robots d’indexation explorent. C’est donc aussi le support tout trouvé pour interdire l’accès de certaines pages à ces crawlers. De quoi éviter que des pages web peu optimisées pour le SEO se retrouvent indexées et ne nuisent à votre positionnement dans les résultats de recherche.

Définition du Robot Txt

Le robots txt désigne un fichier texte situé à la racine d’un site internet. On parle aussi de “protocole d’exclusion des robots”. Ce fichier interdit effectivement aux robots des moteurs de recherche d’indexer certaines parties du site web. Le robots.txt fait ainsi partie d’un des premiers fichiers que scannent, ou “crawlent”, les robots d’exploration, aussi appelés spiders.

Comment trouver le fichier robots txt ? Il suffit de taper ceci dans la barre d’adresse de votre navigateur : www.adressedevotresite.com/robots.txt. Si une erreur 404 s’affiche, c’est que le fichier n’existe pas encore. Sachez, dans ce cas, que les web crawlers considèrent qu’ils peuvent explorer la totalité des contenus de votre site web. Cela concerne aussi ceux que vous n’avez pas pensés pour le référencement naturel.

La principale utilité de ce fichier consiste donc à éviter que les robots des moteurs de recherche ne scannent certaines pages web. C’est particulièrement utile pour optimiser le “crawl budget”. Si, néanmoins, ce fichier est conçu alors qu’une page web est déjà indexée, il ne permet pas de la “désindexer”. Seule une balise “noindex” permet de le faire.

Quel rapport entre fichier robot.txt et SEO ?

Le protocole d’exclusion des robots permet d’éviter l’exploration de pages qui nuiraient à votre référencement naturel. Vous pouvez aussi vous servir de ce fichier pour préciser l’emplacement du plan de votre site internet, c’est-à-dire de votre sitemap. Ce fichier fait partie des éléments de SEO technique qui vous permettent d’optimiser l’indexation de votre site.

En soi, le lien entre robots.txt et SEO n’est pas mécanique. Il ne suffit pas que les robots d’exploration optimisent le crawl budget dédié à votre site internet pour que vous soyez mieux référencés par les moteurs de recherche. En revanche, les sites web qui sont explorés facilement ont plus de chances de voir les pages web qualitatives indexées et donc référencées dans les résultats de recherche.

Quelles règles pour un robots.txt optimisé SEO ?

Pour un référencement naturel optimisé, l’accès à un certains nombres de contenus mérite d’être barré aux spiders :

duplicate content, ou contenu duppliqué ;
Intranet ;
moteur de recherche interne ;
informations confidentielles.

Notez, cependant, que pour empêcher l’affichage des informations sensibles ou confidentielles dans la Search Engine Results Page (SERP), le fichier robots.txt ne suffit pas. Il faut ici encore recourir à la méta-directive noindex, ou à un mot de passe.

La bonne utilisation de ce fichier réclame également le respect d’un certain nombre de règles :

veillez à ne pas bloquer l’accès à du contenu important pour le SEO ;
si vous modifiez le fichier, envoyer l’URL aux moteurs de recherche ;
placez le dossier à la racine de votre site web, et non en sous-répertoire ;
respectez la syntaxe du fichier, dont le nom doit toujours être en minuscule : robots.txt.

Comment bien rédiger votre fichier Robots Txt ?

Celui-ci s’organise en blocs d’instructions, eux-mêmes divisés en deux ou trois parties :

des “directives user-agent”, qui précisent à quels robots le bloc s’adresse. Vous pouvez donc autoriser l’indexation par certains crawlers, et l’interdire à d’autres. Vous pouvez par exemple autoriser un bloc au “user-agent” Googlebot, les robots de Google, ou interdire l’accès aux robots de Baidu. Vous rédigez dans ce cas : User-agent : Baiduspider Disallow : /.
des “commandes”, c’est-à-dire des contraintes à respecter. Vous pouvez par exemple utiliser les commandes “allow” ou “disallow”, les plus courantes. Cette dernière interdit le crawl d’une zone de votre site web.
Éventuellement, vous pouvez ajouter un directive “sitemap”, c’est-à-dire l’adresse de votre fichier sitemap XML.

La rédaction du dossier robots.txt s’organise également autour de signes qu’on appelle des “Regex”. On en compte deux principaux. L’astérisque “*” introduit une catégorie d’acteurs ou de contenus libres d’accès. Par exemple, “user-agent : *” signifie que tous les crawlers peuvent accéder à ce bloc d’instruction. Le regex “$” signale quant à lui la fin d’une URL. Par exemple : Disallow : /*.php$ indique aux moteurs de recherche d’éviter les URLs en php.

Pour manipuler ce langage sans risque d’erreur, vous pouvez faire appel à votre agence web. Vous pouvez aussi rédiger votre fichier vous-même, à partir d’un éditeur de texte standard.

Vous aimerez peut-être ces articles:

à propos de : Julie MICHEL

Immergée dans le monde de la communication depuis 8 ans, je suis une freelance passionnée par l'écriture. Les défis liés à la rédaction web et au référencement naturel me fascinent et m'absorbent tous les jours.

Robots Txt : quelles sont les bonnes pratiques SEO ?

Définition du Robot Txt

Quel rapport entre fichier robot.txt et SEO ?

Quelles règles pour un robots.txt optimisé SEO ?

Comment bien rédiger votre fichier Robots Txt ?

SEO et IA : comment développer ses compétences ?

Qu’est-ce que le zero-click search ?

GEO vs SEO : comment travailler son référencement sur les IA ?

Être recontacté par Staenk

Parlez-nous de votre projet

Étape 1 sur 3