Robots Txt : quelles sont les bonnes pratiques SEO ?

Robots Txt _ quelles sont les bonnes pratiques SEO

Le fichier robots txt occupe le cœur des outils dits de SEO technique. Il s’agit effectivement d’un répertoire des pages web que la ou le webmaster du site internet souhaite que les robots d’indexation explorent. C’est donc aussi le support tout trouvé pour interdire l’accès de certaines pages à ces crawlers. De quoi éviter que des pages web peu optimisées pour le SEO se retrouvent indexées et ne nuisent à votre positionnement dans les résultats de recherche. 

Définition du Robot Txt 

Le robots txt désigne un fichier texte situé à la racine d’un site internet. On parle aussi de “protocole d’exclusion des robots”. Ce fichier interdit effectivement aux robots des moteurs de recherche d’indexer certaines parties du site web. Le robots.txt fait ainsi partie d’un des premiers fichiers que scannent, ou “crawlent”, les robots d’exploration, aussi appelés spiders

Comment trouver le fichier robots txt ? Il suffit de taper ceci dans la barre d’adresse de votre navigateur : www.adressedevotresite.com/robots.txt. Si une erreur 404 s’affiche, c’est que le fichier n’existe pas encore. Sachez, dans ce cas, que les web crawlers considèrent qu’ils peuvent explorer la totalité des contenus de votre site web. Cela concerne aussi ceux que vous n’avez pas pensés pour le référencement naturel. 

La principale utilité de ce fichier consiste donc à éviter que les robots des moteurs de recherche ne scannent certaines pages web. C’est particulièrement utile pour optimiser le “crawl budget”. Si, néanmoins, ce fichier est conçu alors qu’une page web est déjà indexée, il ne permet pas de la “désindexer”. Seule une balise “noindex” permet de le faire. 

Quel rapport entre fichier robot.txt et SEO ? 

Le protocole d’exclusion des robots permet d’éviter l’exploration de pages qui nuiraient à votre référencement naturel. Vous pouvez aussi vous servir de ce fichier pour préciser l’emplacement du plan de votre site internet, c’est-à-dire de votre sitemap. Ce fichier fait partie des éléments de SEO technique qui vous permettent d’optimiser l’indexation de votre site. 

En soi, le lien entre robots.txt et SEO n’est pas mécanique. Il ne suffit pas que les robots d’exploration optimisent le crawl budget dédié à votre site internet pour que vous soyez mieux référencés par les moteurs de recherche. En revanche, les sites web qui sont explorés facilement ont plus de chances de voir les pages web qualitatives indexées et donc référencées dans les résultats de recherche.

Quelles règles pour un robots.txt optimisé SEO ?

Pour un référencement naturel optimisé, l’accès à un certains nombres de contenus mérite d’être barré aux spiders :

  • duplicate content, ou contenu duppliqué ; 
  • Intranet ; 
  • moteur de recherche interne ;
  • informations confidentielles.

Notez, cependant, que pour empêcher l’affichage des informations sensibles ou confidentielles dans la Search Engine Results Page (SERP), le fichier robots.txt ne suffit pas. Il faut ici encore recourir à la méta-directive noindex, ou à un mot de passe. 

La bonne utilisation de ce fichier réclame également le respect d’un certain nombre de règles :

  • veillez à ne pas bloquer l’accès à du contenu important pour le SEO ; 
  • si vous modifiez le fichier, envoyer l’URL aux moteurs de recherche ;
  • placez le dossier à la racine de votre site web, et non en sous-répertoire ; 
  • respectez la syntaxe du fichier, dont le nom doit toujours être en minuscule : robots.txt.

Comment bien rédiger votre fichier Robots Txt ? 

Celui-ci s’organise en blocs d’instructions, eux-mêmes divisés en deux ou trois parties : 

  • des “directives user-agent”, qui précisent à quels robots le bloc s’adresse. Vous pouvez donc autoriser l’indexation par certains crawlers, et l’interdire à d’autres. Vous pouvez par exemple autoriser un bloc au “user-agent” Googlebot, les robots de Google, ou interdire l’accès aux robots de Baidu. Vous rédigez dans ce cas : User-agent : Baiduspider Disallow : /.
  • des “commandes”, c’est-à-dire des contraintes à respecter. Vous pouvez par exemple utiliser les commandes “allow” ou “disallow”, les plus courantes. Cette dernière interdit le crawl d’une zone de votre site web. 
  • Éventuellement, vous pouvez ajouter un directive “sitemap”, c’est-à-dire l’adresse de votre fichier sitemap XML. 

La rédaction du dossier robots.txt s’organise également autour de signes qu’on appelle des “Regex”. On en compte deux principaux. L’astérisque “*” introduit une catégorie d’acteurs ou de contenus libres d’accès. Par exemple, “user-agent : *” signifie que tous les crawlers peuvent accéder à ce bloc d’instruction. Le regex “$” signale quant à lui la fin d’une URL. Par exemple : Disallow : /*.php$ indique aux moteurs de recherche d’éviter les URLs en php. 

Pour manipuler ce langage sans risque d’erreur, vous pouvez faire appel à votre agence web. Vous pouvez aussi rédiger votre fichier vous-même, à partir d’un éditeur de texte standard. 

Vous aimerez peut-être ces articles:

Laissez un petit mot

0 0 votes
Évaluation de l'article
S’abonner
Notification pour
guest

0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires

Les bases d’un bon référencement Google

Le saviez vous ? Avoir un site au design moderne et de beaux visuels, c’est bien, mais cela ne vous rapportera rien s’il n’est pas visible auprès de votre cible et s’il ne se démarque pas de vos concurrents. En travaillant votre référencement Google, vous pourrez positionner votre site sur les mots-clés forts de votre business, ramener du trafic qualifié sur votre site et a fortiori, convertir.

Être recontacté par Staenk

Parlez-nous de votre projet

  • Hidden
    Code postal
  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Maud contact

Parlons performance et webmarketing.
Maud vous recontactera sous 48h pour discuter de votre projet.

0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x