Robots Txt : quelles sont les bonnes pratiques SEO ?

Robots Txt _ quelles sont les bonnes pratiques SEO

Le fichier robots txt occupe le cœur des outils dits de SEO technique. Il s’agit effectivement d’un répertoire des pages web que la ou le webmaster du site internet souhaite que les robots d’indexation explorent. C’est donc aussi le support tout trouvé pour interdire l’accès de certaines pages à ces crawlers. De quoi éviter que des pages web peu optimisées pour le SEO se retrouvent indexées et ne nuisent à votre positionnement dans les résultats de recherche. 

Définition du Robot Txt 

Le robots txt désigne un fichier texte situé à la racine d’un site internet. On parle aussi de “protocole d’exclusion des robots”. Ce fichier interdit effectivement aux robots des moteurs de recherche d’indexer certaines parties du site web. Le robots.txt fait ainsi partie d’un des premiers fichiers que scannent, ou “crawlent”, les robots d’exploration, aussi appelés spiders

Comment trouver le fichier robots txt ? Il suffit de taper ceci dans la barre d’adresse de votre navigateur : www.adressedevotresite.com/robots.txt. Si une erreur 404 s’affiche, c’est que le fichier n’existe pas encore. Sachez, dans ce cas, que les web crawlers considèrent qu’ils peuvent explorer la totalité des contenus de votre site web. Cela concerne aussi ceux que vous n’avez pas pensés pour le référencement naturel. 

La principale utilité de ce fichier consiste donc à éviter que les robots des moteurs de recherche ne scannent certaines pages web. C’est particulièrement utile pour optimiser le “crawl budget”. Si, néanmoins, ce fichier est conçu alors qu’une page web est déjà indexée, il ne permet pas de la “désindexer”. Seule une balise “noindex” permet de le faire. 

Quel rapport entre fichier robot.txt et SEO ? 

Le protocole d’exclusion des robots permet d’éviter l’exploration de pages qui nuiraient à votre référencement naturel. Vous pouvez aussi vous servir de ce fichier pour préciser l’emplacement du plan de votre site internet, c’est-à-dire de votre sitemap. Ce fichier fait partie des éléments de SEO technique qui vous permettent d’optimiser l’indexation de votre site. 

En soi, le lien entre robots.txt et SEO n’est pas mécanique. Il ne suffit pas que les robots d’exploration optimisent le crawl budget dédié à votre site internet pour que vous soyez mieux référencés par les moteurs de recherche. En revanche, les sites web qui sont explorés facilement ont plus de chances de voir les pages web qualitatives indexées et donc référencées dans les résultats de recherche.

Quelles règles pour un robots.txt optimisé SEO ?

Pour un référencement naturel optimisé, l’accès à un certains nombres de contenus mérite d’être barré aux spiders :

  • duplicate content, ou contenu duppliqué ; 
  • Intranet ; 
  • moteur de recherche interne ;
  • informations confidentielles.

Notez, cependant, que pour empêcher l’affichage des informations sensibles ou confidentielles dans la Search Engine Results Page (SERP), le fichier robots.txt ne suffit pas. Il faut ici encore recourir à la méta-directive noindex, ou à un mot de passe. 

La bonne utilisation de ce fichier réclame également le respect d’un certain nombre de règles :

  • veillez à ne pas bloquer l’accès à du contenu important pour le SEO ; 
  • si vous modifiez le fichier, envoyer l’URL aux moteurs de recherche ;
  • placez le dossier à la racine de votre site web, et non en sous-répertoire ; 
  • respectez la syntaxe du fichier, dont le nom doit toujours être en minuscule : robots.txt.

Comment bien rédiger votre fichier Robots Txt ? 

Celui-ci s’organise en blocs d’instructions, eux-mêmes divisés en deux ou trois parties : 

  • des “directives user-agent”, qui précisent à quels robots le bloc s’adresse. Vous pouvez donc autoriser l’indexation par certains crawlers, et l’interdire à d’autres. Vous pouvez par exemple autoriser un bloc au “user-agent” Googlebot, les robots de Google, ou interdire l’accès aux robots de Baidu. Vous rédigez dans ce cas : User-agent : Baiduspider Disallow : /.
  • des “commandes”, c’est-à-dire des contraintes à respecter. Vous pouvez par exemple utiliser les commandes “allow” ou “disallow”, les plus courantes. Cette dernière interdit le crawl d’une zone de votre site web. 
  • Éventuellement, vous pouvez ajouter un directive “sitemap”, c’est-à-dire l’adresse de votre fichier sitemap XML. 

La rédaction du dossier robots.txt s’organise également autour de signes qu’on appelle des “Regex”. On en compte deux principaux. L’astérisque “*” introduit une catégorie d’acteurs ou de contenus libres d’accès. Par exemple, “user-agent : *” signifie que tous les crawlers peuvent accéder à ce bloc d’instruction. Le regex “$” signale quant à lui la fin d’une URL. Par exemple : Disallow : /*.php$ indique aux moteurs de recherche d’éviter les URLs en php. 

Pour manipuler ce langage sans risque d’erreur, vous pouvez faire appel à votre agence web. Vous pouvez aussi rédiger votre fichier vous-même, à partir d’un éditeur de texte standard. 

Vous aimerez peut-être ces articles:

Laissez un petit mot

0 0 votes
Évaluation de l'article
S’abonner
Notification pour
guest

0 Commentaires
Commentaires en ligne
Afficher tous les commentaires

Quel est le but du contenu sémantique ?

Définition du contenu sémantique Le contenu sémantique fait référence à la signification des mots, phrases et documents. Il peut être défini comme l’ensemble des connaissances, des informations et des interprétations qui sont associées à un mot, une phrase ou un document. Le contenu sémantique permet aux lecteurs de comprendre la signification des mots et des […]

seo pages zombies

Pages Zombies : comment les éviter sur son site ?

Si vous possédez un site Web, vous devez avoir des pages zombies. Les pages zombies peuvent en fait nuire à votre référencement SEO et sont des pages que vous devez absolument supprimer de votre site. Les pages zombies sont des pages de votre site qui reçoivent peu ou pas de trafic. Ces pages peuvent exister […]

Être recontacté par Staenk

Parlez-nous de votre projet

  • Hidden
    Code postal
  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Maud contact

Parlons performance et webmarketing.
Maud vous recontactera sous 48h pour discuter de votre projet.

0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x