Robots Txt : quelles sont les bonnes pratiques SEO ?

Robots Txt _ quelles sont les bonnes pratiques SEO

Le fichier robots txt occupe le cœur des outils dits de SEO technique. Il s’agit effectivement d’un répertoire des pages web que la ou le webmaster du site internet souhaite que les robots d’indexation explorent. C’est donc aussi le support tout trouvé pour interdire l’accès de certaines pages à ces crawlers. De quoi éviter que des pages web peu optimisées pour le SEO se retrouvent indexées et ne nuisent à votre positionnement dans les résultats de recherche. 

Définition du Robot Txt 

Le robots txt désigne un fichier texte situé à la racine d’un site internet. On parle aussi de “protocole d’exclusion des robots”. Ce fichier interdit effectivement aux robots des moteurs de recherche d’indexer certaines parties du site web. Le robots.txt fait ainsi partie d’un des premiers fichiers que scannent, ou “crawlent”, les robots d’exploration, aussi appelés spiders

Comment trouver le fichier robots txt ? Il suffit de taper ceci dans la barre d’adresse de votre navigateur : www.adressedevotresite.com/robots.txt. Si une erreur 404 s’affiche, c’est que le fichier n’existe pas encore. Sachez, dans ce cas, que les web crawlers considèrent qu’ils peuvent explorer la totalité des contenus de votre site web. Cela concerne aussi ceux que vous n’avez pas pensés pour le référencement naturel. 

La principale utilité de ce fichier consiste donc à éviter que les robots des moteurs de recherche ne scannent certaines pages web. C’est particulièrement utile pour optimiser le “crawl budget”. Si, néanmoins, ce fichier est conçu alors qu’une page web est déjà indexée, il ne permet pas de la “désindexer”. Seule une balise “noindex” permet de le faire. 

Quel rapport entre fichier robot.txt et SEO ? 

Le protocole d’exclusion des robots permet d’éviter l’exploration de pages qui nuiraient à votre référencement naturel. Vous pouvez aussi vous servir de ce fichier pour préciser l’emplacement du plan de votre site internet, c’est-à-dire de votre sitemap. Ce fichier fait partie des éléments de SEO technique qui vous permettent d’optimiser l’indexation de votre site. 

En soi, le lien entre robots.txt et SEO n’est pas mécanique. Il ne suffit pas que les robots d’exploration optimisent le crawl budget dédié à votre site internet pour que vous soyez mieux référencés par les moteurs de recherche. En revanche, les sites web qui sont explorés facilement ont plus de chances de voir les pages web qualitatives indexées et donc référencées dans les résultats de recherche.

Quelles règles pour un robots.txt optimisé SEO ?

Pour un référencement naturel optimisé, l’accès à un certains nombres de contenus mérite d’être barré aux spiders :

  • duplicate content, ou contenu duppliqué ; 
  • Intranet ; 
  • moteur de recherche interne ;
  • informations confidentielles.

Notez, cependant, que pour empêcher l’affichage des informations sensibles ou confidentielles dans la Search Engine Results Page (SERP), le fichier robots.txt ne suffit pas. Il faut ici encore recourir à la méta-directive noindex, ou à un mot de passe. 

La bonne utilisation de ce fichier réclame également le respect d’un certain nombre de règles :

  • veillez à ne pas bloquer l’accès à du contenu important pour le SEO ; 
  • si vous modifiez le fichier, envoyer l’URL aux moteurs de recherche ;
  • placez le dossier à la racine de votre site web, et non en sous-répertoire ; 
  • respectez la syntaxe du fichier, dont le nom doit toujours être en minuscule : robots.txt.

Comment bien rédiger votre fichier Robots Txt ? 

Celui-ci s’organise en blocs d’instructions, eux-mêmes divisés en deux ou trois parties : 

  • des “directives user-agent”, qui précisent à quels robots le bloc s’adresse. Vous pouvez donc autoriser l’indexation par certains crawlers, et l’interdire à d’autres. Vous pouvez par exemple autoriser un bloc au “user-agent” Googlebot, les robots de Google, ou interdire l’accès aux robots de Baidu. Vous rédigez dans ce cas : User-agent : Baiduspider Disallow : /.
  • des “commandes”, c’est-à-dire des contraintes à respecter. Vous pouvez par exemple utiliser les commandes “allow” ou “disallow”, les plus courantes. Cette dernière interdit le crawl d’une zone de votre site web. 
  • Éventuellement, vous pouvez ajouter un directive “sitemap”, c’est-à-dire l’adresse de votre fichier sitemap XML. 

La rédaction du dossier robots.txt s’organise également autour de signes qu’on appelle des “Regex”. On en compte deux principaux. L’astérisque “*” introduit une catégorie d’acteurs ou de contenus libres d’accès. Par exemple, “user-agent : *” signifie que tous les crawlers peuvent accéder à ce bloc d’instruction. Le regex “$” signale quant à lui la fin d’une URL. Par exemple : Disallow : /*.php$ indique aux moteurs de recherche d’éviter les URLs en php. 

Pour manipuler ce langage sans risque d’erreur, vous pouvez faire appel à votre agence web. Vous pouvez aussi rédiger votre fichier vous-même, à partir d’un éditeur de texte standard. 

Laissez un petit mot

0 0 votes
Évaluation de l'article
S’abonner
Notification pour
guest
0 Commentaires
Commentaires en ligne
Afficher tous les commentaires

Top 15 des recherches Google drôles autour du déménagement

Le printemps est là et la saison des déménagements reprend. L’occasion de s’intéresser aux recherches Google sur la thématique du déménagement… Et certaines sont moins conventionnelles que d’autres. Top 15 des recherches sur le déménagement que j’ai trouvé surprenantes. Sommaire1 1. L’internaute qui n’apprécie pas du tout ses voisins2 2. L’internaute qui s’interroge sur ses […]

comment-obtenir-backlinks-seo

40 idées pour avoir plein de beaux backlinks en 2022

Les backlinks sont les liens faits par d’autres sites internet vers votre site. Ils permettent de rendre visible votre site aux internautes et à Google, mais accordent également et surtout un certain crédit (et donc de la puissance SEO) à votre site. D’où leur importance en référencement naturel. Cette base posée, comment avoir concrètement des […]

Quelles sont les meilleures formations SEO en 2022

Quelles sont les meilleures formations SEO en 2022 ?

Vous vous lancez dans le référencement naturel et vous avez besoin de bases théoriques solides pour faire du bon boulot ? Vous êtes une ou un professionnel du webmarketing ou du e-commerce et vous cherchez à vous perfectionner en SEO ? Les formations en référencement naturel foisonnent sur le net. Encore faut-il choisir un cursus […]

Être recontacté par Staenk

Parlez-nous de votre projet

  • Hidden
    Code postal
  • Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Maud contact

Parlons performance et webmarketing.
Maud vous recontactera sous 48h pour discuter de votre projet.

0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x
()
x