Tout savoir sur le fichier

robots.txt

Le robots.txt : qu’est-ce que c’est

?

Avez-vous déjà entendu parler du robots.txt ? Il s’agit d’un fichier, au format texte et il a été initié par Martin Koster lorsqu’il a travaillé pour Webcrawler en 1994. Grâce à ce fichier, vous pouvez indiquer aux crawlers ou aux robots des moteurs de recherche certaines informations à analyser. Ainsi, il désigne quelle rubrique ou quelle page d’un site voire quel site devrait ou ne devrait pas être indexé. Il intègre donc des commandes pour les robots d’indexation et intervient dans le référencement naturel d’un site. Aussi, sachez qu’avec le fichier robots.txt, vous pouvez aussi bloquer l’indexation de certaines pages ou de toutes les pages de votre site ou interdire l’indexation d’un dossier. Mais qui crée ce fichier ? Les Robots.txt est créé par un webmaster. Dans le but de cette indexation, ce fichier ne vise pas à refuser l’accès ou la navigation sur une page. De plus, une mauvaise utilisation de ce fichier risque de nuire énormément sur votre ranking.

Les conditions d’utilisation du fichier

robots.txt

Pour utiliser ce fichier, vous devez être très méticuleux. Pour ce faire, vous devez respecter quelques règles :

  • Il faut noter que le terme se met toujours au pluriel.
  • Vous devez bien écrire le nom du fichier, en d’autres termes vous devez bien respecter la casse du nom. De ce fait, vous devez bien écrire « robots.txt », et non « robot.txt » ou « Robots.txt ». Une petite erreur peut empêcher la bonne utilisation de ce fichier ;
  • Votre fichier robots.txt a une limite de capacité. Il doit faire moins ou égal à 500 ko pour que toutes ses consignes puissent être considérées ;
  • Afin que les robots d’expiration puissent lire facilement le fichier robots.txt, il faut que ce dernier se place bien à la racine du site web à analyser ;
  • Ce fichier est accessible au public. De ce fait, tout le monde peut y accéder facilement. Il suffit juste de mettre « /robots.txt » à la fin du nom de domaine du fichier. Vous pouvez donc y accéder sur tous les sites ;
  • En cas de robots d’exploration malveillants, vous risquez de ne pas prendre en compte les indications offertes par le fichier robots.txt. Aussi, pour bien utiliser ce dernier vous devez vous assurer de la qualité de vos robots d’exploration ;
  • Comme le fichier robots.txt est accessible au public, il faut éviter de stocker des informations personnelles ou confidentielles sur celui-ci ;
  • Lors de la création de votre fichier robots.txt, il est important de toujours y insérer l’adresse de votre sitemap. Ainsi, vous pouvez facilement indiquer aux robots des moteurs de recherche l’existence de ce dernier. ;
  • Assurez-vous que le fichier robots.txt que vous intégrez sur un site soit bien accessible et compréhensible. En effet, vous devez faire en sorte que les robots l’assimilent facilement afin de les aider à interpréter votre site et à effectuer le crawl de ses contenus et de son adresse sans aucun problème ;
  • L’URL de votre site figure déjà dans les résultats des moteurs de recherche ? Si tel est le cas et si vous souhaitez la désindexer, vous devez autoriser son crawl et vous servir d’une balise, celle de meta robots noindex. Grace à cette technique, vous pouvez la désindexer facilement au lieu d’utiliser des consignes du fichier robots.txt pour empêcher son accès.

Comment optimiser un fichier Robots.txt

pour le SEO ?

Avant de connaître les techniques pour l’optimisation d’un fichier Robots.txt pour un référencement, il faudrait d’abord connaître la relation entre les deux. Pour effectuer le référencement de votre site, il faut certaines conditions. Pour ce faire, les moteurs de recherche comme Google doivent analyser les contenus de vos pages. En effet, comment pourraient-ils vous offrir un meilleur positionnement, s’ils ne savent pas de quoi vous parler ?! Aussi, c’est moyennant le fichier robots.txt ou plus précisément ses consignes que vous pouvez indiquer à ces moteurs de recherche quels sont les contenus qu’ils doivent explorer et ceux qu’il ne faut pas indexer. De plus, en vous servant de ce fichier, vous pouvez indiquer facilement vos meilleurs contenus à analyser.

Aussi, une fois cette relation connue, vous devez maintenant savoir quels sont les contenus à ne pas indexer ou à ne pas analyser par les robots. Pour ce faire, les pages suivantes ne sont pas à indexer :

  • Les pages dupliquées. Si ces pages sont retrouvées par Google, elles risquent d’être pénalisés. Or, dans certains cas, surtout pour les sites e-commerce ou certains sites sur WordPress, les pages dupliquées peuvent exister. Il peut par exemple y avoir deux pages avec les mêmes contenus sur un produit, mais seulement dans l’une d’elle est intégré les avis des utilisateurs. Elles ne peuvent donc pas être supprimées, et vous ne devez pas les faire analyser par les robots ;
  • Les pages statiques ou des pages qui ne changent qu’après une mise à jour de son développeur, mais qui sont considérées comme importantes ;
  • Pour les protocoles HTTP et HTTPS, vous vous devez de créer un fichier robots.txt pour chacun d’entre eux.

Tout savoir sur la mise

en place et la mise à jour de Robots.txt

Vous connaissez maintenant le fichier robots.txt et les différentes règles pour son utilisation, mais comment le mettre en place et le mettre régulièrement à jour ? Rassurez-vous, ces étapes ne sont pas compliquées, vous devez juste être méticuleux sur certains détails.

Pour commencer, pour créer le fichier, vous devez juste vous servir d’un éditeur de texte. Pour ce faire, vous pouvez vous servir de Notepad ou de Bloc-notes pour effectuer cette création par exemple. Une fois le fichier crée, vous devez le mettre en place, mais où ? Il suffit de le mettre sur l’emplacement dédié dans votre serveur FTP. N’oubliez jamais qu’il doit toujours se placer sur la racine du site.

Comment effectuer une mise à

jour de votre fichier ?

Une fois que votre fichier robots.txt est mis en place, vous avez toujours la possibilité de le mettre à jour. Pour ce faire :

  • Vous devez réaliser cette action dans le Search Console ;
  • Vous devez vous diriger dans la rubrique « Exploration », puis choisir « Outil de test du fichier robots.txt » ;
  • Vous devez cliquer sur Envoyer et suivre les différentes indications pour entreprendre la modification de votre fichier. Rassurez-vous, cette mise à jour se fera rapidement ;
  • Une fois terminée, pour vérifier les modifications, il vous suffit de saisir votre URL suivi de « robots.txt » dans votre barre d’adresse.

Par ailleurs, lors de la mise à jour de votre fichier robots.txt, il y a certaines règles que vous devez respecter :

  • Il ne faut pas changer un URL du fichier robots.txt alors que celui-ci ne se situe plus à la racine de votre site ;
  • Pour les blocs de directives, ils doivent être bien en ordre et il ne doit y avoir aucune ligne blanche dans chacun d’eux ;
  • Vous devez éviter un mauvais encodage de votre robots.txt ;
  • Il faut à tout prix éviter que l’URL du fichier ramène sur des pages d’erreur ;
  • Ce fichier ne doit en aucun cas être écrasé par une version en préproduction contenant des directives pour le blocage du site.

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *