robots.txt Google

Formalisation du protocole d’exclusion des robots dans le fichier robots.txt

publié le 11 juillet 2019

Google a récemment indiqué qu’il souhaitait que les spécifications du fichier robots.txt deviennent un standard officiel sur internet. En effet, jusqu’à présent, ce n’était pas le cas et chaque développeur devait interpréter le protocole à sa manière à travers ses nombreuses mises à jour.

Fonctionnement du fichier robot.txt

Depuis la création de son moteur de recherche, Google a mis en place un robot dont le but est de crawler chaque page internet sur laquelle il arrive. En se servant des liens internes, il peut ainsi naviguer sur un site en entier et indexer ses pages. Certains webmasters ont ainsi voulu contrôler l’accès de ce robot à certaines pages ou sections de leur site. Et cela doit passer par des indications dans le fichier robot.txt sous une forme assez simple (ci-dessous les principales directives) :

  • User-agent : (« * » pour tous les robots ou « googlebot », par exemple, pour autoriser seulement le robot Googlebot) ;
  • Disallow : (« / » pour interdire l’accès au site ou « /exemple » pour interdire seulement accès à la page « exemple »).

Si le propriétaire d’un site a placé un fichier robots.txt sur son site, le robot le lira en priorité et appliquera les directives indiquées. Depuis des dizaines d’années, c’est ce type de protocole qui régit la navigation des principaux crawlers sur internet.

Ce que souhaite faire Google

Dans son article du 1er juillet 2019, Google explique que, jusqu’à présent, ces règles étaient officieuses. Tout le monde les utilisait et le moteur de recherche les avait adoptées et prises en compte. Pourtant, sans norme précise, certaines règles paraissaient un peu trop complexes pour le robot.

Ainsi, par souci de simplification et pour partir sur de bonnes bases, Google a documenté la façon dont les REP (Robots Exclusion Protocol) doivent être utilisés et a soumis cela à l’IETF (Internet Engineering Task Force, qui est une communauté dont la mission est de travailler pour améliorer la qualité d’internet dans son ensemble).

Parmi les règles mises à jour, Google cite 4 exemples :

  • Le fichier robots.txt n’est plus limité aux sites HTTP, mais aussi aux protocoles de transfert basés sur URI (FTP ou CoAP) ;
  • Les développeurs doivent parser les 500 premiers kibibytes du fichier robots.txt ;
  • Le temps de mise en cache maximum passe à 24h. Ce qui permet aux webmasters de mettre à jour leur fichier robots.txt quand ils le souhaitent ;
  • Si un serveur ne fonctionne pas, les pages interdites ne seront pas crawlées pendant un long moment.

À noter : dans un autre article publié le même jour, Google explique que le parser du fichier robots.txt est devenu open source. De plus, Google rajoute, dans un article publié le 2 juillet que tous les codes qui concernent les règles non supportées et non publiées au sein de la documentation seront retirés (c’est le cas, par exemple, de la directive noindex ou crawl-delay). L’entreprise précise qu’il existe des options alternatives tout aussi efficaces pour les propriétaires de sites qui veulent continuer à utiliser ce type de fonction. D’après Google, cela est nécessaire pour maintenir un environnement sain et préparer les sorties des prochaines versions open source.

Pour plus d’informations sur le fonctionnement du robots.txt et ses spécifications, les experts Primelis sont à votre disposition.

Articles associés :