Joomla User Manual

Le fichier robots.txt

À propos des robots

Les robots web, également connus sous les noms de crawlers, web wanderers ou spiders, sont des programmes qui parcourent le web automatiquement. Parmi de nombreuses utilisations, les moteurs de recherche les utilisent pour indexer le contenu du web.

Le fichier robots.txt met en œuvre le protocole d'exclusion des robots, ce qui permet à un administrateur de site web de définir quelles parties du site ne doivent pas être inspectées par des agents utilisateurs de robots spécifiques. Par exemple, l'accès au contenu des pages publiques est normalement autorisé, mais l'accès aux répertoires cgi, privés et temporaires qui ne doivent pas avoir de pages indexées est souvent refusé.

Où placer le fichier robots.txt

Un fichier standard robots.txt est inclus dans la racine de votre Joomla. Le fichier robots.txt doit se trouver à la racine du domaine ou du sous-domaine et doit être nommé robots.txt.

Joomla dans un sous-répertoire

Un fichier robots.txt situé dans un sous-répertoire n'est pas valide. Les robots vérifient uniquement ce fichier à la racine du domaine. Si le site Joomla est installé dans un sous-répertoire tel que example.com/joomla/, le fichier robots.txt doit être déplacé à la racine du site à example.com/robots.txt.

Remarque : Dans le fichier robots.txt, le nom du sous-répertoire doit préfixer tous les chemins Joomla interdits. Par exemple, la règle d'interdiction pour le répertoire /administrator/ doit être modifiée pour s'écrire Disallow: /joomla/administrator/.

Contenu du robots.txt de Joomla

Voici le contenu d'un fichier robots.txt standard de Joomla :

# Si le site Joomla est installé dans un dossier
# par exemple www.example.com/joomla/ alors le fichier robots.txt
# DOIT être déplacé à la racine du site
# par exemple www.example.com/robots.txt
# ET le nom du dossier joomla DOIT être préfixé à tous les
# chemins.
# par exemple, la règle Disallow pour le dossier /administrator/ DOIT
# être modifiée pour lire
# Disallow: /joomla/administrator/
#
# Pour plus d'informations sur la norme robots.txt, voir :
# https://www.robotstxt.org/orig.html

User-agent: *
Disallow: /administrator/
Disallow: /api/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Exclusion des robots

Vous pouvez exclure des répertoires ou bloquer des robots sur votre site en ajoutant une règle Disallow au fichier robots.txt. Par exemple, pour empêcher tout robot de visiter le répertoire /tmp, ajoutez cette règle :

Disallow: /tmp/

Voir aussi :

Bloquer l'accès à votre contenu au Centre d'aide de Google.

Vérification de la syntaxe

Pour la vérification de la syntaxe, vous pouvez utiliser un validateur pour les fichiers robots.txt. Essayez l'un de ceux-ci :

Testez votre robots.txt avec le testeur robots.txt chez Google.
robots.txt Checker par Search Engine Promotion Help.

Informations générales

The Web Robots Pages est le site principal pour robots.txt.
A Standard for Robot Exclusion est la norme originale.
Spécifications de la balise meta robots, data-nosnippet, et X-Robots-Tag

Traduit par openai.com