SOSPC20 : Site gratuit de cours et dépannage informatique en ligne (Maintenance PC, Montage PC, Réseau informatique et Internet,...

Utiliser un fichier robots.txt pour les robots indexeurs

Qu'est-ce qu'un fichier robots.txt

Un fichier robots.txt est un petit fichier avec l'extention .txt qui indique aux robots d'exploration des moteurs de recherche de ne pas explorer certaines parties de votre site.

Le fichier robots.txt doit être situé à la racine du site Web (À côté de la page index du site).

Est-ce que les robots respectent les indications du fichier robots.txt

Les robots explorateurs de Google (Googlebots) ainsi que les autres robots d'exploration sérieux respectent les instructions des fichiers robots.txt. Cependant, il est possible que d'autres robots ne le fassent pas.

Si vous voulez cacher des informations en empêchant leur récupération par les robots d'exploration, nous vous conseillons d'utiliser d'autres méthodes de blocage, comme la protection par mot de passe par .htacces et .htpasswd.

Comment écrire un fichier robots.txt

Un fichier robots.txt ne comprend que trois types d'instruction :

User-agent:

Cette ligne indique à quel robot s'applique les règles qui suivent. Une * indique que tous les robots sont concernés.

Disallow:

Cette ligne précise les dossiers ou les pages Web qu'il ne faut pas indexer. Un / indique que rien ne doit être indexé.

Allow:

Permet d'indexer un répertoire ou une page Web dont l'indexation du répertoire parent est bloquée.

Exemple d'un fichier robots.txt

Exemple d'un fichier robots.txt écrit avec Notepad++
Exemple d'un fichier robots.txt à la racine du site
Recherche personnalisée