Personal tools
You are here: Home Référencement Le fichier robots.txt
Document Actions
  • Send this page to somebody
  • Print this page
  • Add Bookmarklet

Le fichier robots.txt

by admin last modified 2007-05-23 10:58

Le fichier robots.txt, une fois placé à la racine de votre site, permet de contrôler la manière dont les robots des moteurs de recherche naviguent sur votre site.

Configuration simple

Interdire l'indexation de l'ensemble votre site

Si vous souhaitez que votre site n'apparaisse pas dans les moteurs de recherche, disposez le fichier robots.txt suivant à la racine de votre site :

User-agent: *
Disallow: /

Comment lire ces deux lignes ?

User-agent: * 
Cette ligne spécifie que les lignes suivantes sont applicables à l'ensemble des moteurs de recherche. Nous aborderons plus loin ce qu'est un User-agent.
Disallow: / 
Cette ligne interdit l'indexation des URL commençant par / par les moteurs de recherche. C'est à dire, l'indexation de tout le contenu du dossier ou est situé le fichier robots.txt.

Interdire l'indexation de certaines parties de votre site

Vous pouvez de la même façon interdire l'indexation de quelques dossiers de votre site. Il suffit de créer le fichier robots.txt suivant à la racine de votre site :

User-agent: *
Disallow: /private
Disallow: /intranet

Comment lire ces lignes :

User-agent: * 
Comme dans l'exemple précédent, cette ligne spécifie que les lignes suivantes sont applicables à l'ensemble des moteurs de recherche.
Disallow: /private 
Cette ligne interdit l'indexation du dossier private et de son contenu.
Disallow: /intranet 
Cette ligne interdit l'indexation du dossier intranet et de son contenu.

Configuration avancée

Le nom des robots

La règle User-agent permet de créer des règles spécifiques à certain robots. Les 3 robots les plus connus en France sont les suivants :

Googlebot/2.1 
Il s'agit du robot de Google. Ce robot est l'un des plus complexes, mais aussi celui qui donne les résultats les plus pertinants.
Yahoo! Slurp 
Il s'agit du robot de Yahoo!. Il est assez proche de celui de Google.
msnbot/1.0 
Il s'agit du robot de MSN. Ce robot est l'un des plus rapide à indéxer les nouveaux sites. Personellement je le considère comme bien moins subtile que ceux de Yahoo! et Google.

Certain sites proposent une liste des robots d'indexation connus. robotstxt.org en est un. Vous pouvez aussi connaître les robots qui s'interesse à votre site en analysant les fichiers logs de votre serveur HTTP (grâce à Webalizer par exemple).

Applications

Si vous souhaitez que votre site ne soit indexé que par Google, MSN et Yahoo, vous pouvez utiliser le fichier robots.txt suivant :

User-agent: Googlebot/2.1
Disallow:

User-agent: Yahoo! Slurp
Disallow:

User-agent: msnbot/1.0
Disallow:

User-agent: *
Disallow: /
User-agent: Googlebot/2.1 
Cette ligne spécifie que les règles suivantes ne s'appliqueront qu'au robot dont le nom ( ou user agent) est Googlebot/2.1. Tous les autres robots ne sont pas concernés par cette règle.
Disallow: 
Cette ligne autorise l'indexation de l'ensemble du contenu du dossier ou se trouve le fichier robots.txt.

Liens utiles

http://www.robotstxt.org 
Ce site décrit la norme des fichiers robots.txt. Une lecture obligatoire si vous souhaitez faire des fichiers robots.txt complexes.
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi 
Cette page vous permet de valider votre fichier robots.txt. N'hésitez pas à l'utiliser car un fichier robots.txt mal formaté peut avoir de grave conséquences sur l'indexation de votre site par les moteurs de recherche.
http://www.robotstats.com 
Robot Stats est un ensemble de scripts PHP analysant les passages des robots des moteurs de recherche sur votre site. Je n'ai pas eu l'occasion de le tester, mais il semble être très intéressant.
http://www.google.com/bot.html 
Le site du robot de Google.
http://search.msn.com/msnbot.htm 
Le site du robot de MSN.

Powered by Plone CMS, the Open Source Content Management System

This site conforms to the following standards:

Wikio