Le fichier robots.txt
Le fichier robots.txt, une fois placé à la racine de votre site, permet de contrôler la manière dont les robots des moteurs de recherche naviguent sur votre site.
Configuration simple
Interdire l'indexation de l'ensemble votre site
Si vous souhaitez que votre site n'apparaisse pas dans les moteurs de recherche, disposez le fichier robots.txt suivant à la racine de votre site :
User-agent: *
Disallow: /
Comment lire ces deux lignes ?
- User-agent: *
- Cette ligne spécifie que les lignes suivantes sont applicables à l'ensemble des moteurs de recherche. Nous aborderons plus loin ce qu'est un User-agent.
- Disallow: /
- Cette ligne interdit l'indexation des URL commençant par / par les moteurs de recherche. C'est à dire, l'indexation de tout le contenu du dossier ou est situé le fichier robots.txt.
Interdire l'indexation de certaines parties de votre site
Vous pouvez de la même façon interdire l'indexation de quelques dossiers de votre site. Il suffit de créer le fichier robots.txt suivant à la racine de votre site :
User-agent: *
Disallow: /private
Disallow: /intranet
Comment lire ces lignes :
- User-agent: *
- Comme dans l'exemple précédent, cette ligne spécifie que les lignes suivantes sont applicables à l'ensemble des moteurs de recherche.
- Disallow: /private
- Cette ligne interdit l'indexation du dossier private et de son contenu.
- Disallow: /intranet
- Cette ligne interdit l'indexation du dossier intranet et de son contenu.
Configuration avancée
Le nom des robots
La règle User-agent permet de créer des règles spécifiques à certain robots. Les 3 robots les plus connus en France sont les suivants :
- Googlebot/2.1
- Il s'agit du robot de Google. Ce robot est l'un des plus complexes, mais aussi celui qui donne les résultats les plus pertinants.
- Yahoo! Slurp
- Il s'agit du robot de Yahoo!. Il est assez proche de celui de Google.
- msnbot/1.0
- Il s'agit du robot de MSN. Ce robot est l'un des plus rapide à indéxer les nouveaux sites. Personellement je le considère comme bien moins subtile que ceux de Yahoo! et Google.
Certain sites proposent une liste des robots d'indexation connus. robotstxt.org en est un. Vous pouvez aussi connaître les robots qui s'interesse à votre site en analysant les fichiers logs de votre serveur HTTP (grâce à Webalizer par exemple).
Applications
Si vous souhaitez que votre site ne soit indexé que par Google, MSN et Yahoo, vous pouvez utiliser le fichier robots.txt suivant :
User-agent: Googlebot/2.1
Disallow:
User-agent: Yahoo! Slurp
Disallow:
User-agent: msnbot/1.0
Disallow:
User-agent: *
Disallow: /
- User-agent: Googlebot/2.1
- Cette ligne spécifie que les règles suivantes ne s'appliqueront qu'au robot dont le nom ( ou user agent) est Googlebot/2.1. Tous les autres robots ne sont pas concernés par cette règle.
- Disallow:
- Cette ligne autorise l'indexation de l'ensemble du contenu du dossier ou se trouve le fichier robots.txt.
Liens utiles
- http://www.robotstxt.org
- Ce site décrit la norme des fichiers robots.txt. Une lecture obligatoire si vous souhaitez faire des fichiers robots.txt complexes.
- http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
- Cette page vous permet de valider votre fichier robots.txt. N'hésitez pas à l'utiliser car un fichier robots.txt mal formaté peut avoir de grave conséquences sur l'indexation de votre site par les moteurs de recherche.
- http://www.robotstats.com
- Robot Stats est un ensemble de scripts PHP analysant les passages des robots des moteurs de recherche sur votre site. Je n'ai pas eu l'occasion de le tester, mais il semble être très intéressant.
- http://www.google.com/bot.html
- Le site du robot de Google.
- http://search.msn.com/msnbot.htm
- Le site du robot de MSN.