REFERENCEMENT GOOGLE ROBOTS.TXT
Qu’est ce qu’un robots.txt ?
Le robots.txt est un fichier texte utilisant un format précis qui permet à un webmaster de contrôler quelles zones de son site un robot d’indexation est autorisé à analyser. Ce fichier texte sera disponible à une URL bien précise pour un site donné, par exemple http://www.monsite.com/robots.txt
Pour bien comprendre à quoi sert un robots.txt, il faut comprendre la manière dont fonctionnent les robots d’indexation des moteurs de recherche (appelés aussi web spiders, web crawlers ou Bots) tels que Google, Yahoo ou Bing. Voici leurs actions lorsqu’ils analysent un site tel que www.monsite.com :
- ils commencent par télécharger et analyser le fichier http://www.monsite.com/robots.txt.
- ils analysent les règles de ce fichier pour savoir quelles URLs ils sont autorisés télécharger
- si le robots.txt l’autorise, ils téléchargent la racine du site, c’est à dire l’URL http://www.monsite.com/
- ils analysent le contenu de cette page et en extrait notamment la liste des liens internes qu’elle contient.
- tous ces liens internes sont à leur tour téléchargés (si les règles du fichier robots.txt ne les filtrent pas), et leur liens internes extraits
- récursivement tous ces liens sont téléchargés et analysés (s’ils sont nouveaux), jusqu’à ce que le robot n’en trouve plus de nouveau
Il est important de bien comprendre que le robot.txt n’est en aucun cas une manière de sécuriser son site. Un robot “bien élevé” tiendra compte de ce fichier pour ne pas télécharger les URLs non désirées par le webmaster. Mais un robot “mal élevé” pas exemple un concurrent qui veut aspirer votre site, n’a aucune obligation technique d’en tenir compte. Evidemment, la totalité des robots des principaux moteurs de recherche (Google, Yahoo, Vista) sont bien élevés. Yakaferci également !