INDEXATION ET CRAWL
INDEXATION ET CRAWL
Le « crawling »/ crawl fait référence à l’action entreprise par un moteur de recherche pour explorer et parcourir l’ensemble du contenu d’un site web, y compris toutes ses URL. Cela comprend les contenus HTML, les images, les vidéos, les fichiers JavaScript, et ainsi de suite. Sans le processus de crawling, Google ne peut pas découvrir le contenu d’un site et il ne peut donc pas être affiché lors d’une recherche sur le moteur de recherche. C’est pourquoi l’indexation et le crawl sont liés.
Il existe plusieurs cas de figure dans lesquels une URL peut être crawlée :
- Un lien permet d’accéder à l’URL, et Google a trouvé ce lien lors de son exploration d’autres pages web.
- L’URL est répertoriée dans un fichier sitemap XML, et ce fichier a été crawlé par Google ou soumis au moteur de recherche via le compte Search Console.
- Une « notification » appelée « ping » est envoyée au moteur de recherche pour lui signaler cette URL.
- Le moteur de recherche a trouvé cette URL par d’autres moyens, tels que des outils de test en ligne ou d’autres données fournies par les utilisateurs.
Dans tous ces cas, l’objectif est de permettre au moteur de recherche d’explorer et d’indexer le contenu d’un site web afin qu’il puisse le rendre accessible aux utilisateurs lorsqu’ils effectuent des recherches pertinentes. L’indexation fait référence au processus d’analyse et d’ajout d’une URL spécifique dans une base de données par un moteur de recherche. Une fois qu’un moteur de recherche a exploré une URL lors du crawling, il va analyser le contenu de cette page puis l’ajouter à sa base de données, également appelée index. Cela lui permettra de proposer cette page aux utilisateurs lors de leurs recherches ultérieures.
Lors de l’indexation, Google met en œuvre ses techniques pour comprendre le contenu de manière approfondie. Sans ce processus d’indexation, il serait impossible pour une page de figurer dans les résultats des moteurs de recherche et d’être affichée aux utilisateurs.
I. Comment fonctionne le crawl et l’indexation ?
Les moteurs de recherche, y compris Google, consacrent d’importantes ressources pour pouvoir crawler un vaste nombre d’URL et les indexer. À l’échelle mondiale, cela représente un volume de données gigantesque.
Dans un scénario idéal, seules les URL pertinentes devraient être indexées, tandis que le reste devrait être éliminé. Cela permettrait une meilleure transmission de la popularité entre les pages. En effet, chaque lien agit comme un vecteur de popularité vers l’URL ciblée. On peut le comparer à du bouche-à-oreille : plus on parle de vous, plus vous gagnez en notoriété. De même, en référencement naturel, plus une page reçoit de liens (internes et externes), plus elle est considérée comme populaire et « puissante ».
1.1. Google index
Il est essentiel de comprendre ce que Google doit crawler et indexer, car cela ne se limite pas seulement aux publications réelles telles que les pages et les articles. En réalité, Google va explorer tous les éléments présents sur une page : le contenu HTML, les fichiers CSS (pour la mise en page), les images, les polices de caractères, etc.
Il est crucial de ne pas bloquer le crawling et l’indexation de ces éléments supplémentaires, car ils permettent à Google d’évaluer la qualité de votre contenu, notamment en termes de compatibilité mobile et de temps de chargement. Il est donc préférable d’éviter de bloquer un grand nombre de ces éléments.
1.2. Un crawl et une indexation en deux étapes
Il est important de noter que le processus de crawl et d’indexation ne se fait pas en temps réel. En général, Google effectue ces étapes en plusieurs phases :
Phase 1 :
- Google découvre une URL, soit par sa propre exploration soit par une soumission de l’utilisateur.
- L’URL est ajoutée à la liste d’attente des URL à crawler.
- Google effectue le crawl de l’URL et indexe son contenu texte.
Phase 2 :
- L’URL est ajoutée à une liste d’attente pour générer le rendu complet de la page, y compris les fichiers CSS, JavaScript, images, etc.
- Google génère le rendu de la page dans son intégralité.
- Le contenu final est ré-indexé.
Ce processus en plusieurs étapes permet à Google d’explorer et d’indexer efficacement les pages web, en prenant en compte à la fois le contenu texte initial et le rendu final avec tous les éléments graphiques et interactifs.
1.3. Le budget de crawl
Il est important de comprendre le concept du « budget de crawl ». Les moteurs de recherche tels que Google ont des ressources limitées, étant donné qu’ils indexent déjà des milliards d’URL. Par conséquent, ils ne peuvent pas passer un temps infini à explorer chaque site. En général, le temps alloué aux contenus d’un site (le fameux « budget de crawl ») est proportionnel à la popularité du site.
Le principe de base est donc simple : pour optimiser l’utilisation de ce budget de crawl, il est essentiel de faire crawler et indexer uniquement les URL pertinentes sur votre site.
Cependant, il est important de noter que, dans la plupart des cas, le budget de crawl n’est pas une préoccupation SEO majeure, sauf dans certaines situations où un site aurait une popularité faible avec un nombre excessif d’URL, par exemple en raison d’une mauvaise implémentation de la navigation à facettes.
1.4. Noindex
Il est important de noter que l’utilisation de la directive noindex ou le blocage d’une URL via le fichier robots.txt empêcheront complètement Google d’analyser le contenu de la page. Si vous indiquez au moteur de recherche de ne pas indexer une URL ou de bloquer son accès, toutes les informations de la page seront ignorées.
Cela signifie que si vous apportez des ajouts, des modifications ou des suppressions sur la page, Google les ignorera purement et simplement. Cela s’applique à divers éléments tels que la balise Title, la balise méta description, les autres directives spécifiées dans la balise robots, la balise canonical, les éventuelles redirections meta refresh, le balisage Schema.org, et ainsi de suite.
II. Problématiques courantes
2.1. Les besoins régulier
Il est crucial pour les professionnels du référencement naturel de savoir effectuer les actions suivantes, car ces problématiques sont récurrentes et peuvent avoir un impact sur les performances en SEO :
-
- Indexer une URL spécifique, ce qui est normalement pris en charge nativement, sauf en cas de problèmes techniques.
- Désindexer un contenu, c’est-à-dire demander à Google de ne plus afficher une URL dans ses résultats de recherche.
- Bloquer toute future indexation, empêchant ainsi les moteurs de recherche de crawler et d’indexer une URL ou un ensemble de pages.
- Bloquer le crawl, c’est-à-dire empêcher les robots d’exploration des moteurs de recherche d’accéder à certaines parties d’un site.
Il est fréquent de découvrir, lors d’audits SEO, des sites qui indexent des URL inutiles (contenus dupliqués, trop courts, etc.) et, à l’inverse, qui bloquent des URL pertinentes ou qui pourraient contribuer à l’obtention de popularité. Il est donc essentiel de gérer correctement l’indexation et le blocage des URL pour optimiser les performances en référencement naturel.
2.1.1. Que dois je indexer et pourquoi est ce important ?
Avant d’aborder les détails des méthodologies, il est important de savoir quand agir. Souvent, les utilisateurs oublient de bloquer l’indexation ou de désindexer certains éléments, tandis que d’autres ont du mal à faire indexer leurs contenus par Google. Est-ce que cette URL est pertinente ? La réponse à cette question déterminera en grande partie les actions à entreprendre. Il est essentiel de comprendre la notion de pertinence, qui englobe plusieurs éléments :
-
-
- Le contenu répond-il à un besoin de l’utilisateur ?
- Ce besoin est-il fréquemment recherché par les internautes sur les moteurs de recherche ? (consultez le volume de recherche de votre mot-clé)
- Idéalement :
- Votre contenu est-il meilleur que celui de vos concurrents ou se différencie-t-il de ce qu’ils proposent ?
- Pouvez-vous répondre au besoin de l’utilisateur grâce à vos produits et services ?
- Votre contenu est-il unique (sans copier-coller) ?
- Il ne doit pas être redondant avec une autre page de votre site, et il ne doit pas non plus cibler un besoin déjà parfaitement traité par une autre publication.
-
Ensuite, si l’URL en question ne correspond pas à ces critères, il existe deux autres raisons pour lesquelles vous devriez conserver cette URL (du moins ne pas la désindexer) :
-
-
- Elle est utilisée comme ressource pour l’affichage de la page (image, CSS, etc.).
- Elle est une URL « populaire ». Si une page de votre site Internet reçoit des liens provenant d’autres sites, vous ne devriez jamais la désindexer. Cependant, vous pouvez envisager une redirection 301 si l’URL n’est plus pertinente, car cela permet de supprimer un contenu sans perdre sa popularité (nous en discuterons plus en détail ultérieurement).
-
Nous allons maintenant examiner les différentes actions récurrentes à effectuer en matière de référencement naturel concernant l’interaction avec les moteurs de recherche.
III. Bloquer le crawl
3.1. Éviter le crawl de l’url
Lorsque vous souhaitez empêcher Google d’indexer une URL, de la découvrir à nouveau ou de parcourir son contenu, il est essentiel de prendre certaines mesures.
-
- Assurez-vous qu’aucun lien ne pointe vers cette URL, que ce soit sur votre propre site ou sur d’autres sites.
- Excluez le contenu de cette URL de tous les fichiers sitemap utilisés par Google pour découvrir les pages de votre site.
- Évitez de générer des pings ou des notifications pour cette URL, tels que les pings automatiques de WordPress ou les notifications d’API.
- Ne soumettez pas cette URL aux outils en ligne de Google, tels que la Search Console, les tests mobiles, les tests AMP ou les tests schema.org. Évitez également de la soumettre à d’autres outils externes qui pourraient répertorier les URL, comme les outils de test de vitesse, de sécurité ou d’accessibilité.
Bloquer le crawl est la meilleure solution, car si Google ne trouve pas le contenu, il ne pourra pas le parcourir ni l’indexer. En travaillant en amont pour empêcher la découverte de l’URL, vous pouvez garantir que Google ne l’indexera pas ou ne la recrawlera pas.
3.2. Bloquer l’accès pour bloquer l’exploration
Si vous souhaitez empêcher Google de crawler une URL précise, mais vous ne pouvez pas empêcher Google de connaître cette URL, il existe deux solutions pour bloquer le crawl (nous ne parlons toujours pas d’indexation ici).
La première solution consiste à utiliser le fichier robots.txt. Vous pouvez ajouter une instruction dans le fichier robots.txt pour spécifier que Google ne doit pas crawler cette URL spécifique. Cela peut être fait en ajoutant une ligne « Disallow » suivie de l’URL dans le fichier robots.txt. La deuxième solution consiste à utiliser l’en-tête HTTP « X-Robots-Tag ». Vous pouvez ajouter cet en-tête à la réponse HTTP de la page que vous souhaitez bloquer. L’en-tête « X-Robots-Tag » permet de spécifier des directives pour les robots d’exploration, y compris l’interdiction de crawler une URL spécifique. Il est important de noter que ces solutions ne garantissent pas que Google ne découvrira jamais cette URL, mais elles sont généralement respectées par les robots d’exploration et peuvent aider à empêcher le crawling de manière efficace.
3.2.1. Protection Htpasswd
Le meilleur moyen est .htpasswd. Si un robot ou un internaute tente d’accéder à l’URL en question, il sera immédiatement invité à entrer un identifiant/mot de passe. Cela bloque complètement l’accès. Ceci est particulièrement utile pour les données sensibles et les serveurs de développement.
3.2.2. Fichier robots.txt
Une autre méthode efficace consiste à spécifier dans le fichier robots.txt les URL à bloquer. Les moteurs de recherche tiendront alors compte de cette directive pour éviter de crawler les contenus concernés. Cependant, il est important de noter que cette méthode présente plusieurs limitations :
-
-
- Cela n’empêchera pas les utilisateurs d’accéder aux contenus bloqués, mais seulement les robots des moteurs de recherche.
- Cela permet à vos concurrents de voir les URL que vous souhaitez « cacher ».
- Si le contenu a été indexé avant d’être bloqué, il restera dans l’index des moteurs de recherche, car le fichier robots.txt n’a pas d’impact sur l’indexation.
-
3.2.3. Bloquer l’indexation
Si vous avez réussi à appliquer les deux premières solutions pour éviter la découverte de l’URL et/ou bloquer l’accès, il est important de rester vigilant. Il existe plusieurs raisons pour lesquelles vos mesures de protection contre le crawl pourraient être contournées, telles que la suppression du fichier .htaccess, la mise à jour du fichier robots.txt, l’ajout d’un lien vers le contenu par un utilisateur, des bugs techniques dans le CMS, etc.
Pour cette raison, chez RGG, nous vous conseillons de mettre en place une stratégie de blocage de l’indexation pour toutes les URL sur lesquelles vous avez empêché le crawl.
IV. Pour désindexer ou bloquer l’indexation d’un contenu, vous pouvez suivre les étapes suivantes.
4.1. Ne bloque jamais les robots
Il est important de ne pas bloquer le crawl des contenus que vous souhaitez désindexer, car cela peut empêcher les moteurs de recherche de découvrir les URL à faire disparaître. Par conséquent, il est déconseillé d’utiliser le fichier robots.txt et les règles de protection .htaccess tant que le contenu ciblé n’a pas été entièrement désindexé. Cependant, il est toujours recommandé de suivre les bonnes pratiques en évitant de créer des liens vers ces contenus. Étant donné que Google est conscient de ces pages à désindexer, il est inutile de créer des liens vers elles, car Google finira par les revisiter naturellement.
Conclusion sur l’Indexation et le Crawl
Effectivement, les concepts de crawl et d’indexation sont des aspects techniques qui peuvent parfois être complexes à mettre en œuvre en fonction de votre site, de vos compétences ou du temps dont vous disposez. Si vous rencontrez des problématiques dans ce domaine, nous vous encourageons à nous contacter afin de nous faire part de vos besoins et de vos préoccupations. Nous sommes là pour vous aider.
Pour implémenter chaque action, voici une liste non exhaustive de solutions qui peuvent varier en fonction de votre site et du CMS que vous utilisez. Pour trouver les liens qui permettent à Google de découvrir une URL, vous pouvez utiliser des outils tels que Screaming Frog Spider SEO, Majestic SEO, Ahrefs, ou consulter le menu « Liens » de la Search Console, ainsi que les sites référents dans un outil de webanalytics.
- Les sitemaps : En général, votre CMS génère automatiquement un sitemap ou vous utilisez une extension à cet effet. Dans les deux cas, recherchez les paramètres pour exclure certaines URL. Notez que les sitemaps natifs de WordPress ne sont pas configurables et doivent être désactivés.
- Les pings : Dans WordPress, vous avez la possibilité de les désactiver en accédant aux menus « Réglages > Commentaires » et en décochant les trois premières options. De plus, vous pouvez également les désactiver en accédant au menu « Réglages > Écriture ».
- Le fichier robots.txt : Si vous avez accès au fichier robots.txt sur votre serveur web, vous pouvez le modifier pour ajouter ou supprimer des règles. Sinon, si votre extension SEO génère le fichier robots.txt dynamiquement, recherchez le menu correspondant pour le modifier.
- Le noindex : Cette option est généralement gérée par votre extension SEO. Vous pouvez la définir au niveau du contenu individuel (par exemple, dans la métabox de Yoast SEO) ou de manière globale pour certains types de contenu.
- Les redirections 301 ou les entêtes 410 : Une extension SEO telle que « Redirection » pour WordPress vous permettra d’ajouter ces redirections.
- Les balises canoniques : Les CMS ont souvent des balises canoniques intégrées. Par exemple, WordPress ajoute nativement des balises canoniques pour certains types de contenu. Les extensions SEO améliorent généralement cette fonctionnalité pour s’assurer qu’elle est appliquée à l’ensemble du site.
Veuillez noter que ces solutions peuvent varier en fonction du CMS que vous utilisez et des extensions SEO spécifiques que vous avez installées.