Newsletter Novalem Actualités et Tendances SEO-SEA !

Le SEO du côté de la technique : les points techniques primordiaux pour qu’un site soit explorable par les robots

Retrouvez des informations essentielles et pratiques sur l’exploration de votre site par les robots des moteurs de recherche.
Auteur
Lise Dumonteil
Experte Éditoriale

Cet article reprend les points techniques à vérifier en premier lieu pour qu’un site puisse être crawlé, indexé puis positionné dans les moteurs de recherche. Un article qui se veut très pragmatique et qui vous présente de manière non exhaustive les premiers éléments permettant de vérifier qu’un site est explorable par les moteurs de recherche.

Le robots.txt : qu’est-ce que c’est ?

Le robots.txt est un fichier qui va lister toutes les pages qui n’ont pas vocation à être indexées dans les moteurs de recherche. Avec l’indication des sitemaps XML dans ce fichier, le robots.txt favorise également le crawl d’un site.

Ce fichier donne donc des indications aux robots sur ce qu’ils peuvent faire ou non sur vos pages. Il doit se trouver à la racine de votre site et doit être écrit en minuscules.

Attention, si ce fichier n’est pas correctement renseigné, il peut alors bloquer l’intégralité de votre site au crawl des robots et donc par la suite empêcher l’indexation de votre site sur les moteurs de recherche.

La balise <meta> robots

La balise méta robots permet de fournir des directives aux robots des moteurs de recherche sur la manière d’explorer, d’indexer et de parcourir les liens. Ainsi, un robot n’indexera pas, par exemple, les pages avec la balise : <meta name= »robots » content= »noindex » />.

Attention, il ne faut pas confondre la balise méta robots et le robots.txt. En effet, la balise méta robots va donner des directives sur une page précise et peut alors la bloquer à l’indexation alors que le robots.txt indique aux robots s’ils ont le droit d’accéder à un ensemble de pages et dans ce cas il va bloquer ou non le crawl.

Pour résumer, si toutes les pages de votre site sont bloquées par le robots.txt et par les balises méta robots « noindex », vos pages ne pourront pas être crawlées et donc indexées dans le moteur de recherche. Et concernant les pages qui ne sont pas en HTML, comme les PDF, les documents Word, etc. Google ainsi que Yahoo prennent en compte la directive X-Robots-Tag présente directement dans l’entête HTTP. Comme les balises méta robots, cette version peut contenir les valeurs noindex, nofollow, etc.

Utiliser un crawler

Pour savoir si vos pages sont accessibles et donc indexables par les moteurs de recherche, vous devez utiliser un outil qu’on appelle un crawler.

Le crawler sert principalement à parcourir un site pour en sortir le plus d’informations possible. Ces informations servent à connaitre la structure d’un site et à obtenir la vision qu’un robot de Google pourrait avoir en parcourant votre site. Pour cela, plusieurs outils vous permettent de crawler le site presque comme un moteur de recherche, en voici quelques-uns parmi les plus performants :

Outil de crawl

Lorsque vous avez choisi votre crawler, nous vous conseillons de bien le configurer. Pour cela, vous devez vous assurer que votre outil prend bien en compte le robots.txt. Par exemple, sur Screaming Frog, pour vérifier cet élément, vous devez vous rendre dans « Configuration » puis « Spider » et enfin vous devez vous assurer dans l’encadré que « Ignore robots.txt » est décoché.

Capture screaming frog 2

Le crawl des contenus du site : mes contenus sont-ils accessibles aux moteurs de recherche ?

Non seulement les pages de votre site doivent être accessibles mais leurs contenus également. En effet, Google (un peu capricieux) ne lit pas tous les contenus en JavaScript, Flash, etc. De fait, pour que Google vous comprenne parfaitement, vous devez rendre vos contenus accessibles au moteur en proposant des alternatives interprétables par celui-ci.

L’analyse de logs

Qu’est-ce qu’un fichier de logs et pourquoi l’analyser ?

Les logs sont les fichiers journaux d’un serveur web, ils regroupent tous les passages et requêtes faites au serveur. L’analyse de logs permet d’avoir des données plus complètes que sur Analytics ou la Google Search Console sur l’exploration de vos pages par les robots. Vous pouvez ainsi connaître les comportements des Googlebot, Bingbot, etc. sur votre site et quelles pages ils consultent le plus par niveau de profondeur ou encore par typologie de pages (image, page de contenu, etc.). D’un point de vue technique, l’analyse de logs permet de corriger les pages d’erreurs (comme les 404 par exemple).

En bref, l’analyse de logs vous permet de monitorer les pages de votre site et de dégager des pistes d’optimisation dans l’architecture de votre site (maillage interne, suppression des pages d’erreur, etc.).

Quels outils pour analyser les logs ?

Pour mener à bien votre analyse, plusieurs outils existent sur le marché. Voici notre sélection :

 

L’analyse de logs est primordiale pour le SEO car elle donne des informations importantes sur l’état d’un site et la manière dont procèdent les robots des moteurs de recherche. Il est alors possible de détecter des problèmes jusqu’alors invisibles.

Grâce à ces quelques informations et conseils, vous pouvez vérifier que votre site est parfaitement accessible aux robots des moteurs de recherche. La prochaine étape sera de vérifier que vos pages sont correctement indexées et bien positionnées.

Newsletter Mars 2016