Newsletter Novalem Actualités et Tendances SEO-SEA !

De l’importance d’analyser les logs

Souvent oubliée, l'analyse des logs est pourtant la première étape d'un bon référencement car elle répond à la question fondamentale : les moteurs de recherche sont-ils en mesure d'explorer correctement mon site ? Comment bien exploiter ces données pour optimiser voire corriger l'exploration de notre site par les moteurs ?
Auteur
Maxime Guernion
Manager SEO

Si nous devions résumer le fonctionnement d’un moteur de recherche (Google, Bing, Yahoo, etc), celui-ci pourrait se faire en trois grandes phases :

  1. Exploration : le moment où le moteur parcourt et (re)découvre des URL
  2. Indexation : le moment où le moteur analyse le contenu découvert et l’enregistre dans sa base
  3. Ranking : le moment où le moteur détermine les résultats les plus pertinents pour une recherche donnée

Bien entendu, comme dans toute liste, pour que la dernière étape se passe bien, il faut obligatoirement que les précédentes se soient également bien déroulées.

De ce fait, la première étape d’exploration/crawl est primordiale et se doit d’être analysée.

Il est à noter que les principaux moteurs de recherche proposent désormais des outils à destination des webmasters (Google Webmasters Tools chez Google, Bing Webmaster Tools chez Bing, Yandex.Webmaster chez Yandex, etc.). Ceux-ci permettent d’analyser et de paramétrer le comportement des moteurs sur un site. Bien qu’ils soient très utiles, ils limitent ou échantillonnent parfois certaines données. Analyser les logs purs permet de s’affranchir de ces limites pour une analyse plus exhaustive, complète et plus fine.

Comment observer le crawl des robots ?

Lorsqu’un internaute accède à une page, le serveur web enregistre toutes les requêtes qu’il va traiter. Par exemple, pour une page web simple, le serveur va traiter 4 requêtes :

  1. Le document : /ma-page.html
  2. Un fichier CSS : /css/styles.css
  3. Un fichier JS : /js/script.js
  4. Une image : /images/profil.jpg

Chacune de ces requêtes est enregistrée, ligne par ligne, dans un fichier de log (ou « Journal des accès » en français) au format texte, facilement exploitable.
A chaque requête sont associées des informations supplémentaires : l’adresse IP, la date et l’heure, la méthode (POST/GET), le document demandé, le statut HTTP retourné (200, 301, 404, 500, etc), le poids de la ressource, le referer et le user-agent (identification du navigateur, de l’application, etc, qui requête le document).

Pour l’exploration par les moteurs, le principe est exactement le même. Lorsque l’on connait les user-agents des principaux moteurs de recherche, il devient alors très simple de les trouver puis d’analyser leurs passages et comportements !

Voici un extrait d’un fichier de logs, avec le passage de quatre robots : Googlebot, Googlebot-Mobile, Bingbot et YandexBot :


66.249.78.218 domaine.fr - [24/Jun/2013:00:14:57 +0200] "GET /page-a/ HTTP/1.1" 200 1065 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.218 domaine.fr - [24/Jun/2013:01:06:29 +0200] "GET /page-b/ HTTP/1.1" 200 1054 "-" "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_1 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8B117 Safari/6531.22.7 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"
157.55.32.261 domaine.fr - [24/Jun/2013:01:44:05 +0200] "GET /robots.txt HTTP/1.1" 200 84 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
95.108.26.252 domaine.fr - [24/Jun/2013:07:24:10 +0200] "GET /page-c/ HTTP/1.1" 404 1030 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

Ici, nous voyons que Googlebot a fait une requête vers l’URL /page-a/ et que le serveur traité la demande avec succès (code 200). Yandex est également passé à 7h24 du matin, a fait une requête vers l’URL /page-c/ et a rencontré une erreur 404 (ressource non trouvée).

Comment exploiter ces données ?

Nous avons maintenant identifié l’ensemble des passages des robots. Il devient désormais très simple d’agréger l’ensemble de ces données pour en extraire des informations très intéressantes :

Cela permet par exemple de connaitre quels robots explorent le site…

img-2

Ou de grapher le nombre d’explorations par jour par moteur. Pourquoi Google explore moins souvent le site depuis le mois de septembre ? Pourquoi, au contraire, Bing parcourt de plus en plus le site ?…

Évolution de l'exploration par les robots

Ou encore de grapher les erreurs rencontrées par les moteurs. Par exemple, une augmentation massive de pages 404 pourrait provenir d’une refonte du site mal maitrisée qui a généré beaucoup de liens brisés.

Status HTTP rencontré par les moteurs

Comment tirer parti de ces données ?

Nous connaissons désormais le comportement des moteurs sur notre site, il devient maintenant relativement simple de corriger certains aspects de celui-ci pour optimiser le crawl, corriger les problèmes, etc., le tout pour améliorer notre liste de 3 points (crawling → indexing → ranking) :

Newsletter Juin 2013