L’eternel problème des statistiques Web
Cyril Drouin | 5 janvier 2006Quelques définitions pour fixer les idées :
- Nombre de visites : Le nombre de visites est un indicateur important mais il ne permet pas de savoir si 1000 visites mensuelles correspondent à 100 visiteurs venus en moyenne 10 fois dans le mois ou s’il s’agit de 500 visiteurs venus en moyenne 2 fois.
- Nombre de pages vues : C’est l’indicateur le plus souvent utilisé. Mais attention, ce chiffre peut être artificiellement gonflé si un site découpe, par exemple, ses articles en plusieurs pages (page 1, page 2, page 3…). Dans ce cas, le nombre de pages vues sera beaucoup plus important qu’un site qui affiche son article sur une seule page.
- Nombre de visiteurs : Le nombre de visiteurs ne peut être obtenu que par un recoupement d’informations sur les différentes caractéristiques des visiteurs et l’utilisation de cookies, car, d’une visite à l’autre le numéro de machine attribué à un internaute par son ISP change. Il ne peut donc être formellement identifié par son adresse IP.
- Nombre de hits : C’est le nombre de fichiers demandés lors du chargement d’une page web de votre site par un navigateur. Un serveur web enregistre le nombre de hits mais ce chiffre ne peut pas faire partie de l’audience d’un site car le chargement d’une page avec 10 images donnera 11 hits.
- Codes status HTTP : Il est important de consulter dans vos statistiques les codes «status http » qui recensent les erreurs rencontrées sur le serveur par les visiteurs de votre site. Ce chiffre doit être le plus proche de 0. Le plus important est le code « 404 Not Found » qui signifie que certaines pages ne sont plus accessibles sur votre site.
Quelques explications sur les stats : Il existe 2 façons de récolter des statistiques pour un site Internet :
- L’analyse des log du serveur HTTP (Apache, IIS, etc..) : se base sur les données des fichiers journaux du serveur HTTP (Apache, IIS, etc..). Ces données sont traitées et il en ressort des statistiques de consultation.
- Le marqueur dans les pages : Un marqueur est inséré dans chaque page (le plus souvent un script Javascipt) et à chaque consultation de la page le marqueur envoi une information de consultation à un serveur central qui recueille la totalité des stats.
Le problème des statistiques de consultation d’un site Web c’est quelles ne sont jamais exactes.
La principale difficulté se situe au niveau des serveurs de cache (proxy serveur) : – Si les éléments (images, etc…) du site sont dans le cache du navigateur ou d’un proxy, aucune ligne de log ne sera inscrite sur le serveur ou alors sous un code HTTP qui peut ne pas être pris en compte par les analyseurs de logs – Si les utilisateurs viennent d’un gros fournisseur d’accès, il se peut qu’ils soient tous identifié comme un seul visiteur et d’un provenance unique (ex: AOL) – De plus , un internaute qui copie une page en local et qui l’affiche une centaine de fois, son marqueur va comptabiliser 100 affichages (et non pas visites), les logs ne recevront aucun enregistrement
Que faire ?
Nous préconisons toujours des doubles mesures (marqueurs et analyse de log). Cette méthode permet d’identifier les provenances des écarts et de les suivre sur la durée. On a avec ces 2 méthodes suffisamment d’informations pour comprendre comment vivent les internautes sur le site et réagir au plus vite.
Ce qui est pertinent de suivre c’est l’évolution des statistiques et non les chiffres bruts. Il faut utiliser les statistiques pour comprendre comment les visiteurs se comportent, le nombre absolu n’a que peu d’importance.
Les outils que nous utilisons au quotidien :
- Analyseur de log : awstats (Opensource et gratuit) – http://awstats.sourceforge.net/
- Marqueur : Google Analytics – anciennement Urchin (Gratuit) – http://www.google.com/analytics/




