Pourquoi analyser les journaux de logs ?

Les données stockées dans le fichier log du serveur sont une des bases de l'analyse quantitative du trafic d'un site internet. Que nous apprennent ces données et quel est le degré de fiabilité des informations qui en découlent ?

Raffiner les données en information

De nombreuses solutions d'analyse statistique se basent sur les enregistrements contenus dans le fichier logs pour fournir un certain nombre d'interprétations sur l'utilisation d'un site web. Ces interprétations sont, pour la majorité, des estimations calculées selon des algorithmes propres à chaque solution. Il est donc légitime de s'interroger sur la fiabilité de ces estimations et de prendre en compte la marge d'erreur qui résulte du traitement statistique d'un fichier logs. Pour réduire la confusion entre information, estimation et extrapolation, il est important de bien différencier les données disponibles à l'état brut de celles qui apparaissent après l'application d'un traitement statistique spécifique et de fixer les limites d'un tel système.

La matière première : le contenu du fichier logs

Toute communication entre un navigateur client et un serveur Web est consignée dans le fichier logs sous la forme d'un enregistrement. La somme de tous ces enregistrements constitue la matière première des solutions d'analyse statistique. C'est en effet sur ces données que ces dernières vont s'appuyer pour délivrer les informations sur l'utilisation d'un site web. En règle générale, une entrée ou un log contient les données suivantes:
# L'adresse IP de l'ordinateur demandant le fichier
# La date et l'heure de la requête
# L'adresse URL du fichier demandé
# Le protocole et la méthode utilisée pour la requête
# La taille du fichier demandé
# L'adresse URL à l'origine de la requête
# Les systèmes d'exploitation et de navigation utilisés par l'ordinateur pour soumettre la requête

La quête de l'information: estimations et extrapolations

C'est la deuxième étape du processus de transformation des données brutes en informations exploitables par les différents responsables du site. les données enregistrées dans le fichier logs sont compilées, croisées, triées et analysées pour offrir une vision globale de l'utilisation du site internet. Les logiciels d'analyse appliquent plusieurs filtres et traitements successifs sur les données pour déboucher au final sur la création de rapports plus ou moins détaillés. Les estimations qui sont alors délivrées correspondent à des périodes définies et répondent à plusieurs problématiques:

Estimation de la fréquentation du site
# Nombre de visites
# Nombre de visiteurs
# Nombre de pages vues
# Nombre de requêtes ou hits
# Fréquence des visites pour un même visiteur

Visibilité du site
# Origine des visiteurs
# Moteurs de recherche utilisés
# Mots ou phrases clés utilisés sur les moteurs
# Passages des "araignées" envoyées par les moteurs

Informations d'ordre technique
# Pages servies avec succès
# Liens "cassés"
# Navigateurs utilisés
# Bande passante utilisée

Informations d'ordre ergonomique
# Première page vue sur le site
# Dernière page vue sur le site
# Chemin de navigation suivi par le visiteur
# Popularité des différentes pages Web

Bien entendu, cette liste non-exhaustive dépend directement des données disponibles dans le fichier logs. De plus, la prudence est de mise quand à la fiabilité de ces informations puisqu'un certain nombre de limites vient noircir l'ombre d'un tableau pourtant prometteur.

Limites d'une analyse basée sur les logs

Les limites de l'analyse du fichier logs comme indicateur de l'utilisation d'un site Internet se situent à plusieurs niveaux.
Tout d'abord, certaines données d'identification telles que l'adresse e-mail de l'utilisateur ou son nom ne sont tout simplement pas consignées dans le fichier log. De même, il n'est pas possible de connaître la destination de l'utilisateur à sa sortie du site analysé.
Deuxièmement, les requêtes enregistrées dans le fichier log ne donnent pas une image exacte de l'utilisation du site web. En effet, certaines pages déjà visitées par l'utilisateur sont automatiquement stockées dans le cache de son navigateur. Dès lors que l'utilisateur revient sur une page déjà visitée, cette dernière est extraite du cache et ne donne donc pas lieu à une interrogation du serveur. L'exemple le plus flagrant de mise en cache réside dans l'utilisation des fonctions "suivant" et "précédent" qui permettent d'accéder directement à des pages mises en cache et n'est donc pas consignée dans les fichiers logs.
Enfin, il réside une marge d'erreur importante de part les hypothèses et les méthodes utilisées par les différentes solutions d'analyse pour transformer les données brutes en information. Ainsi, la plus controversée de ces hypothèses est sans aucun doute de considérer qu'à chaque adresse IP d'une machine ou d'un réseau puisse correspondre un individu puisqu'en réalité un même ordinateur est souvent utilisé par plusieurs personnes (facultés, cybercafés, etc...). Un dernier facteur à prendre en compte est la présence de robots automatisés dédiés à l'indexation des sites Internet par les moteurs de recherche. Ce type de trafic "inhumain" peut artificiellement gonfler le nombre de visiteurs ou de pages vues.