Voyage au centre des logs
L’une des techniques de base pour l'analyse de trafic d’un site Internet consiste à récupérer les fichiers logs du serveur et à analyser chacune des requêtes enregistrées dans ces journaux. Cet article fait l'inventaire des données contenu dans un log.
La mémoire du serveur Web
A l’origine conçu dans un but technique d’analyse des défaillances d’un serveur Web, le fichier log a rapidement été exploité sur le plan marketing et commercial avec pour objectif l’analyse quantitative du trafic généré sur un site internet. Ainsi, lorsqu’ils sont compilés et interprétés correctement, les renseignements fournis par les logs permettent de mesurer l’activité du serveur et d’obtenir de précieuses informations sur la nature et l’origine du trafic généré sur un site Internet.
Les différents formats du fichier log
Selon le type de serveur Web utilisé, Il existe plus de 200 formats différents de logs. Néanmoins, dans cet article nous avons retenu le très répandu Combined Log Format qui est une extension du Common Log Format. Il est aussi intéressant de noter que selon leur configuration, les serveurs Web actuels permettent de définir les champs qui doivent apparaître au sein d’un fichier log.
Dissection d’un log
le fichier journal su serveur peut se composer de plusieurs lignes similaires à l’exemple donné ci-dessous:
62.147.96.38 - - [07/Mar/2003:07:15:21 +0200] «GET /informatique_logiciels.html HTTP/1.1» 200 15288 «http://www.google.fr/search?q=norman+gratuit» «Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; FREE)» -
62.147.96.38 : Adresse IP ou domaine (si la conversion en DNS est activée) de l’ordinateur hôte à l’origine de la requête.
- (premier tiret) : Informations sur le client retournées par identd. Si cette donnée n’est pas disponible, affichage d’un tiret. Cette donnée est très rarement disponible
- (deuxième tiret) : Nom d’identification utilisé par l’utilisateur pour s’identifier sur le site (partie protégée par mot de passe, zone personnalisée,...). Si cette donnée n’est pas disponible, affichage d’un tiret.
[07/Mar/2003:07:15:21 +0200] : Date et heure de la requête
«GET /informatique_logiciels.html HTTP/1.1» : Requête HTTP enregistrée et décomposée en trois partie. La partie principale (/informatique_logiciels.html) correspond au fichier demandé. Les deux autres parties (GET .... HTTP/1.1) correspondent respectivement à la méthode et au protocole utilisés.
200 : Code renvoyé par le serveur en réponse à la requête. Ce code indique si la requête est un succès ou un échec.
15288 : Poids en bytes du fichier transféré en réponse à la requête.
«http://www.google.fr/search?q=norman+gratuit» : Lien suivi par l’utilisateur pour arriver jusqu’au serveur.
«Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; FREE)» : Navigateur et système d’exploitation utilisé par l’utilisateur.
- (dernier tiret) : Valeurs renvoyées par le ou les cookies (selon configuration du serveur). Si cette donnée n’est pas disponible, affichage d’un tiret.



