09-02-2003 - César Martín
Resumen: 1. Que es un log y partes que lo componen. 2. Como extraer información. Excel puede ser un primer paso muy útil. 3. Que hacer con los resultados. Presentación de datos, pruebas, confirmar teorías. 4. El análisis de log no es una ciencia exacta (pero se acerca).
Debate (2 comentarios) | Valoración media: 2,96 | Votos: 7221 | Lecturas: 24063
El log de visitas es una fuente de información que debemos tener presente para valorar el rendimiento de nuestro site así como
el extraer información sobre nuestros productos. El log nos dará información sobre que información están solicitando los usuarios, que información
les resulta más interesante, cuando la necesitas, rutas de información...
Es muy importante que esta fuente de información este accesible por todos los departamentos en un formato sencillo de entender y fácil
de usar. Es esencial que la comunicación entre los departamentos (o individuos) que tienen la información del log y aquellos que la pueden
necesitar sea fluida para no desaprovechar la riqueza de información que se puede extraer del log.
Técnicamente el "log de visitas" es un archivo creado por el servidor donde se registran las acciones que los usuarios generan en la web.
El archivo en bruto presenta un formato bastante espeso y su tamaño puede ser un problema a la hora de manejarlo (un log de
20.000 visitas puede pesar 3 megas).
200.66.196.132 - - [03/Mar/2002:23:59:20 +0100] "GET /directorio/16.html HTTP/1.1" 304 - "http://www.dominio.com/directorio/index.html" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)"
El formato de los logs varia dentro de cada servidor y dentro de cada servidor de la configuración del mismo.
Cada vez que se produce una llamada a un archivo dentro de nuestra web, el servidor escribirá una linea como esta. Cada visita, cada HTML,
cada imagen dentro de ese HTML generara una linea. Es esta "redundancia" de información lo que hace que el log sea bastante difícil de manejar
en bruto.
| Explicación de cada elemento dentro del log | |
| 200.66.196.132 | I.P. del usuario (numero de identificación del ordenador desde el que el usuario accede) |
| - | Usuario - para sites con identificación |
| - | Password |
| [03/Mar/2002:23:59:20 +0100] | Fecha |
| "GET /directorio/16.html HTTP/1.1" | Archivo pedido |
| 304 | ID de contestación (2xx es OK | 3xx son de redirección | 4xx son de autentificación | 5xx son de errores de servicio) |
| - | Numero de bytes enviados |
| "http://www.dominio.com/ directorio/index.html" |
página desde la que se pide el archivo |
| "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)" | Información sobre versión del navegador, terminal del usuario... |
Extraer información de un log de visitas en crudo usando una herramienta como excel no es fácil y presenta muchos problemas, pero nos puede ayudar a
entender mejor como funciona el proceso de representación de un log.
| Resultados que se obtienen ordenado el log. | ||
| Si ordenamos por... | ... obtenemos | |
| 200.66.196.132 | I.P. del usuario | numero de usuarios únicos, rutas de dicho usuarios, páginas de salida... |
| - | Usuario - para sites con identificación | Numero de usuarios registrado frente a usuari anónimos, ratio de conversión... |
| - | Password | Numero de errores a la hora de introducir el password, longitud de password preferida... |
| [03/Mar/2002:23:59:20 +0100] | Fecha | Fechas con más visitas, duración de la visita (combinado con el IP), identificación geográfica (global) de los visitantes... |
| "GET /directorio/16.html HTTP/1.1" | Archivo pedido | páginas más vistas - si lo combinamos con IPs sacamos las rutas. |
| 304 | ID de contestación (2xx es OK | 3xx son de redirección | 4xx son de autentificación | 5xx son de errores de servicio) | Errores de peticiones, movimiento de archivos... |
| - | Numero de bytes enviados | Envío total de datos (transferencia), El tiempo de visita se puede ver afectado por el peso de los archivos solicitados. |
| "http://www.dominio.com/ directorio/index.html" |
página desde la que se pide el archivo | que páginas están dirigiendo el trafico, que enlaces dentro de que páginas son los más usados, resultado de búsquedas (internos y externos), páginas externas con enlaces a nuestro site... |
| "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)" | Información sobre versión del navegador, terminal del usuario... | Estadística sobre versiones, target real del site... |
La idea de abrir un log en crudo requiere dedicación y algo de tiempo, pero nos ayudara a entender de forma más clara la información que estamos
manejando y como pedir los resultados que realmente nos ayudaran a mejorar nuestro site.
Como alternativa siempre podemos disponer de alguna aplicación de análisis de logs. Disponibles en una amplia gama (gratuitos, de pago, caros, baratos,
buenos, malos....) el uso de estas herramientas suele requerir algo de dedicación para poder extraer los datos en un formato que nos
ofrezca resultados validos. Por lo general todos los fabricantes ofrecen un tiempo de prueba o versiones demo con lo que podemos comparar antes de
comprar. Al final de este artículo se ofrecerán algunas recomendaciones.
Para valorar los resultados de nuestro log, debemos comparar. Lo más normal es comparar los datos de forma interna viendo la evolución
en el tiempo (comparando el numero de visitas mes a mes, numero de páginas vistas, duración de las visitas). Esta comparación nos dará
una idea sobre la evolución del site, como cambios en la portada pueden afectar al numero de páginas vistas, reducción del peso del site
y la evolución de tiempo de permanencia, etc...
A la hora de comparar debemos seleccionar elementos que presenten equivalencias. A parte de comparar valores absolutos en distintos periodos de tiempo,
debemos ser capaces de comparar los resultados de páginas similares. páginas de menú, fichas de producto, formularios... deben ser extraídas del log
para ver información sobre el tiempo de permanencia, siguente página, página de referencia, etc... Esta comparación
resultara más sencilla cuanto más homogéneo sea nuestro site (ya que podremos aislar las variables). Un ejemplo sencillo de comparación es
crear X plantillas de resultados de búsquedas, lanzar las páginas en el site y estudiando el log identificar virtudes y debilidades
en los diferentes modelos.
Otra forma de utilizar el log es para monitorizar campañas. Comprobar la eficacia de una oferta, comparación de productos... el log es una
fuente de información valida para poder realizar test de forma rápida y económica en el desarrollo de productos. Al ser información que se colecta
sin ser solicitada de forma directa, presenta algo más de validez que datos recogidos bajo formularios o encuestas.
El ser capaz de representar los datos de forma comprensible para nuestra audiencia es un paso muy importante para mostrar la validez del sistema
y poder justificar el desarrollo de esta fuente de información.
|
Ejemplo de representación de un path. Los path de un usuario a través de nuesta web son difíciles de identificar y representar. Creando un frame con "thumbnails" con las páginas vistas durante la visita indicando el tiempo de estancia en cada página y enlazando estos thumbnails a la página real (en el frame inferior) podemos crear un sistema bastante sencillo que presenta la información de forma clara y útil ya que cualquier persona puede recrear la visita del usuario. |
|
|
Comparación de menús. A la hora de comparar modelos, debemos ser capaces de enlazar la información con el producto. En este ejemplo se representan los hits en cada enlace a modo de gráfica de tarta.
Antes de lanzar una campaña nacional, un test en la web te |
|
Como todo método de recogida de información el log presenta una tolerancia en su precisión. El principal problema que tiene el
log es que nos puede dar menos visitas de las que realmente se están produciendo. La cache (del navegador
o del servidor proxy) harán que múltiples visitas cuenten como una única vista y que movimientos de avance y retroceso puedan no quedar
registrados en el log.
El otro problema es el no poder contar con la velocidad de conexión del usuario. Al no tener esta referencia, el tiempo de conexión se convierte en
un parámetro algo incierto. Del tiempo de conexión, cuanto se dedica a la bajada de datos y cuanto a tiempo de lectura? Difícil de adivinar, pero
de nuevo la comparación nos debería dar algún indice sobre el que poder crear una referencia.
Estos problemas están comentados de forma precisa en este artículo.
Agradecimientos a Colman López por su ayuda a la hora de preparar este artículo y a Jose Manuel Suárez y Jeff Miller por la información aportada.
Enlaces de interés:
- http://www.analog.cx/docs/webworks.html. Errores comunes a la hora
de leer un log de visitas. Un tono algo negativo.
- http://www.infovis.net/Revista/num_65.htm. artículo dentro de
infovis.net sobre visualización de logs.
Debate en torno a este artículo: Debate (2 comentarios)
Quieres dejar tus comentarios a este artículo? Acude a la página de Comentarios
Compartir contenido: Menéame, Del.icio.us
© Alzado.org | Algunos derechos reservados. Licencia Creative Commons