Correlación de logs y trazas: reducir el tiempo de diagnóstico en incidentes

A las tres de la madrugada, recibes una alerta: el percentil 99 de latencia en el servicio de pagos acaba de triplicarse. Abres el panel de métricas, confirmas el problema, saltas a las trazas distribuidas y encuentras una transacción lenta. La traza te muestra la cadena completa de llamadas: el API Gateway llamó al servicio de checkout, que llamó al servicio de validación de tarjetas, que a su vez llamó a un servicio externo de antifraude. Puedes ver que la validación de tarjetas tardó 8 segundos en lugar de los 200 milisegundos habituales. Pero eso es todo lo que la traza te dice: dónde fue lento, no por qué. ¿Se quedó colgada la conexión con el proveedor de antifraude? ¿Hubo un reintento por un timeout? ¿Falló la validación del CVV y se lanzaron reintentos internos? Esa información solo está en los logs de ese servicio. Cambias a los logs, buscas por marca de tiempo aproximada, filtras por servicio, y empiezas a reconstruir manualmente qué ocurrió. Diez minutos después sigues sin respuesta clara.

Este escenario se repite en equipos de guardia cada noche. La observabilidad moderna nos da tres señales fundamentales —métricas, logs y trazas— pero la desconexión entre ellas convierte el diagnóstico en arqueología digital. Las métricas te dicen QUÉ está roto, las trazas te muestran DÓNDE en el flujo de ejecución, y los logs te explican POR QUÉ. Sin correlación efectiva entre estas señales, cada incidente requiere saltos manuales entre herramientas, búsquedas por marca de tiempo y reconstrucción mental del contexto. El tiempo medio de resolución se dispara no porque el problema sea complejo, sino porque el proceso de investigación es ineficiente.

La correlación de logs y trazas no es un lujo arquitectónico: es una capacidad operativa que determina si tu equipo diagnostica incidentes en minutos o en horas. Pero implementarla correctamente requiere decisiones de diseño que afectan a toda tu arquitectura de telemetría, desde la instrumentación en servicios hasta la indexación en el backend de observabilidad. Este artículo examina los patrones técnicos que hacen funcionar esta correlación en producción, las decisiones arquitectónicas que la habilitan y los errores que la convierten en promesa incumplida.

El problema de contexto en sistemas distribuidos

En un monolito, correlacionar logs con el flujo de ejecución es trivial: compartes el mismo proceso, el mismo hilo, y puedes seguir la traza de la pila completa. En sistemas distribuidos, cada servicio genera sus propios logs de forma independiente, sin conocimiento del contexto global de la transacción. Una petición HTTP que atraviesa cinco microservicios genera cinco conjuntos de logs desconectados, cada uno con su propia marca de tiempo, su propio nivel de detalle y su propia interpretación del identificador de correlación.

Las trazas distribuidas resuelven el problema de visibilidad del flujo: te muestran qué servicios participaron, en qué orden y cuánto tardó cada uno. Pero las trazas son agregaciones: capturan la estructura de la llamada, no el detalle de qué ocurrió dentro de cada span. Si un servicio falla por validación de datos, la traza te dirá que ese span terminó con error, pero no te mostrará qué campo específico falló ni qué valor recibió. Esa información vive en los logs.

La correlación efectiva significa poder saltar desde un span problemático en la traza directamente a los logs que se generaron durante la ejecución de ese span, sin búsquedas manuales, sin filtros por marca de tiempo aproximada, sin reconstrucción mental. Significa que el contexto de la traza —trace ID, span ID, información de servicio— está presente en cada línea de log, y que tu plataforma de observabilidad puede usar ese contexto para conectar ambas señales automáticamente.

En la práctica, herramientas como Grafana ya ofrecen esta navegación bidireccional: desde un span en Tempo puedes saltar directamente a los logs en Loki que comparten el mismo trace ID, y viceversa. Datadog permite hacer lo mismo con su función «View Trace» desde cualquier entrada de log enriquecida con contexto de traza. La clave es que esta navegación solo funciona si el contexto de traza está presente de forma consistente en ambas señales.

Arquitectura de correlación: propagación de contexto

La base técnica de la correlación es la propagación de contexto distribuido. Cuando una petición entra en tu sistema, se le asigna un identificador único de traza. Este identificador debe viajar con la petición a través de todos los servicios, y cada servicio debe incluirlo tanto en los spans que genera como en los logs que escribe. Sin esta propagación consistente, no hay correlación posible.

OpenTelemetry estandariza este mecanismo mediante el concepto de contexto: un contenedor de información que viaja con cada operación y que incluye trace ID, span ID y metadatos adicionales como baggage. Las bibliotecas de instrumentación automática se encargan de extraer este contexto de las cabeceras HTTP entrantes (según la especificación W3C Trace Context, que define las cabeceras estándar traceparent y tracestate), propagarlo en llamadas salientes, y hacerlo disponible para que el código de logging lo incluya en cada línea.

Pero la propagación automática solo funciona si toda tu cadena de servicios usa instrumentación compatible. Un servicio heredado que no propaga cabeceras de traza rompe la cadena: todos los servicios que están por detrás en el flujo de llamadas generarán nuevos trace IDs y perderás la visibilidad del flujo completo. Este es el primer punto de fallo en arquitecturas híbridas donde conviven servicios modernos instrumentados con OpenTelemetry y servicios heredados con logging tradicional.

La decisión arquitectónica crítica es dónde inyectas el contexto de traza en los logs. Puedes hacerlo en la biblioteca de logging mediante configuración automática, puedes hacerlo en un interceptor del framework web, o puedes hacerlo manualmente en cada punto de logging. La instrumentación automática es más robusta —no depende de que cada desarrollador recuerde incluir el trace ID— pero requiere que tus bibliotecas de logging soporten integración con el SDK de OpenTelemetry o con el agente de tu plataforma de observabilidad.

Patrones de implementación en producción

El patrón más habitual en entornos Kubernetes es usar un agente de telemetría que enriquece los logs con contexto de traza automáticamente. El servicio escribe logs a stdout en formato estructurado —normalmente JSON— y el agente los captura, extrae el trace ID si está presente, y los envía al backend con metadatos adicionales de pod, namespace y nodo. Este enfoque centraliza la lógica de correlación fuera del código de aplicación, pero introduce latencia y dependencias operativas: si el agente falla o se satura, pierdes correlación.

En el ecosistema Grafana, esta arquitectura se implementa con Grafana Alloy (el sucesor de Grafana Agent) como colector, Tempo como backend de trazas y Loki como backend de logs. Alloy captura los logs de los contenedores, los enriquece con etiquetas de Kubernetes y los envía a Loki. Las trazas se envían a Tempo vía OTLP. Grafana permite configurar la correlación bidireccional entre ambos: desde un span en Tempo se genera un enlace a los logs en Loki filtrados por trace ID y servicio, y desde una línea de log en Loki que contenga un trace ID se puede saltar directamente a la traza completa en Tempo.

Plataformas como Dynatrace con OneAgent llevan este patrón más lejos: el agente no solo captura logs, sino que también instrumenta automáticamente las aplicaciones para generar trazas y correlaciona ambas señales en tiempo real sin requerir cambios en el código. El contexto de traza se inyecta automáticamente en los logs mediante instrumentación a nivel de proceso, y la plataforma permite navegar desde cualquier span problemático a los logs exactos generados durante su ejecución. La topología Smartscape construye además un grafo de dependencias en tiempo real que conecta métricas de infraestructura, trazas, logs y eventos, facilitando el análisis de causa raíz. La contrapartida es el acoplamiento a la plataforma: tu arquitectura de telemetría depende del agente propietario.

En Datadog, la correlación se configura asegurando que los logs incluyan los campos dd.trace_id y dd.span_id (o los estándar de OpenTelemetry trace_id y span_id). Las bibliotecas de logging compatibles con OpenTelemetry —como zap en Go, Logback en Java o Winston en Node.js— inyectan estos campos automáticamente cuando existe un span activo. Desde la vista de APM en Datadog, el botón «View Trace» permite saltar directamente desde un log al trace completo asociado.

El patrón alternativo es instrumentación explícita en el código: usas el SDK de OpenTelemetry para obtener el contexto de traza activo y lo incluyes manualmente en cada llamada de logging. Esto te da control total y portabilidad entre backends, pero requiere disciplina de equipo y revisiones de código que verifiquen que el contexto se propaga correctamente. En organizaciones grandes con múltiples equipos, este enfoque no escala: siempre habrá servicios donde la correlación falle porque alguien olvidó incluir el trace ID en un log crítico.

OpenTelemetry aborda este problema con los log bridges (puentes de logging): integraciones que conectan bibliotecas de logging existentes con el SDK de OpenTelemetry. En lugar de cambiar todo el código de logging, el bridge intercepta los logs generados por la biblioteca habitual (Log4j, SLF4J, Pino, etc.), los convierte al modelo de datos de OpenTelemetry y les añade automáticamente el contexto de traza activo. Esto permite mantener el código de logging existente mientras se obtiene correlación automática.

Formato y estructuración de logs

La correlación efectiva requiere logs estructurados. Un log en texto plano puede incluir el trace ID, pero extraerlo requiere análisis sintáctico, expresiones regulares y lógica frágil que se rompe cuando cambia el formato. Los logs en JSON permiten que el backend de observabilidad indexe el trace ID como campo estructurado y construya índices eficientes para búsquedas rápidas.

Pero estructurar logs no es suficiente: necesitas convenciones de nombres consistentes. Si un servicio escribe el trace ID en un campo llamado traceId, otro lo escribe en trace_id, y un tercero en requestId, tu plataforma no puede correlacionar automáticamente. OpenTelemetry define convenciones semánticas para atributos de telemetría, pero muchas organizaciones tienen logs heredados con esquemas inconsistentes. La migración a convenciones estándar es un proyecto de meses, no de días.

Un ejemplo concreto: un log estructurado correctamente para correlación debería tener este aspecto:

{
  "timestamp": "2026-04-20T03:15:42.123Z",
  "level": "error",
  "message": "Validación de tarjeta fallida: campo CVV vacío",
  "service.name": "payment-validator",
  "trace_id": "4bf92f3577b34da6a3ce929d0e0e4736",
  "span_id": "00f067aa0ba902b7",
  "user.id": "usr_8832",
  "error.type": "ValidationError"
}

Los campos trace_id y span_id siguen las convenciones de OpenTelemetry (identificadores hexadecimales de 32 y 16 caracteres respectivamente), lo que permite correlación automática con cualquier backend compatible.

El nivel de detalle en los logs también importa. Logs demasiado verbosos saturan el backend y dificultan encontrar información relevante. Logs demasiado escuetos no aportan contexto suficiente para diagnosticar. La práctica recomendada es usar niveles de logging dinámicos: en operación normal, registras solo errores y avisos; cuando detectas un problema, aumentas el nivel de detalle para servicios específicos sin reiniciar nada. Esto requiere que tu plataforma de observabilidad permita ajustar el nivel de logging en caliente, idealmente por trace ID: si una traza específica está fallando, capturas logs detallados solo para esa traza.

Errores habituales que rompen la correlación

El error más frecuente es asumir que la correlación funciona porque implementaste propagación de contexto en servicios nuevos, ignorando que tus servicios heredados siguen generando logs sin trace ID. El resultado es correlación parcial: puedes seguir el flujo en parte del sistema, pero pierdes visibilidad en componentes críticos. La solución no es reescribir todo de inmediato, sino identificar qué servicios están en el camino crítico de incidentes frecuentes y priorizarlos para instrumentación.

Otro antipatrón es generar logs antes de que el contexto de traza esté disponible. En frameworks web, el contexto se establece después de procesar las cabeceras de la petición entrante. Si tu código de logging se ejecuta en un middleware que corre antes de ese punto, los logs no tendrán trace ID. Este problema es sutil porque la mayoría de los logs SÍ estarán correlacionados, pero los primeros logs de cada petición —a menudo los más útiles para depuración— no lo estarán.

La sobrecarga de cardinalidad también es un problema real. Si cada log incluye decenas de atributos estructurados —user ID, session ID, feature flags activos, metadatos de la petición— el backend de observabilidad debe indexar todos esos campos. En sistemas de alto volumen, esto dispara los costes de almacenamiento y ralentiza las búsquedas. La decisión de qué incluir en logs y qué dejar en spans de traza es arquitectónica: los logs deben capturar información de depuración específica, las trazas deben capturar estructura y tiempos.

Otro error frecuente es la inconsistencia en el formato del trace ID entre servicios. OpenTelemetry usa identificadores hexadecimales en minúsculas de 32 caracteres para trace IDs y 16 para span IDs, pero algunas bibliotecas o formatos propietarios usan representaciones distintas (con o sin guiones, en mayúsculas, en formato decimal). Si los formatos no coinciden entre lo que emiten tus servicios y lo que espera tu backend, la correlación falla silenciosamente.

Por último, muchos equipos implementan correlación técnica pero no la integran en sus procedimientos operativos. Si tu guía de actuación ante incidentes sigue diciendo «busca en los logs por marca de tiempo», nadie usará la capacidad de saltar desde trazas a logs. La correlación solo reduce el tiempo de diagnóstico si cambias cómo investigas incidentes: empiezas por métricas para detectar el problema, saltas a trazas para identificar el span problemático, y desde ahí navegas directamente a los logs relevantes.

Cuándo la correlación no es suficiente

La correlación de logs y trazas asume que el problema que investigas dejó rastro en ambas señales. Pero hay clases de problemas donde esta suposición falla. Si un servicio se cae por falta de memoria antes de poder escribir logs, la traza mostrará un timeout pero no habrá logs que correlacionar. Si un problema de red intermitente hace que las peticiones se pierdan antes de llegar al servicio, no habrá ni traza ni logs: solo ausencia de señal.

En estos casos necesitas señales complementarias: métricas de infraestructura que muestren uso de memoria, eventos de sistema que capturen caídas, o telemetría de red que registre paquetes descartados. La correlación efectiva en producción no es solo entre logs y trazas, sino entre todas las señales de telemetría disponibles. Plataformas como Dynatrace construyen un grafo de dependencias completo (Smartscape) que correlaciona automáticamente métricas de infraestructura, trazas de aplicación, logs, eventos de cambio y datos de negocio, permitiendo navegar desde cualquier señal a cualquier otra. En el ecosistema abierto, la combinación Grafana + Prometheus + Loki + Tempo + Pyroscope ofrece una aproximación similar, con correlaciones configurables entre métricas, logs, trazas y perfiles de rendimiento.

También hay límites de escala. En sistemas de muy alto volumen, no puedes permitirte capturar todos los logs con todo el contexto de traza: el coste de almacenamiento e indexación sería prohibitivo. Aquí necesitas muestreo inteligente: capturas logs completos solo para trazas que muestren comportamiento anómalo —latencia alta, errores, patrones inusuales— y descartas logs de trazas normales. Esto requiere que tu pipeline de telemetría tome decisiones de muestreo basadas en el contenido de las trazas (tail-based sampling), no solo en porcentaje aleatorio. OpenTelemetry Collector soporta procesadores de muestreo por cola (tail sampling processor) que permiten tomar esta decisión una vez que la traza completa está disponible.

Criterios de decisión arquitectónica

Si estás diseñando una arquitectura de correlación desde cero, prioriza la instrumentación automática sobre la manual. Los equipos cambian, el código evoluciona, y mantener disciplina de logging manual en decenas de servicios no escala. Usa bibliotecas de instrumentación de OpenTelemetry o agentes de plataforma que inyecten contexto automáticamente.

Si tienes servicios heredados sin instrumentación, no intentes migrarlos todos a la vez. Identifica los servicios en el camino crítico de tus incidentes más frecuentes o costosos y prioriza esos. Puede pasar que aproximadamente un 20 % de tus servicios probablemente genera el 80 % de tus incidentes. Correlación parcial en servicios críticos aporta más valor que correlación completa en servicios que rara vez fallan.

Elige un formato de log estructurado estándar y aplícalo de forma consistente. JSON es ubicuo y está bien soportado, pero si tu organización ya tiene inversión en otro formato estructurado, la consistencia importa más que el formato específico. Define convenciones de nombres para campos clave —trace ID, span ID, nivel de log, marca de tiempo— y documéntalas como estándar de equipo.

Diseña tu pipeline de telemetría para soportar niveles de detalle dinámicos. La capacidad de aumentar el logging para trazas específicas sin reiniciar servicios es crítica para diagnosticar problemas intermitentes. Esto puede requerir que tu plataforma de observabilidad soporte configuración remota de agentes o que implementes un mecanismo de feature flags que controle el nivel de logging por contexto de traza.

Finalmente, mide el impacto real en tiempo de resolución de incidentes. La correlación de logs y trazas es una inversión arquitectónica significativa. Si después de implementarla tu MTTR no mejora, probablemente el problema no era técnico sino de proceso: tus guías de actuación no reflejan las nuevas capacidades, o tu equipo no está formado en cómo usar la correlación durante incidentes.

Para seguir aprendiendo

La correlación efectiva de señales de telemetría es un tema en evolución constante. Estas referencias aportan profundidad técnica y contexto práctico para implementaciones en producción:

«Distributed Tracing in Practice» de Austin Parker, Daniel Spoonhower, Jonathan Mace, Ben Sigelman y Rebecca Isaacs (O’Reilly Media, 2020). Cubre patrones de instrumentación, propagación de contexto y correlación de señales en sistemas distribuidos reales. https://www.oreilly.com/library/view/distributed-tracing-in/9781492056621/
«Observability Engineering» de Charity Majors, Liz Fong-Jones y George Miranda (O’Reilly Media, 1.ª ed. 2022; 2.ª ed. 2025). Examina cómo usar correlación de telemetría para reducir tiempo de diagnóstico en equipos de guardia. https://www.oreilly.com/library/view/observability-engineering/9781492076438/
Documentación oficial de OpenTelemetry, mantenida por la Cloud Native Computing Foundation. Incluye especificaciones de propagación de contexto, convenciones semánticas para atributos y guías de instrumentación para múltiples lenguajes. https://opentelemetry.io/docs/
Especificación W3C Trace Context del World Wide Web Consortium. Define el estándar de propagación de contexto de traza en cabeceras HTTP (traceparent y tracestate) que permite interoperabilidad entre herramientas. https://www.w3.org/TR/trace-context/
Repositorio opentelemetry-specification en GitHub. Contiene las especificaciones técnicas completas de señales, contexto y semántica de atributos. https://github.com/open-telemetry/opentelemetry-specification
Documentación de correlación trazas-logs en Grafana. Guía práctica para configurar la navegación bidireccional entre Tempo (trazas) y Loki (logs). https://grafana.com/docs/grafana/latest/datasources/tempo/configure-tempo-data-source/configure-trace-to-logs/
Documentación de correlación de trazas y logs en Datadog con OpenTelemetry. Detalla cómo enriquecer logs con contexto de traza y configurar la navegación entre señales. https://docs.datadoghq.com/opentelemetry/correlate/logs_and_traces/

Autor

Tomas Pardellas

Ver todas las entradas