DQL como herramienta de investigación: criterio y patrones para SREs

Cuando un SRE experimentado se enfrenta a un incidente crítico en producción, la diferencia entre resolver el problema en cinco minutos o en dos horas suele estar en la capacidad de formular la pregunta correcta al sistema de observabilidad. En entornos con Dynatrace, esa pregunta se formula en DQL, el lenguaje de consulta que permite extraer señales precisas de millones de entidades distribuidas, métricas de alta cardinalidad y trazas complejas. Pero dominar DQL no consiste en memorizar sintaxis: se trata de entender cómo traducir hipótesis operativas en consultas que revelen patrones ocultos en el ruido.

La realidad es que la mayoría de equipos infrautilizan DQL. Usan paneles predefinidos, alertas configuradas por defecto y, cuando surge un problema inesperado, recurren a la interfaz gráfica con filtros limitados. Esto funciona para escenarios conocidos, pero falla cuando el comportamiento del sistema se sale del guion. Un SRE que domina DQL puede correlacionar señales dispares —latencias anómalas en un servicio, cambios en el consumo de memoria de contenedores específicos, errores HTTP en endpoints concretos— y construir una narrativa coherente del fallo en tiempo real.

Este artículo no es un manual de referencia del lenguaje: la documentación oficial de Dynatrace cubre ese terreno mejor que ningún artículo. Su objetivo es compartir el criterio operativo que permite a un SRE usar DQL como herramienta de investigación en producción: qué patrones de consulta son efectivos en incidentes reales, qué errores conceptuales llevan a consultas inútiles, y cómo estructurar el razonamiento para que las consultas reflejen la arquitectura real del sistema observado.

La anatomía de una consulta DQL útil

DQL funciona mediante una cadena de comandos separados por el operador de tubería (|). Los datos fluyen de un comando al siguiente, filtrándose y transformándose en cada paso. El punto de entrada es siempre fetch, que especifica la fuente de datos: logs, trazas, eventos de negocio, métricas, o entidades del modelo de Dynatrace. A partir de ahí, se encadenan comandos de filtrado, transformación y agregación.

Una consulta bien estructurada sigue un orden lógico que también es el más eficiente: primero se reduce el conjunto de datos con filter, luego se seleccionan los campos relevantes con fields o fieldsAdd, después se agregan los resultados con summarize, y finalmente se ordenan con sort. Invertir este orden —por ejemplo, ordenar antes de filtrar— penaliza el rendimiento porque el motor de Grail procesa más datos de los necesarios.

Un ejemplo concreto de investigación de errores HTTP en un servicio específico:

fetch logs, from:now()-30m
| filter loglevel == "ERROR" and k8s.namespace.name == "payments"
| filter content ~ "HTTP"
| summarize error_count = count(), by:{k8s.pod.name, log.source}
| sort error_count desc
| limit 20

Esta consulta ilustra varios principios operativos a la vez: ventana temporal acotada para limitar el escaneo, filtros específicos antes de la agregación, agrupación por dimensiones relevantes para el diagnóstico, y ordenación al final. El resultado muestra qué pods concretos concentran los errores, no una media global que oculte dónde está el problema.

El problema de la cardinalidad y la agregación prematura

Uno de los errores más frecuentes al trabajar con DQL es subestimar el impacto de la cardinalidad en consultas sobre entornos distribuidos. En un clúster de Kubernetes con cientos de pods efímeros, miles de métricas por servicio y millones de eventos por minuto, una consulta mal formulada puede saturar el motor de Grail o devolver resultados tan agregados que oculten el verdadero problema.

La tentación habitual es agregar demasiado pronto. Un SRE con menos experiencia tiende a pedir promedios globales o conteos totales sin segmentar por dimensiones relevantes. El resultado confirma que «algo va mal en general», pero no señala dónde ni por qué. En un incidente real, necesitas saber qué pods específicos están fallando, en qué zona de disponibilidad, bajo qué versión del servicio.

El enfoque correcto invierte el proceso: primero filtras agresivamente por las dimensiones que importan y solo después agregas. Un ejemplo para detectar latencia anómala segmentada por versión de despliegue:

fetch spans, from:now()-1h
| filter dt.entity.service == "checkout-service"
| filter span.kind == "SERVER"
| summarize p99 = percentile(duration, 99), request_count = count(),
    by:{app.version, k8s.deployment.name}
| sort p99 desc

Esta consulta no devuelve una latencia media de todo el servicio: segmenta por versión de despliegue, lo que permite identificar de inmediato si una versión concreta está degradando el rendimiento respecto a las demás. Sin ese nivel de detalle, el diagnóstico puede tardar horas.

Optimización del rendimiento: lo que la documentación oficial recomienda

Grail, el almacén de datos de Dynatrace sobre el que corre DQL, ofrece mecanismos explícitos para controlar el coste de las consultas. Conviene conocerlos porque en entornos grandes, una consulta sin restricciones puede tardar minutos o consumir recursos de forma innecesaria.

El primero es acotar la ventana temporal directamente en el comando fetch. Cuanto más estrecha sea la ventana, menos datos escanea Grail. Si en un incidente activo solo necesitas los últimos diez minutos, no hay razón para consultar la última hora. El segundo mecanismo es el samplingRatio, que permite consultar una fracción del total de registros para obtener aproximaciones rápidas. Para identificar la zona del problema durante un incidente, una estimación al 10% obtenida en segundos es más útil que una cifra exacta que tarde minutos.

Un ejemplo que combina ambos mecanismos para un análisis rápido de trazas durante un incidente:

fetch spans, from:now()-10m, samplingRatio:10
| filter span.kind == "SERVER"
| summarize c = count(), avg_duration = avg(duration),
    by:{dt.entity.service}
| fieldsAdd c = c * 10
| sort avg_duration desc

El campo fieldsAdd al final corrige el conteo multiplicando por el ratio de muestreo para obtener una estimación del volumen real. No es un dato exacto, pero en un incidente activo, saber que el servicio de pagos tiene aproximadamente diez veces más trazas lentas que el resto es información suficiente para priorizar la investigación.

La documentación oficial también recomienda encarecidamente filtrar antes de ordenar y evitar el comando sort inmediatamente después de fetch: ordenar un conjunto grande de registros sin haberlo filtrado previamente penaliza el rendimiento de forma significativa.

Consultar entidades y topología con DQL

Una capacidad que distingue a DQL de otros lenguajes de consulta de observabilidad es la posibilidad de consultar directamente el modelo de entidades de Dynatrace. Además de logs, trazas y métricas, DQL puede acceder a las entidades descubiertas por OneAgent —hosts, servicios, procesos, contenedores— y a las relaciones entre ellas que mantiene Smartscape.

Esto se hace mediante fetch dt.entity.*, que carga entidades del tipo especificado con sus propiedades y relaciones. A diferencia de lo que podría parecer, no es una operación implícita ni automática: requiere una consulta explícita, con sus propios filtros y campos. Lo interesante es que los identificadores de entidad que devuelve esta consulta pueden usarse para enriquecer otras consultas mediante lookup, creando una correlación entre el modelo topológico y los datos de telemetría.

Por ejemplo, para identificar qué servicios están desplegados en hosts con alta utilización de CPU:

fetch dt.entity.host
| filter isNotNull(dt.entity.host)
| lookup [
    timeseries cpu = avg(dt.host.cpu.usage), by:{dt.entity.host}
    | filter cpu[] > 80
  ], sourceField:id, lookupField:dt.entity.host
| filter isNotNull(cpu)
| fields entity.name, cpu, dt.entity.host

Este patrón combina el modelo de entidades con datos de series temporales de métricas, algo que en sistemas de observabilidad convencionales requeriría cruzar fuentes de datos manualmente. La precisión conceptual importante aquí es que Smartscape proporciona el contexto de relaciones y descubrimiento automático, pero DQL siempre trabaja con consultas explícitas, no con joins transparentes.

Correlación temporal: más allá de las ventanas fijas

La mayoría de consultas en producción necesitan comparar comportamientos a lo largo del tiempo. Un pico de latencia no es significativo por sí solo: lo que importa es si es anómalo respecto al patrón habitual. Aquí es donde muchos SREs tropiezan con las limitaciones de las ventanas temporales fijas.

El antipatrón típico es comparar la última hora con la hora anterior sin considerar la estacionalidad del tráfico. Si el sistema tiene patrones diarios marcados —picos matutinos, valles nocturnos— comparar las 3 AM con las 2 AM no revela nada útil. La comparación correcta es con la misma franja horaria de días anteriores.

DQL permite construir estas comparaciones mediante el comando makeTimeseries combinado con desplazamientos temporales. La clave operativa no está en la sintaxis, sino en entender qué ventana temporal es significativa para cada tipo de señal. Las métricas de infraestructura suelen tener patrones horarios o diarios. Las métricas de negocio pueden tener ciclos semanales. Las trazas y errores HTTP requieren ventanas más cortas porque su variabilidad es alta.

Eventos de negocio como ancla de correlación

Uno de los usos más infrautilizados de DQL es la correlación entre métricas técnicas y eventos de negocio. Dynatrace permite capturar eventos personalizados —despliegues, cambios de configuración, lanzamientos de funcionalidades— mediante Business Events, y DQL puede consultarlos como cualquier otra fuente de datos con fetch bizevents.

El patrón habitual es reactivo: algo falla, investigas métricas técnicas y eventualmente descubres que coincide con un despliegue reciente. El enfoque proactivo invierte esto: cada cambio significativo se registra como evento de negocio, y las consultas DQL filtran por ventanas temporales alrededor de esos eventos. Esto permite responder preguntas como «¿cómo cambió la latencia del servicio de pagos en los treinta minutos posteriores al último despliegue?» de forma sistemática y repetible.

La compensación es que requiere disciplina organizativa: los eventos de negocio deben capturarse de forma consistente con esquemas bien definidos, integrados en los pipelines de CI/CD. Pero el retorno es considerable: convierte la observabilidad en una herramienta de aprendizaje organizacional, no solo de respuesta a incidentes.

Consultas como artefactos versionados

Una práctica avanzada que distingue a los equipos SRE maduros es tratar las consultas DQL como artefactos versionados y documentados. En lugar de formular consultas ad hoc durante incidentes, los equipos efectivos mantienen bibliotecas de consultas reutilizables organizadas por tipo de problema: degradación de latencia, errores de autenticación, saturación de conexiones, fugas de memoria.

Dynatrace Notebooks es el entorno natural para esto: permite combinar consultas DQL con documentación, visualizaciones y contexto operativo en un único artefacto compartido. Pero el principio vale independientemente de la herramienta: las consultas que han demostrado ser diagnósticas en incidentes pasados son demasiado valiosas para perderse en el historial de una sesión.

El beneficio secundario es que estas consultas documentan el conocimiento operativo del equipo. Cada consulta refleja una hipótesis sobre cómo falla el sistema y qué señales son diagnósticas. Con el tiempo, la biblioteca se convierte en un mapa de los modos de fallo conocidos. Especialmente valioso en equipos con rotación o distribuidos geográficamente, donde el conocimiento tácito se pierde con facilidad.

Cuándo DQL no es la herramienta adecuada

DQL está optimizado para consultas operativas en tiempo real sobre telemetría reciente almacenada en Grail. No es un lenguaje de análisis de datos de propósito general. Si necesitas análisis históricos complejos sobre meses de datos, correlaciones estadísticas avanzadas, o integración con fuentes de datos externas a Dynatrace, probablemente necesites exportar los datos a un entorno de análisis especializado.

Tampoco es la herramienta adecuada para automatizaciones complejas o flujos de trabajo de varios pasos. Para eso, Dynatrace ofrece Workflows, que permiten orquestar acciones basadas en resultados de consultas DQL. DQL formula la pregunta; los Workflows actúan sobre la respuesta.

Finalmente, DQL asume que los datos relevantes ya están siendo capturados y etiquetados correctamente. Si la instrumentación es deficiente —servicios sin etiquetas, métricas sin contexto, trazas incompletas— las consultas más sofisticadas no compensarán esa carencia. La observabilidad efectiva empieza con la captura de señales de calidad. DQL es la herramienta que permite explotarlas, pero no puede crearlas.

Resumiendo

Dominar DQL como herramienta de investigación requiere desarrollar el criterio para traducir hipótesis operativas en consultas que revelen patrones significativos. Los aprendizajes clave que se pueden aplicar desde hoy:

Filtrar agresivamente antes de agregar: filter siempre antes de summarize, y sort siempre al final.
Usar samplingRatio durante incidentes activos para obtener respuestas aproximadas en segundos en lugar de respuestas exactas en minutos.
Acotar la ventana temporal en el propio fetch, no después: reduce el escaneo desde el origen.
Consultar entidades con fetch dt.entity.* y enriquecer con lookup cuando la correlación topológica aporta contexto diagnóstico.
Tratar las consultas efectivas como artefactos: documentarlas en Notebooks, versionarlas, compartirlas con el equipo.

En última instancia, DQL es una herramienta de razonamiento sobre sistemas distribuidos. Su valor no está en las consultas individuales, sino en cómo estructuran el proceso de investigación durante incidentes, cómo documentan el conocimiento operativo del equipo, y cómo permiten que la observabilidad evolucione de reactiva a proactiva.

Autor

Tomas Pardellas

Ver todas las entradas