Automatización con Dynatrace Workflows: cuándo usarlos y cuándo no

En entornos de producción a gran escala, la velocidad de detección y respuesta ante incidentes marca la diferencia entre una degradación puntual y un impacto crítico en el negocio. Dynatrace Workflows permite automatizar acciones en respuesta a eventos de monitorización, integrando la observabilidad con la operación. Pero como toda herramienta de automatización, su valor depende de cuándo y cómo se aplica.

Este artículo analiza las capacidades de Dynatrace Workflows desde un enfoque práctico: qué puede automatizarse, con qué herramientas, y sobre todo, en qué escenarios aporta valor real y en cuáles conviene evitarlo. El objetivo es proporcionar criterios claros para que equipos SRE y de operaciones tomen decisiones informadas antes de implementar automatizaciones.

Qué son los Workflows de Dynatrace

Dynatrace Workflows es una funcionalidad que permite definir procesos automatizados compuestos por tareas encadenadas. Cada workflow se dispara por un trigger (evento, programación horaria o petición manual) y ejecuta una secuencia de acciones configurables.

La plataforma distingue entre dos tipos:

Simple Workflows: limitados a una única tarea, sin coste de horas de workflow. Ideales para notificaciones básicas.
Standard Workflows: permiten múltiples tareas, lógica condicional, ejecución en paralelo y código JavaScript personalizado.

Tipos de triggers disponibles

Los workflows pueden activarse mediante:

Davis Problem trigger: cuando Davis AI detecta un problema y completa su análisis de causa raíz.
Davis Event trigger: ante eventos específicos detectados por la plataforma (no necesariamente problemas completos).
Triggers programados: ejecución en horarios definidos, con soporte para calendarios de negocio.
Triggers on-demand: activación manual o vía API REST.
Triggers de Business Events: reacción ante eventos de negocio personalizados.

Un aspecto relevante: los triggers de Davis Problem pueden configurarse para activarse solo después de que Davis AI complete su análisis de causa raíz inicial. Esto evita reacciones prematuras ante problemas que aún están siendo correlacionados.

Acciones e integraciones disponibles

Dynatrace ofrece conectores nativos para las herramientas más comunes en operaciones IT. Entre los más utilizados:

Categoría	Conectores
Gestión de incidentes	ServiceNow, Jira, PagerDuty
Comunicación	Slack, Microsoft Teams, Email
Automatización	Red Hat Ansible, Azure, webhooks HTTP
Análisis	Consultas DQL, Dynatrace Intelligence (IA generativa)

Cada conector permite acciones específicas. Por ejemplo, con ServiceNow se pueden crear incidentes, añadir comentarios o actualizar registros existentes. Con Slack, enviar mensajes enriquecidos con datos del problema.

Además, la acción «Run JavaScript» permite código personalizado con acceso al SDK de Dynatrace, lo que amplía las posibilidades más allá de las acciones predefinidas.

Escenarios donde los Workflows aportan valor

Notificación contextualizada ante problemas

El caso de uso más directo y de menor riesgo. En lugar de depender de alertas genéricas, un workflow puede:

Enviar notificaciones solo para problemas que afectan a entidades con determinados tags.
Incluir en el mensaje información contextual: entidades afectadas, duración, enlace directo al problema.
Distribuir a diferentes canales según la severidad o el equipo responsable.

La documentación oficial incluye ejemplos paso a paso para configurar notificaciones a Slack o email disparadas por Davis Problems, incluyendo el payload dinámico con datos del evento.

Enriquecimiento de tickets ITSM

Cuando un problema genera un ticket en ServiceNow o Jira, el workflow puede adjuntar información que acelere el diagnóstico:

Causa raíz identificada por Davis AI.
Entidades afectadas y sus dependencias.
Métricas relevantes del momento del incidente.
Enlace directo a la traza o al log asociado.

Este enriquecimiento reduce el tiempo de triaje al proporcionar contexto inmediato al equipo de respuesta.

Análisis predictivo automatizado

Dynatrace Intelligence (anteriormente Davis CoPilot) puede integrarse en workflows para generar resúmenes automáticos de problemas o sugerencias de remediación. Un workflow puede:

Recibir el trigger de un nuevo problema.
Invocar a Dynatrace Intelligence con el contexto del problema.
Enviar el análisis generado por email o a un canal de comunicación.

Esto es especialmente útil en equipos de guardia que necesitan una primera aproximación rápida antes de profundizar.

Mantenimiento predictivo

Un patrón documentado por Dynatrace es el uso de workflows para predicción de capacidad. El flujo típico sería:

Trigger programado (por ejemplo, diario a las 8:00).
Consulta DQL para obtener métricas de capacidad (disco, CPU, memoria).
Análisis con el motor de forecast de Davis AI.
Si se predice escasez en el horizonte definido, crear alerta o notificación.

Este enfoque permite actuar antes de que el problema se manifieste, aunque requiere calibración cuidadosa de los umbrales de predicción.

Escenarios donde conviene evitar workflows automáticos

Telemetría incompleta o inconsistente

Si el despliegue de OneAgent no cubre todo el entorno, o si hay servicios críticos sin instrumentación, las automatizaciones basadas en detección pueden generar falsos negativos (problemas no detectados) o contexto incompleto.

Antes de automatizar, asegúrate de que la cobertura de monitorización es representativa del servicio.

Indicadores de negocio no definidos

Los workflows más efectivos se disparan ante desviaciones de SLOs o eventos de negocio bien definidos. Si el equipo no tiene claro qué constituye una degradación relevante, las reglas de trigger serán arbitrarias y generarán ruido o inacción.

Entornos muy dinámicos sin baseline estable

Davis AI necesita tiempo para establecer baselines de comportamiento normal. En entornos con despliegues muy frecuentes o cargas altamente variables, los triggers automáticos pueden activarse por variaciones que no son realmente problemas.

Automatización de remediación sin validación

Automatizar acciones correctivas (reinicio de servicios, rollback, escalado) es tentador pero arriesgado si no existe:

Validación de que la acción es apropiada para el tipo de problema.
Mecanismo de rollback si la acción empeora la situación.
Límites de ejecución para evitar bucles de remediación.

La plataforma permite configurar aprobaciones manuales mediante la acción «Request approval», que pausa el workflow hasta recibir confirmación humana. Es prudente usarla para acciones de alto impacto.

Equipos sin experiencia en automatización

Un workflow mal diseñado puede ser peor que ninguna automatización. Si el equipo no tiene experiencia gestionando flujos automatizados, es preferible empezar con Simple Workflows para notificaciones y ganar confianza gradualmente.

Consideraciones de diseño

Evitar la fatiga por alertas

El límite de 1.000 ejecuciones por hora por trigger de evento existe por una razón. Si un workflow se dispara constantemente, el equipo dejará de prestar atención a sus notificaciones.

Recomendaciones:

Usar filtros DQL en los triggers para limitar a eventos realmente relevantes.
Combinar con alerting profiles para aplicar delays (por ejemplo, notificar solo si el problema persiste 5 minutos).
Revisar periódicamente las estadísticas de ejecución.

Trazabilidad y auditoría

Cada ejecución de workflow queda registrada con su contexto, parámetros y resultado. Esta trazabilidad es valiosa para:

Análisis post-mortem de incidentes.
Verificar que las automatizaciones funcionaron como se esperaba.
Cumplimiento de políticas de cambio.

Asegúrate de que los workflows incluyen información identificable (IDs de problema, timestamps, actor) en sus acciones.

Permisos y actores

Los workflows ejecutan acciones en el contexto de un «actor» (usuario o grupo). Es importante:

Revisar que el actor tiene los permisos necesarios para todas las acciones del workflow.
Configurar los Authorization Settings correctamente.
Usar service accounts dedicados para workflows de producción, no cuentas personales.

Versionado y testing

Dynatrace permite trabajar con borradores (drafts) antes de desplegar cambios a workflows activos. Aprovecha esta funcionalidad para:

Probar cambios sin afectar la ejecución en producción.
Validar con ejecuciones manuales antes de activar triggers automáticos.
Mantener un historial de versiones del workflow.

Resumen: criterios para decidir

Automatizar	No automatizar
Notificaciones ante problemas con contexto enriquecido	Acciones correctivas sin validación humana
Creación de tickets con información de diagnóstico	Triggers en entornos sin cobertura completa
Análisis predictivo programado	Workflows complejos sin experiencia previa
Acciones de bajo riesgo repetitivas	Cualquier acción sin mecanismo de rollback

La automatización es una herramienta, no un objetivo. Antes de crear un workflow, pregúntate: ¿qué problema operativo concreto resuelve? ¿Qué pasa si falla o se dispara incorrectamente? ¿El equipo está preparado para mantenerlo?

Los Dynatrace Workflows bien diseñados reducen toil, aceleran la respuesta y mejoran la consistencia operativa. Los mal diseñados generan ruido, dependencias frágiles y falsa sensación de control. La diferencia está en la reflexión previa.

Referencias:

Documentación oficial de Dynatrace Workflows
Workflows Connectors — integraciones disponibles
Repositorio de ejemplos — templates y snippets de JavaScript

Autor

Tomas Pardellas

Ver todas las entradas