Alertas basadas en señales: más información, menos ruido

Un equipo SRE(Site Reliability Engineering (Ingeniería de Fiabilidad del Sitio)) recibe 47 alertas en una hora. Todas parecen urgentes. El sistema de ticketing colapsa, los canales de Slack arden, y cuando finalmente se identifica el problema real —una degradación en la capa de persistencia— ya han pasado 23 minutos desde la primera señal relevante. Las … Leer más

DQL como herramienta de investigación: criterio y patrones para SREs

Cuando un SRE experimentado se enfrenta a un incidente crítico en producción, la diferencia entre resolver el problema en cinco minutos o en dos horas suele estar en la capacidad de formular la pregunta correcta al sistema de observabilidad. En entornos con Dynatrace, esa pregunta se formula en DQL, el lenguaje de consulta que permite … Leer más

Golden Signals: aplicarlos sin complicar tu plataforma de monitorización

Imagina que recibes una alerta a las 3 de la mañana. El panel de monitoring muestra cientos de métricas en rojo, amarillo y naranja parpadeando. Después de veinte minutos buscando la causa real, resulta que el problema era simple: un servicio de pagos empezó a responder lento hace una hora. Todo lo demás eran consecuencias … Leer más

Smartscape de Dynatrace en profundidad: el mapa bonito que deberías usar más

Seré honesto desde el principio, porque así es como me gusta escribir: Smartscape es una de esas funcionalidades de Dynatrace que aparece en todas las demos, sale en todos los slides de ventas, y luego… en el día a día muchos equipos apenas la usan para buscar causa raíz o entender cómo está configurado el … Leer más

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies