sre – observasistemas

Gray failures: cuando nada está «caído» pero todo va mal

25 de julio de 2026 Tomas Pardellas

Un pod con 8 GB de heap Java lleva tres días subiendo su consumo de memoria un par de puntos porcentuales cada hora. El liveness probe lo comprueba cada diez segundos y siempre recibe la misma respuesta: 200, cuarenta milisegundos. Ese proceso está, a todos los efectos que mide Kubernetes, perfectamente sano. Pero cuando ese … Leer más

Percentiles (p95, p99): lo que de verdad significan y cuándo mienten

15 de julio de 2026 Tomas Pardellas

El dashboard dice que el tiempo de respuesta medio de una API es de 180 ms. Todo en verde. Al mismo tiempo, el canal de soporte se llena de mensajes de usuarios diciendo que la aplicación «va a tirones» o que «a veces se queda pillada». Nadie miente: ambas cosas son ciertas a la vez, … Leer más

Novedades Observabilidad: semana del 28/06/2026 al 05/07/2026

5 de julio de 2026 Tomas Pardellas

Resumen semanal del ecosistema cloud-native y SRE: OpenTelemetry, CNCF y SRE Weekly. Artículos y contenidos originales en inglés resumidos en español para facilitar el seguimiento de novedades, releases y tendencias del sector sin depender de ningún vendor concreto. CNCF Blog How data sovereignty is changing cloud native infrastructure design Publicado el 2026-07-03 — Leer artículo … Leer más

Novedades Observabilidad: semana del 07/06/2026 al 14/06/2026

14 de junio de 2026 Tomas Pardellas

Resumen semanal del ecosistema cloud-native y SRE: OpenTelemetry, CNCF y SRE Weekly. Artículos y contenidos originales en inglés resumidos en español para facilitar el seguimiento de novedades, releases y tendencias del sector sin depender de ningún vendor concreto. CNCF Blog Securing CI/CD for an open source project: Locking down dependencies Publicado el 2026-06-12 — Leer … Leer más