Novedades Observabilidad: semana del 10/05/2026 al 17/05/2026

Resumen semanal del ecosistema cloud-native y SRE: OpenTelemetry, CNCF y SRE Weekly. Artículos y contenidos originales en inglés resumidos en español para facilitar el seguimiento de novedades, releases y tendencias del sector sin depender de ningún vendor concreto.

CNCF Blog

Extending AI gateways with Rust: Custom transformations in agentgateway and kgateway

Publicado el 2026-05-15 — Leer artículo completo en CNCF Blog

Tutorial técnico completo sobre cómo extender gateways de IA (agentgateway y kgateway) mediante módulos dinámicos de Envoy escritos en Rust. El artículo explica paso a paso cómo construir transformaciones personalizadas que los filtros predefinidos del gateway no cubren: añadir headers basados en consultas a bases de datos, transformar cuerpos de petición de forma arbitraria, o implementar lógica de negocio específica que ningún producto comercial puede anticipar.

El tutorial es completamente práctico y reproducible: usa kind para crear un clúster local de Kubernetes, despliega kgateway (plano de control) y agentgateway (plano de datos especializado en IA), y utiliza httpbun como LLM simulado para evitar costes de APIs reales. La arquitectura completa se ejecuta en un portátil sin necesidad de credenciales cloud. El código Rust se compila en una biblioteca compartida (.so) que Envoy carga en tiempo de ejecución, permitiendo modificar headers, parsear y transformar JSON, y aplicar plantillas Jinja a prompts de forma dinámica.

Especialmente útil para ingenieros de plataforma y SREs que necesiten personalizar gateways de IA más allá de las políticas estándar (autenticación, rate limiting, routing). El artículo documenta problemas comunes (incompatibilidades de versiones del SDK de Envoy, formato de filter_config con protobuf) y proporciona el código completo en GitHub. Requiere conocimientos básicos de Kubernetes y Docker; no es necesaria experiencia previa en Rust.

When AI agents become contributors: How KubeStellar reached 81% PR acceptance

Publicado el 2026-05-14 — Leer artículo completo en CNCF Blog

El mantenedor principal de KubeStellar Console (proyecto CNCF Sandbox para gestión multi-cluster de Kubernetes) documenta su experiencia construyendo el proyecto desde cero utilizando agentes de IA como colaboradores autónomos. Tras cuatro meses de trabajo, el proyecto alcanzó un 81% de aceptación de pull requests generados por IA, con correcciones de bugs en ~30 minutos y nuevas funcionalidades implementadas en ~1 hora.

La clave del éxito no fue el modelo de IA utilizado, sino la infraestructura de medición y feedback construida alrededor: 63 workflows de CI/CD, 32 suites de pruebas nocturnas ejecutadas en paralelo, y cobertura del 91%. El autor identifica cinco niveles de madurez progresivos: documentar criterios de rechazo en archivos de instrucciones, tratar las pruebas como capa de confianza (no solo corrección), automatizar solo después de poder medir, dejar que el código se convierta en el manual operativo, y preguntar «por qué» en lugar de «qué» para generar mejoras sistémicas. El punto crítico: los tests flaky (que fallan intermitentemente) son tolerables en workflows humanos pero destructivos en sistemas autónomos, donde erosionan silenciosamente el modelo de confianza.

Especialmente relevante para mantenedores de proyectos open source que enfrentan burnout: el artículo sugiere que codificar suficiente juicio del mantenedor en el código permite que agentes manejen triaje y generen PRs, convirtiendo al mantenedor en arquitecto del sistema en lugar de operador diario. El determinismo en las pruebas emerge como requisito no negociable para cualquier workflow autónomo.

Building a cloud native platform from the ground up with Kairos, k0rdent, and bindy

Publicado el 2026-05-13 — Leer artículo completo en CNCF Blog

RBC Capital Markets explica cómo construyó su plataforma Kubernetes para gestionar más de 50 clusters en entornos híbridos (VMware on-premises y múltiples nubes) bajo requisitos regulatorios estrictos (SOX, PCI-DSS, Basel III). El caso de uso es especialmente relevante para instituciones financieras y entornos regulados donde la auditabilidad y la prevención de deriva de configuración son requisitos de cumplimiento, no solo operativos.

La arquitectura combina tres proyectos CNCF Sandbox: Kairos para nodos inmutables basados en imágenes OCI (cada nodo arranca desde una imagen versionada, eliminando la deriva de configuración), k0rdent construido sobre Cluster API para gestionar el ciclo de vida completo de clusters de forma declarativa usando k0s como distribución de Kubernetes, y bindy, un operador desarrollado internamente en Rust que convierte zonas y registros DNS en CRDs reconciliados por GitOps, eliminando colas de tickets manuales para cambios de DNS en su infraestructura Infoblox. Todo orquestado por FluxCD como plano único de reconciliación.

El artículo detalla lecciones aprendidas: la integración de sistemas operativos inmutables con infraestructura empresarial (SSSD, Active Directory, NetworkManager) requiere iteración cuidadosa; la gestión de clusters basada en CRDs traslada responsabilidad hacia la izquierda y exige procesos de revisión robustos; y construir operadores en Rust con kube-rs es viable pero requiere decisiones arquitectónicas deliberadas para patrones multi-controlador. Especialmente útil para equipos de plataforma que buscan eliminar estado manual y convertir infraestructura completa en código reconciliado continuamente.

A decade of governance: Cloud Custodian at 10 and its role in the agentic AI era

Publicado el 2026-05-12 — Leer artículo completo en CNCF Blog

Cloud Custodian, proyecto incubado en la CNCF, cumple 10 años como motor de políticas para gestionar entornos cloud públicos, Kubernetes e infraestructura como código. El artículo, escrito por su creador Kapil Thangavelu, explica cómo esta herramienta de gobernanza ha pasado de ser un simple gestor de recursos cloud a convertirse en una capa crítica de seguridad y optimización de costes en la era de la IA agéntica (agentic AI), donde agentes autónomos generan y despliegan código de infraestructura sin intervención humana directa.

La relevancia actual de Cloud Custodian radica en su capacidad para aplicar barreras de seguridad automatizadas en tiempo real sobre recursos generados por IA: flotas de GPUs, endpoints de modelos, pipelines de entrenamiento. Estos workloads no solo amplían la superficie de ataque, sino que representan una exposición económica significativamente mayor. El proyecto ofrece un DSL unificado para definir políticas declarativas de FinOps, seguridad y cumplimiento normativo en AWS, Azure, GCP, Oracle Cloud y Kubernetes, actuando como red de seguridad cuando el código se despliega más rápido de lo que los humanos pueden revisarlo.

Interesará especialmente a equipos de plataforma, SREs y arquitectos de cloud que necesiten gobernanza automatizada en entornos multi-cloud o que estén evaluando cómo controlar infraestructura generada por herramientas de IA. El artículo incluye enlaces a la documentación oficial en cloudcustodian.io y al repositorio en GitHub para quienes quieran contribuir o implementar políticas de remediación personalizadas.

How to get engineering time back from Kubernetes upgrades

Publicado el 2026-05-11 — Leer artículo completo en CNCF Blog

Este artículo de Fairwinds analiza el coste real —en tiempo de ingeniería— de mantener Kubernetes actualizado. Según datos citados, en despliegues EKS de tamaño medio, una actualización menor en tres regiones consume entre 4 y 6 semanas de esfuerzo y retrasa 2-3 funcionalidades del roadmap. El informe de Komodor 2025 señala que los equipos pierden aproximadamente 34 días laborables al año resolviendo incidentes de Kubernetes, y más del 80% de los incidentes de producción están relacionados con cambios recientes en el sistema.

El artículo argumenta que las actualizaciones, parches de seguridad y gestión de add-ons compiten directamente con el desarrollo de producto. Cita que el 87% de las bases de código comerciales contienen al menos una vulnerabilidad (Black Duck 2026), lo que hace que posponer actualizaciones no sea una opción viable. La propuesta es replantear la pregunta: en lugar de «¿gestionamos Kubernetes nosotros mismos?», considerar cuánto tiempo de ingeniería senior se está dedicando a tareas donde el mejor resultado es que nadie note el trabajo realizado.

Interesa especialmente a líderes de ingeniería y SREs que evalúan el equilibrio entre plataforma interna y servicios gestionados. El tono es claramente favorable a externalizar la gestión de Kubernetes (el autor trabaja en Fairwinds, proveedor de servicios gestionados), pero los datos sobre costes operativos y sobreasignación de recursos (más del 65% de workloads usando menos de la mitad de CPU/memoria solicitada) son relevantes independientemente de la solución elegida.

SRE Weekly

SRE Weekly Issue #516

Publicado el 2026-05-11 — Leer artículo completo en SRE Weekly

Esta edición de SRE Weekly reúne varios artículos destacados sobre IA en operaciones, cultura de incidentes y debugging de rendimiento. En el tema de inteligencia artificial, se incluyen dos perspectivas contrapuestas: una visión equilibrada sobre qué puede aportar realmente la IA a los equipos SRE en 2026 (con optimismo pero también escepticismo saludable), y un análisis crítico sobre lo que queda «sobrante» para los humanos cuando automatizamos la respuesta a incidentes—argumentando que cada avance en IA deja escenarios cada vez más complejos para humanos cada vez menos preparados.

En cultura de incidentes, destaca un artículo sobre «blamelessness superficial» que advierte: no basta con evitar nombrar culpables; si tu proceso post-incidente sigue enfocándose en individuos en lugar de en el sistema, sigues sesgado. También se incluye una reflexión contundente sobre propiedad del código generado por IA: no importa quién lo escribió, si llevas el localizador de guardia, eres responsable. Un caso real ilustra los riesgos: un agente de IA (Claude vía Cursor) borró una base de datos completa en 9 segundos, incluyendo todos los backups por el comportamiento de Railway.

En el apartado técnico, Datadog comparte cómo redujeron la latencia de consultas en más del 99% optimizando el uso de índices (no basta con que la query use un índice, tiene que usarlo bien), y Pinterest documenta un caso de debugging de cuellos de botella de CPU causados por «procesos zombi» relacionados con cgroups. Para quienes empiezan guardias, hay un artículo reconfortante sobre diez cosas de las que no preocuparse en on-call.

Este resumen se genera semanalmente de forma automática a partir de los feeds RSS oficiales de cada fuente. Los artículos originales son propiedad de sus respectivos autores. Los enlaces apuntan siempre a la fuente original.

Autor

Tomas Pardellas

Ver todas las entradas