7 Libros Recomendados para Responsables de Observabilidad y Monitorización de Sistemas

Una buena lista de lectura es una de las inversiones más rentables que puede hacer alguien que trabaja en observabilidad y monitorización de sistemas. Los conceptos fundamentales no caducan, y los libros que aparecen en esta lista siguen siendo igual de válidos hoy que cuando se publicaron. Lo que sí ha cambiado desde que se escribió este artículo por primera vez es que el ecosistema ha madurado mucho, OpenTelemetry se ha convertido en el estándar de facto, y hay títulos nuevos que merecen estar aquí.

A continuación encontrarás los siete libros originales, que siguen siendo referencia en 2026, seguidos de tres incorporaciones nuevas que reflejan hacia dónde ha evolucionado la disciplina.

Los clásicos que siguen siendo referencia

1. Linux Observability with BPF

David Calavera y Lorenzo Fontana

Un recurso imprescindible para quienes trabajan en sistemas Linux y quieren entender BPF (Berkeley Packet Filter) a nivel práctico. Cubre desde el análisis de rendimiento hasta la red, con ejemplos reales de cómo usar BPF para mejorar la visibilidad del sistema sin modificar el código de las aplicaciones. Con la explosión de eBPF en herramientas como Cilium, Pixie o Falco, entender los fundamentos de BPF es más relevante ahora que cuando se publicó.

2. Kubernetes Security and Observability

Brendan Creane y Amit Gupta

Ideal para quienes trabajan con Kubernetes y necesitan un enfoque holístico que combine seguridad y observabilidad. Aborda la instrumentación de aplicaciones nativas de la nube, la visibilidad de la red en entornos de contenedores y las estrategias de detección de anomalías a nivel de clúster. Sigue siendo uno de los libros más completos sobre este tema específico.

3. Observability Engineering: Achieving Production Excellence

Charity Majors, Liz Fong-Jones y George Miranda

El libro de referencia sobre observabilidad moderna. Explica por qué la monitorización tradicional basado en métricas y umbrales es insuficiente para sistemas distribuidos complejos, y cómo construir sistemas genuinamente observables a partir de eventos estructurados, trazas distribuidas y un enfoque diferente de las alertas. Es el libro que más ha influido en cómo la industria entiende la observabilidad en los últimos años. Buena noticia: están preparando una segunda edición para 2026, con 32 capítulos nuevos que cubrirán coste, gobernanza e IA aplicada a la observabilidad.

4. The Art of Monitoring

James Turnbull

Un recurso detallado sobre monitoreo moderno que cubre desde la filosofía hasta la implementación práctica con herramientas como Graphite, Collectd y Nagios. Aunque algunas de las herramientas concretas han evolucionado, los principios de diseño de un sistema de monitoreo que expone aquí siguen siendo completamente aplicables.

5. Site Reliability Engineering: How Google Runs Production Systems

Niall Richard Murphy, Betsy Beyer, Chris Jones y Jennifer Petoff (eds.)

El libro que popularizó el concepto de SRE fuera de Google. Una colección de ensayos escritos por los propios ingenieros que construyeron y operan los sistemas de Google, cubriendo desde la gestión de errores presupuestados (error budgets) hasta la gestión de guardias y postmortems. Disponible gratuitamente en la web de Google. Casi una década después de su publicación, sigue siendo la referencia que todo el mundo cita cuando habla de SRE.

6. Prometheus: Up & Running

Brian Brazil

La guía de referencia para Prometheus, que en 2026 sigue siendo una de las herramientas de monitoreo y alertas más utilizadas, especialmente en entornos Kubernetes. Cubre desde la arquitectura básica hasta el diseño de métricas, las queries con PromQL y la configuración de Alertmanager. Existe una segunda edición actualizada que vale la pena buscar si aún no la tienes.

7. Building Secure & Reliable Systems

Heather Adkins, Betsy Beyer, Paul Blankinship, Piotr Lewandowski, Ana Oprea y Adam Stubblefield

El complemento natural del libro de SRE de Google, con foco en la intersección entre seguridad y fiabilidad. Cubre el diseño de sistemas resistentes, la gestión de incidentes con implicaciones de seguridad y las prácticas recomendadas para construir cultura de seguridad en equipos de ingeniería. También disponible gratuitamente en la web de Google.

Incorporaciones para 2024-2026: lo que no estaba en la lista original

8. Learning OpenTelemetry

Ted Young y Austin Parker — O’Reilly, 2024

Si hay un tema que ha dominado la conversación en observabilidad desde 2023 es OpenTelemetry, y este es el libro de referencia. Escrito por dos de los cofundadores del proyecto, cubre no solo el cómo sino el porqué: qué problema resuelve OTel, cómo encajan sus componentes (APIs, SDKs, Collector, OTLP) y cómo desplegarlo y operarlo en organizaciones reales. La apuesta de fondo del libro es que OpenTelemetry es el estándar que unifica trazas, métricas y logs en un solo pipeline coherente, eliminando la dependencia de instrumentación propietaria de cada vendor. Para quien trabaja con Dynatrace o cualquier otra plataforma de observabilidad, entender OTel es cada vez más necesario, porque es el mecanismo por el que los datos llegan a la plataforma.

9. Mastering OpenTelemetry and Observability

Steve Flanders — Wiley, noviembre 2024

Un nivel por encima del anterior en cuanto a profundidad técnica. Flanders es uno de los miembros fundadores del proyecto OpenTelemetry y director de ingeniería en Splunk, y el libro refleja esa experiencia en entornos enterprise. Cubre la especificación de OTel en detalle, la gestión del Collector, la instrumentación avanzada, los antipatrones comunes y la observabilidad a escala. Muy recomendable si ya tienes los conceptos básicos claros y quieres ir más a fondo en implementación real.

10. Observability with Grafana

Rob Chapman — Packt, 2024

A diferencia de los anteriores, este cubre el stack LGTM completo: Loki (logs), Grafana (visualización), Tempo (trazas) y Mimir (métricas a escala). Es el libro que faltaba para quien quiere implementar observabilidad de extremo a extremo con herramientas open source sin depender de una plataforma SaaS cerrada. Incluye integración con Kubernetes, AWS, Azure y GCP, uso de OpenTelemetry como capa de instrumentación, y configuración de alertas con asistencia de IA dentro de Grafana. Si tienes o quieres montar un stack de observabilidad propio en tu infraestructura, este libro es el punto de partida más práctico disponible ahora mismo.

Una nota para terminar

Tres años en tecnología son muchos. La lista original de 2023 sigue siendo válida, pero el paisaje ha cambiado: OpenTelemetry ha pasado de proyecto prometedor a estándar real que la mayoría de plataformas ya soportan de forma nativa, el stack de Grafana ha madurado hasta convertirse en una alternativa seria a las plataformas comerciales, y la observabilidad ha entrado de lleno en la conversación sobre IA y coste operativo.

Si solo puedes leer uno nuevo, empieza por Learning OpenTelemetry. Si ya tienes los fundamentos y trabajas con infraestructura propia, añade Observability with Grafana. Y si te dedicas a esto profesionalmente a nivel enterprise, Mastering OpenTelemetry and Observability te va a dar la profundidad técnica que los otros no tienen.

Autor

Tomas Pardellas

Ver todas las entradas