Una buena lista de lectura es una de las inversiones más rentables que puede hacer alguien que trabaja en observabilidad y monitorización de sistemas. Los conceptos fundamentales no caducan, y los libros que aparecen en esta lista siguen siendo igual de válidos hoy que cuando se publicaron. Lo que sí ha cambiado desde que se escribió este artículo por primera vez es que el ecosistema ha madurado mucho, OpenTelemetry se ha convertido en el estándar de facto, y hay títulos nuevos que merecen estar aquí.
A continuación encontrarás los siete libros originales, que siguen siendo referencia en 2026, seguidos de tres incorporaciones nuevas que reflejan hacia dónde ha evolucionado la disciplina.
Los clásicos que siguen siendo referencia
1. Linux Observability with BPF
David Calavera y Lorenzo Fontana
Un recurso imprescindible para quienes trabajan en sistemas Linux y quieren entender BPF (Berkeley Packet Filter) a nivel práctico. Cubre desde el análisis de rendimiento hasta la red, con ejemplos reales de cómo usar BPF para mejorar la visibilidad del sistema sin modificar el código de las aplicaciones. Con la explosión de eBPF en herramientas como Cilium, Pixie o Falco, entender los fundamentos de BPF es más relevante ahora que cuando se publicó.
2. Kubernetes Security and Observability
Brendan Creane y Amit Gupta
Ideal para quienes trabajan con Kubernetes y necesitan un enfoque holístico que combine seguridad y observabilidad. Aborda la instrumentación de aplicaciones nativas de la nube, la visibilidad de la red en entornos de contenedores y las estrategias de detección de anomalías a nivel de clúster. Sigue siendo uno de los libros más completos sobre este tema específico.
3. Observability Engineering: Achieving Production Excellence
Charity Majors, Liz Fong-Jones y George Miranda
El libro de referencia sobre observabilidad moderna. Explica por qué la monitorización tradicional basado en métricas y umbrales es insuficiente para sistemas distribuidos complejos, y cómo construir sistemas genuinamente observables a partir de eventos estructurados, trazas distribuidas y un enfoque diferente de las alertas. Es el libro que más ha influido en cómo la industria entiende la observabilidad en los últimos años. Buena noticia: están preparando una segunda edición para 2026, con 32 capítulos nuevos que cubrirán coste, gobernanza e IA aplicada a la observabilidad.
4. The Art of Monitoring
James Turnbull
Un recurso detallado sobre monitoreo moderno que cubre desde la filosofía hasta la implementación práctica con herramientas como Graphite, Collectd y Nagios. Aunque algunas de las herramientas concretas han evolucionado, los principios de diseño de un sistema de monitoreo que expone aquí siguen siendo completamente aplicables.
5. Site Reliability Engineering: How Google Runs Production Systems
Niall Richard Murphy, Betsy Beyer, Chris Jones y Jennifer Petoff (eds.)
El libro que popularizó el concepto de SRE fuera de Google. Una colección de ensayos escritos por los propios ingenieros que construyeron y operan los sistemas de Google, cubriendo desde la gestión de errores presupuestados (error budgets) hasta la gestión de guardias y postmortems. Disponible gratuitamente en la web de Google. Casi una década después de su publicación, sigue siendo la referencia que todo el mundo cita cuando habla de SRE.
6. Prometheus: Up & Running
Brian Brazil
La guía de referencia para Prometheus, que en 2026 sigue siendo una de las herramientas de monitoreo y alertas más utilizadas, especialmente en entornos Kubernetes. Cubre desde la arquitectura básica hasta el diseño de métricas, las queries con PromQL y la configuración de Alertmanager. Existe una segunda edición actualizada que vale la pena buscar si aún no la tienes.
7. Building Secure & Reliable Systems
Heather Adkins, Betsy Beyer, Paul Blankinship, Piotr Lewandowski, Ana Oprea y Adam Stubblefield
El complemento natural del libro de SRE de Google, con foco en la intersección entre seguridad y fiabilidad. Cubre el diseño de sistemas resistentes, la gestión de incidentes con implicaciones de seguridad y las prácticas recomendadas para construir cultura de seguridad en equipos de ingeniería. También disponible gratuitamente en la web de Google.
Incorporaciones para 2024-2026: lo que no estaba en la lista original
8. Learning OpenTelemetry
Ted Young y Austin Parker — O’Reilly, 2024
Si hay un tema que ha dominado la conversación en observabilidad desde 2023 es OpenTelemetry, y este es el libro de referencia. Escrito por dos de los cofundadores del proyecto, cubre no solo el cómo sino el porqué: qué problema resuelve OTel, cómo encajan sus componentes (APIs, SDKs, Collector, OTLP) y cómo desplegarlo y operarlo en organizaciones reales. La apuesta de fondo del libro es que OpenTelemetry es el estándar que unifica trazas, métricas y logs en un solo pipeline coherente, eliminando la dependencia de instrumentación propietaria de cada vendor. Para quien trabaja con Dynatrace o cualquier otra plataforma de observabilidad, entender OTel es cada vez más necesario, porque es el mecanismo por el que los datos llegan a la plataforma.
9. Mastering OpenTelemetry and Observability
Steve Flanders — Wiley, noviembre 2024
Un nivel por encima del anterior en cuanto a profundidad técnica. Flanders es uno de los miembros fundadores del proyecto OpenTelemetry y director de ingeniería en Splunk, y el libro refleja esa experiencia en entornos enterprise. Cubre la especificación de OTel en detalle, la gestión del Collector, la instrumentación avanzada, los antipatrones comunes y la observabilidad a escala. Muy recomendable si ya tienes los conceptos básicos claros y quieres ir más a fondo en implementación real.
10. Observability with Grafana
Rob Chapman — Packt, 2024
A diferencia de los anteriores, este cubre el stack LGTM completo: Loki (logs), Grafana (visualización), Tempo (trazas) y Mimir (métricas a escala). Es el libro que faltaba para quien quiere implementar observabilidad de extremo a extremo con herramientas open source sin depender de una plataforma SaaS cerrada. Incluye integración con Kubernetes, AWS, Azure y GCP, uso de OpenTelemetry como capa de instrumentación, y configuración de alertas con asistencia de IA dentro de Grafana. Si tienes o quieres montar un stack de observabilidad propio en tu infraestructura, este libro es el punto de partida más práctico disponible ahora mismo.
Una nota para terminar
Tres años en tecnología son muchos. La lista original de 2023 sigue siendo válida, pero el paisaje ha cambiado: OpenTelemetry ha pasado de proyecto prometedor a estándar real que la mayoría de plataformas ya soportan de forma nativa, el stack de Grafana ha madurado hasta convertirse en una alternativa seria a las plataformas comerciales, y la observabilidad ha entrado de lleno en la conversación sobre IA y coste operativo.
Si solo puedes leer uno nuevo, empieza por Learning OpenTelemetry. Si ya tienes los fundamentos y trabajas con infraestructura propia, añade Observability with Grafana. Y si te dedicas a esto profesionalmente a nivel enterprise, Mastering OpenTelemetry and Observability te va a dar la profundidad técnica que los otros no tienen.