Cribl y el enrutamiento inteligente de telemetría: cómo reducir costes sin perder control

Imagina que tu equipo recibe cada día decenas de gigabytes de logs, métricas y trazas desde aplicaciones, Kubernetes, firewalls y servicios cloud. Todo acaba en Splunk, Elastic o Datadog. El problema no es que los datos lleguen: el problema es que todos llegan, sin filtrar, al destino más caro de tu stack. Los logs de health check, los eventos de debug que nadie consulta, las métricas de granularidad de segundos que solo necesitas en incidentes. Cada byte que se ingesta tiene un coste. Y ese coste escala. Aquí es donde entra Cribl, con una propuesta que no es magia pero sí tiene lógica: poner una capa inteligente entre tus fuentes de telemetría y tus plataformas de destino.

¿Qué es Cribl y qué problema intenta resolver?

Cribl es una plataforma pensada para gestionar el flujo de telemetría antes de que llegue a su destino final. El producto principal es Cribl Stream, el pipeline de observabilidad que actúa como esa capa intermedia. Junto a él, la suite incluye Cribl Lake (almacenamiento de telemetría de bajo coste) y Cribl Search (consulta federada sobre datos almacenados en cualquier destino). Para este artículo nos centraremos en Stream, que es donde reside el núcleo del enrutamiento inteligente.

Si alguna vez has trabajado con sistemas como Splunk, Elastic, Datadog o Grafana Cloud, sabrás que el coste de ingestión puede dispararse con facilidad. No solo por la cantidad de datos, sino porque no toda la telemetría tiene el mismo valor para todos los equipos o casos de uso.

El problema clásico es el siguiente: una organización recoge logs de aplicaciones, métricas de infraestructura, trazas distribuidas, eventos de seguridad y más. Todos esos datos se envían a una o varias plataformas para análisis, alertas o cumplimiento. Pero el volumen crece sin parar y, en muchos casos, se acaba pagando por almacenar datos que no aportan valor real o que solo interesa conservar parcialmente. La consecuencia: costes elevados y dificultad para mantener la escalabilidad.

Cribl Stream propone una capa intermedia, un enrutador inteligente que procesa la telemetría en tiempo real, transformando, filtrando y dirigiendo los datos justo donde tienen sentido, y en la cantidad adecuada. Así se reduce el volumen que llega a las herramientas finales, optimizando costes y mejorando la eficiencia operativa.

Un poco de contexto sobre quiénes son

Cribl fue fundada en 2018 por Clint Sharp y los hermanos Ledion y Dritan Bitincka, los tres ex-empleados de Splunk. Eso ya dice mucho: conocían desde dentro el modelo de negocio basado en volumen de ingestión, y construyeron precisamente una herramienta para reducirlo.

Splunk no tardó en reaccionar. En 2022 los demandó reclamando 155 millones de dólares por infracción de copyright y patentes. El juicio acabó en abril de 2024 con el tribunal declarando que el uso que Cribl hizo del software de Splunk para lograr interoperabilidad era fair use legítimo bajo la ley de copyright estadounidense. El jurado fijó los daños a pagar por Cribl en exactamente un dólar. Es probablemente el dólar más comentado del sector de la observabilidad ese año, y el episodio resume bien la tensión entre los grandes vendors y las herramientas que nacen para trabajar alrededor de ellos.

Hay otra historia menor pero que da pistas sobre la cultura interna de la empresa. Dos de los tres cofundadores son albaneses, y en la tradición cultural albanesa la cabra es símbolo de agilidad e independencia. Lo que empezó como un chiste interno entre los fundadores se convirtió en el elemento central de la identidad de empresa: su mascota oficial es una cabra llamada Ian —el sufijo de «Criblanians», que es como se llaman a sí mismos los empleados— y en las ofertas de trabajo de Cribl aparece como requisito deseable «amor por las cabras». Es una rareza que humaniza bastante a una startup que, por lo demás, se mueve en un espacio técnico muy serio. En octubre de 2023, Cribl alcanzó los 100 millones de dólares de ARR, siendo la cuarta empresa de infraestructura en lograrlo más rápido. Las cabras escalan montañas, como suelen recordar ellos mismos.

¿Cómo funciona Cribl Stream en la práctica?

Piensa en Cribl Stream como un embudo con filtros ajustables y múltiples salidas. Recibe telemetría de diversas fuentes —logs de servidores, métricas de Prometheus, trazas OpenTelemetry, eventos de seguridad— y permite aplicar reglas para decidir qué hacer con cada dato. Cuenta con más de 80 integraciones con fuentes y destinos, lo que lo convierte en una pieza razonablemente agnóstica dentro de cualquier stack.

Estas reglas pueden ser tan simples como descartar logs de debug en producción, o tan complejas como extraer campos específicos para enriquecer métricas o anonimizar información sensible antes de que salga de tu perímetro. También se pueden dividir flujos: enviar ciertos eventos a un sistema de análisis en tiempo real, otros a almacenamiento a largo plazo y algunos a una plataforma de seguridad, todo desde un único punto de control.

Además, Cribl Stream permite transformar formatos: convertir logs JSON a formatos más compactos, normalizar métricas o reestructurar trazas para que encajen con las expectativas de cada consumidor. Esta flexibilidad es clave para integrar diferentes tecnologías sin tener que adaptar cada productor o consumidor por separado.

Un ejemplo típico: una empresa que usa Elastic para logs y un sistema especializado para trazas. En lugar de enviar todo sin filtro a ambos, Cribl Stream recibe la telemetría, extrae solo los campos relevantes para Elastic, reduce la granularidad de ciertos logs y envía las trazas completas solo al sistema que las necesita. Los números documentados en casos de clientes reales hablan de reducciones de volumen del 36 al 50% en herramientas como Splunk o Elasticsearch, y de hasta un 88% en almacenamiento mediante deduplicación y compresión avanzada. En un caso concreto publicado por Cribl, comprimir métricas de 92 TB a 10 TB supuso un ahorro de 800.000 dólares anuales. Son cifras del propio vendor, hay que leerlas con ese contexto, pero la escala de ahorro es consistente con lo que reportan usuarios independientes en foros y conferencias de sector.

¿Cuándo tiene sentido usar Cribl y cuándo no?

No todas las organizaciones necesitan una capa como Cribl Stream. Si tu volumen de telemetría es pequeño o manejable, o si tu proveedor de observabilidad no penaliza la ingestión, la complejidad adicional puede no compensar. Pero si trabajas en entornos con microservicios, arquitecturas distribuidas o múltiples fuentes de datos, y notas que los costes están creciendo sin control, Cribl puede ser una herramienta que marque la diferencia.

También es especialmente útil cuando tienes requisitos de privacidad o cumplimiento que obligan a filtrar o anonimizar datos antes de almacenarlos o enviarlos a terceros. La capacidad de aplicar esas transformaciones en tiempo real, sin tocar la fuente ni el destino, es un plus que no siempre ofrecen otras soluciones.

Sin embargo, no es una bala de plata. Añadir una capa intermedia implica gestionar otra pieza de infraestructura más y aprender su modelo de configuración. Si tu equipo no tiene capacidad para mantenerla o si los flujos de telemetría son muy sencillos, puede que la inversión no justifique el ahorro. Además, Cribl Stream no reemplaza a las plataformas de observabilidad: es un complemento para optimizar cómo y qué datos llegan a ellas.

¿Qué aporta Cribl frente a otras alternativas?

Hay otras formas de controlar la telemetría: ajustar la instrumentación en origen, aplicar retención agresiva en la plataforma final, o usar reglas nativas de filtrado. Pero estas opciones tienen sus límites. Modificar la instrumentación puede ser costoso y propenso a errores; las retenciones agresivas implican perder datos valiosos; y las reglas nativas no siempre son suficientemente flexibles o centralizadas.

Cribl Stream destaca por centralizar el control del flujo de datos, con una interfaz que facilita la creación y prueba de reglas sin tocar código fuente ni configurar cada fuente individualmente. Además, su arquitectura está diseñada para escalar horizontalmente y manejar grandes volúmenes con baja latencia, lo que es crucial en entornos de alta demanda.

En la práctica, esto se traduce en una reducción de costes que puede ser significativa, especialmente para empresas que ya han alcanzado cierto nivel de madurez en observabilidad y necesitan refinar sus flujos para ser más eficientes. También mejora la gobernanza de datos, porque tienes un punto único donde aplicar políticas de privacidad o retención, independientemente de cuántos destinos tengas.

Conclusión: ¿vale la pena introducir Cribl en tu stack?

Si te sientes atrapado en la espiral de costes crecientes por telemetría y buscas una forma de racionalizar el flujo de datos sin perder visibilidad, Cribl Stream merece una mirada seria. No es una solución para todo el mundo, pero su enfoque de enrutamiento inteligente y transformación en tiempo real puede ser justo lo que necesitas para pasar de «más datos, más problemas» a «más datos, mejor uso».

Como con cualquier herramienta, el éxito depende de entender bien tus necesidades, volúmenes y casos de uso, y de contar con el equipo preparado para gestionar esta capa adicional. Cribl ofrece un nivel gratuito hasta 1 TB/día que permite probar en entornos reales sin coste inicial, lo cual facilita hacer una evaluación honesta antes de comprometerse.

Para seguir aprendiendo

Documentación oficial de Cribl Stream: https://docs.cribl.io — la fuente primaria para entender la arquitectura, los procesadores disponibles y los casos de uso soportados.

Cribl Telemetry Trends Report: informe anual con datos reales de uso de clientes de Cribl Cloud, incluyendo patrones de destino, volúmenes y tendencias del sector hacia arquitecturas multi-destino. Disponible en https://cribl.io/resources/rpt/telemetry-trends-insights-unveiled/

«Observability Engineering» de Charity Majors, Liz Fong-Jones y George Miranda (O’Reilly, 2022): para entender el contexto más amplio de la gestión eficiente de telemetría y por qué el volumen de datos es un problema de diseño, no solo de presupuesto.

Especificación OpenTelemetry: https://opentelemetry.io/docs/ — conocer los estándares de generación y consumo de telemetría ayuda a entender dónde encaja una capa como Cribl dentro de un pipeline moderno.

«Logging and Log Management» de Anton Chuvakin y Kevin Schmidt (Syngress, 2012): un clásico para entender la gestión de logs desde sus fundamentos. La parte sobre herramientas específicas está desactualizada, pero el razonamiento sobre estrategia de logs sigue siendo válido.

Autor

Tomas Pardellas

Ver todas las entradas