Observabilidad sin Datadog: la stack alternativa que cabe en el presupuesto

Datadog cobra US$15-31/host/mes. Para startup con 5 servidores, eso se vuelve R$1k/mes solo de monitoring. La stack auto-hospedada llega al mismo lugar por R$50.

Equipo HeroCtl··14 min· Leer en portugués →

La primera factura de Datadog que supera los cuatro dígitos en real suele llegar en un momento previsible. El equipo deploya un par de servicios más, el auto-discovery del agente pasa a contar containers como hosts facturables, alguien activa APM en el backend Node, otro alguien activa RUM en el frontend para investigar lentitud de página, y al cierre del mes la tarjeta de la empresa es debitada en casi R$2 mil. El fundador mira la planilla, suma con Vercel, suma con base gestionada, suma con S3, y descubre que la infraestructura — antes una línea discreta en el presupuesto — ahora come el equivalente a medio salario sénior por mes.

La reacción dominante es apretar los dientes y pagar. Datadog es, sin ironía, el mejor producto del mercado en observabilidad. Los dashboards son bonitos, las integraciones funcionan de primera, el APM muestra la query lenta con profundidad que pocos competidores alcanzan, el alerting es flexible lo suficiente para modelar políticas de SLO sin volverse proyecto interno. Para empresa Series B con ingresos arriba de US$5 millones anuales, la cuenta de US$2 mil o US$5 mil es despreciable frente al tiempo de ingeniería que ella compra. La elección es racional.

Para startup brasileña de cinco a diez servidores, facturando entre R$30 mil y R$500 mil al mes, la misma elección es financieramente devastadora. Este post mapea la alternativa concreta — qué herramientas usar, en qué servidor correr, cuánto consume de RAM, cuánto cuesta en almacenamiento — para entregar el 95% del mismo resultado por cerca del 10% del precio.

Por qué Datadog ganó el mercado

No se puede hablar honestamente sobre alternativas sin explicar primero por qué el líder está donde está. Quien ya operó observabilidad en alguna escala lo sabe: la versión "móntalo tú mismo" siempre existió, y aun así Datadog creció a US$2 mil millones de ingresos anuales. Hay razones reales para eso.

La primera es que la UX clavó un estándar. Cuando abres un dashboard de Datadog por primera vez, la jerarquía de información tiene sentido al instante — host map, service map, traces, logs, todo conectado por enlaces que cruzan los contextos sin fricción. Quien operó observabilidad en los años 2010 con Nagios, Cacti y Munin sabe que eso no es gratuito. Fue ingeniería de producto cara, durante una década.

La segunda es la biblioteca de integraciones. Postgres, MySQL, Redis, Kafka, RabbitMQ, ElasticSearch, Mongo, Cassandra, decenas de proveedores cloud, más de seiscientos targets listos. Cada integración viene con dashboard estándar razonable, alertas sugeridas, métricas relevantes recolectadas sin que tengas que leer documentación oscura.

La tercera es el APM accurate. Los tracers oficiales para los lenguajes populares hacen instrumentación automática que captura el nivel correcto de detalle. La query lenta en Postgres aparece con plan de ejecución. El endpoint p99 lento aparece con la stack trace que causó la lentitud. Ese nivel de visibilidad exige inversión continua en cada runtime.

La cuarta es el alerting flexible. Threshold simple es fácil en cualquier herramienta. Alerting que entiende estacionalidad, que cruza múltiples series, que aplica anomaly detection en series escasas — eso Datadog lo hace bien porque invirtió una década calibrando.

Para empresa que puede pagar, contratar Datadog es la decisión correcta. Para ti que no puedes, vale la pena entender exactamente dónde la factura explota antes de buscar alternativa.

Los cuatro vectores donde la factura explota

La página de precios de Datadog parece civilizada cuando la miras de lejos. US$15 por host por mes en la entrada, US$23 en el plan profesional, US$31 en el plan empresa. Cinco hosts por US$23 da US$115 — barato. El problema es que esa no es la factura que llega.

Cobranza por host con containers contando como hosts. En algunos planes, cada container cuenta como host adicional para fines de billing. La startup que corre cuatro servicios en tres réplicas en tres servidores piensa que tiene tres hosts — pero la factura cuenta treinta y seis puntos de telemetría. La política cambió varias veces en los últimos años e incluso quien lee la documentación atenta yerra la estimación.

Custom metrics cobradas por métrica por minuto. Cada métrica customizada por encima del límite incluido tiene costo individual. Un equipo bien intencionado agrega métricas de negocio — pedidos por minuto, valor promedio del carrito, conversión por embudo — y la factura sube US$50, US$100, US$300 dependiendo de la cardinalidad de los tags. Cardinalidad alta en métricas customizadas es la tarifa silenciosa que nadie prevé.

APM Pro como upsell. El APM básico viene incluido, pero las features que efectivamente quieres usar — continuous profiler, code-level visibility, deployment tracking, retención extendida de traces — están en el APM Pro, con precio adicional por host.

Logs ingestion más retention extra. El precio de logs es en dos dimensiones: ingesta (cuánto entra) y retención (por cuánto tiempo queda). Cinco servidores generando 1 GB de log por día ingieren 150 GB por mes. Retener 30 días es una franja de precio; retener 90 días es otra; retener un año es otra. Y búsqueda en logs antiguos cuesta por consulta en algunos planes.

Suma Network Performance Monitoring, Real User Monitoring, Database Monitoring, Synthetics, CI Visibility — cada uno es upsell encima de upsell. La cuenta final de una startup con cinco a diez servidores típicamente queda entre US$200 y US$400 al mes, o sea, R$1 mil a R$2 mil al cambio de R$5 por dólar. R$24 mil al año es el equivalente a un mes de salario de persona sénior.

La stack alternativa, con nombres específicos

La buena noticia: la industria open-source de observabilidad está madura hace tiempos. No es escenario de 2015 con Nagios y Munin. Las herramientas hoy cubren cada vertical con calidad real.

Métricas: Prometheus para recolección y almacenamiento, Grafana para visualización. La combinación tiene quince años de producción en miles de empresas, es el estándar de hecho, y la mayoría de las aplicaciones modernas ya expone métricas en formato compatible.

Logs: Loki, del mismo equipo que mantiene a Grafana. La sintaxis de consulta es parecida a la de Prometheus, lo que reduce la carga cognitiva de quien ya usa uno. Por GB almacenado, es típicamente 90% más barato que Datadog Logs porque indexa solo labels, no el contenido completo.

Traces: Tempo (Grafana) o Jaeger o SigNoz. Los tres hablan OpenTelemetry, así que la aplicación no queda acoplada a la elección. Tempo se integra más limpiamente a Grafana; Jaeger es el veterano con UI propia; SigNoz combina traces, métricas y logs en un producto único.

APM: SigNoz es el competidor directo más maduro hoy, con instrumentación OpenTelemetry-native. OpenObserve es alternativa más nueva con arquitectura moderna. Pyroscope cubre continuous profiling — el tipo de visibilidad de CPU y memoria que el APM Pro de Datadog vende caro.

Errores y excepciones: Sentry self-hosted es la opción robusta — misma herramienta que la versión SaaS, sin el costo. GlitchTip es alternativa más liviana, drop-in compatible con SDKs de Sentry, óptima para equipos pequeños.

Uptime monitoring: Uptime Kuma cubre el 95% de los casos con instalación de cinco minutos. Statping es alternativa similar.

Synthetic checks: Checkly tiene free tier generoso y cubre el caso "correr test en navegador de varias regiones" sin que necesites mantener infra de checks. Para quien prefiere homegrown, scripts Playwright en GitHub Actions resuelven.

La stack arriba cubre todos los verticales que Datadog vende. La pregunta honesta es dónde cada pieza queda debiendo en la comparación.

Qué hace cada componente y qué no hace

Prometheus y Grafana cubren el 90% de lo que dashboards de Datadog cubren. La diferencia real está en las integraciones: Datadog tiene integración de un clic para seiscientos targets, mientras que Prometheus típicamente exige escribir exporter o usar un exporter común — postgres_exporter, redis_exporter, blackbox_exporter, node_exporter. Para targets populares, esos exporters existen y son bien mantenidos. Para targets exóticos, escribes.

Loki cubre logs en el 95% de los casos web. El trade-off es la indexación: Loki indexa solo labels, no el contenido completo. Para búsqueda rica en logs con términos full-text complejos, ELK u OpenSearch entran mejor. Para búsqueda por servicio, host, nivel de log, status code — que es lo que el 95% de los equipos realmente hace — Loki es más barato y más simple.

SigNoz y Tempo cubren APM con calidad. El trade-off es pulido. El profile de query lenta en el Datadog APM tiene más shine — años de UX en las vistas que importan. SigNoz está cerca y mejora a cada release; en casos de uso comunes (endpoint lento, query lenta, error spike) cubre tranquilamente. Para investigación forense de profile de una transacción rara, Datadog todavía gana en refinamiento.

Sentry self-hosted es prácticamente idéntico a Sentry SaaS — mismo equipo mantiene los dos. Instalas el stack vía Docker Compose, pasas quince minutos configurando, y tienes rastreo de errores en producción. Cuesta cero en licencia y dos a cuatro horas al mes de mantenimiento.

La arquitectura concreta en una stack pequeña

Para una startup operando cinco a diez servidores, la arquitectura cabe en un único servidor de observabilidad dedicado. Cuatro gigabytes de RAM resuelven.

Servidor de observabilidad (4 GB RAM): Prometheus consume en torno a 1,5 GB con series de cinco a diez nodes. Grafana queda en 200 MB. Loki en 1 GB con retención razonable. Tempo en 500 MB. Sobra espacio para Alertmanager (50 MB) y algún exporter o collector adicional.

Storage para métricas: cinco servidores exponiendo cerca de 100 métricas por segundo cada uno, retenidas por 30 días, generan aproximadamente 10 GB de banco de series temporales. Disco SSD común da cuenta — típicamente R$30 al mes de almacenamiento adicional en la mayoría de los proveedores.

Storage para logs: cinco servidores produciendo 1 GB de log por día, retenidos por 30 días, son 150 GB. La solución barata es apuntar Loki a un backend compatible con S3 — Cloudflare R2 cobra US$0,015 por GB por mes sin tarifa de egress, o sea, US$2,25 al mes para 150 GB. Backblaze B2 es equivalente. AWS S3 funciona pero tiene egress que duele si vas a leer mucho; para observability, R2 o B2 son elección obvia.

Sampling en traces: trace de 100% suele ser desperdicio. Sampling de 1% a 5% para traces normales, 100% para traces que contienen error, 100% para endpoints específicos críticos. Reduce volumen en orden de magnitud sin perder la señal que importa.

Setup honesto: pasos sin copy-paste

La diferencia entre tutorial de blog y operación real es el conocimiento de dónde los pasos se rompen. Aquí va la secuencia que funciona, con las trampas reales.

Paso 1: Prometheus en container. Sube Prometheus apuntando el scrape config a los nodes que corren node_exporter. Cada nodo necesita node_exporter corriendo — también en container, puerto 9100. Configuración inicial son veinte líneas de YAML. Trampa: service discovery dinámico exige integración con la fuente verdadera de hosts. Para cluster pequeño, lista estática resuelve; para cluster que crece, integración con la API del orquestador.

Paso 2: Grafana en container. Agrega Prometheus como datasource, importa tres a cinco dashboards listos del Grafana Marketplace — node_exporter full, container metrics, blackbox uptime son buenos puntos de partida. En quince minutos tienes dashboards mejores que mucho setup de Datadog que vi en producción.

Paso 3: Loki más Promtail (o Grafana Agent unificado) en cada nodo. Promtail lee logs locales y empuja a Loki. Configuración mínima son cerca de treinta líneas — definir paths de log, labels, y endpoint de Loki. Trampa: log de aplicación que sale en formato libre te fuerza a escribir regex de parsing. Vale la inversión de una tarde para estandarizar logs en JSON estructurado antes de configurar parsing.

Paso 4: OpenTelemetry SDK en la aplicación. Cada lenguaje tiene su SDK oficial. Inicializas en el bootstrap de la aplicación, defines el endpoint de Tempo (o SigNoz collector), y ganas tracing distribuido automático para HTTP, database, cache. Agregar spans customizados en puntos críticos es trivial.

Paso 5: Alertmanager. Recibe reglas de alerta de Prometheus y rutea a Slack, email, PagerDuty o webhook de Discord. Trampa clásica: el primer mes vas a tener alert fatigue por threshold mal calibrado. Reserva una hora por semana en los primeros dos meses para refinar reglas.

Tiempo total para alguien sin experiencia previa: cuatro a ocho horas para tener el stack completo funcional, más dos a tres tardes refinando dashboards y alertas en las dos semanas siguientes. Al cambio de R$200 por hora de ingeniería, la inversión total es R$1,2 mil a R$2,5 mil. Sustituye R$1 mil a R$2 mil al mes de Datadog indefinidamente. Payback en uno a dos meses.

Donde el auto-hospedado queda debiendo

La honestidad aquí es la prueba de quién está vendiendo la alternativa de buena fe versus quien está vendiendo la versión simplificada de la realidad.

Database Monitoring profundo. Datadog DBM tiene visibilidad detallada en Postgres y Redis, con plan de ejecución por query, lock waits, slow query analysis. El postgres_exporter cubre métricas de salud básicas — conexiones, transacciones, replicación, cache hit ratio. Slow query analysis profunda en open source exige pgBadger o raspado manual de pg_stat_statements, con bastante más trabajo que clicar en "Enable DBM" en Datadog.

Real User Monitoring. Datadog RUM mide tiempo de carga percibido por el usuario real, distribuido por geografía, navegador, dispositivo. La combinación de Sentry con Plausible cubre parte del espacio, pero con gaps. Si RUM detallado es parte central de la estrategia de producto, Datadog gana hoy.

Network Performance Monitoring. Datadog NPM tiene visibilidad de paquete en redes complejas, especialmente útil en arquitecturas que cruzan múltiples zonas. No hay equivalente self-hosted práctico para el caso general.

Synthetic monitoring global. Datadog corre checks de más de treinta regiones. Self-hosted exige que corras checks de regiones múltiples — viable pero trabajoso. Checkly cubre el vacío con tier intermedio accesible.

Resumen: el 95% de los casos de observabilidad que startup necesita están cubiertos. El 5% que queda fuera son features enterprise raramente usadas en startup.

Costo concreto comparado

Vale la pena hacer la planilla en real, con números que puedes reproducir.

Datadog en cinco hosts, con APM Pro, 100 GB de logs por mes, 30 métricas customizadas y RUM activo: cerca de US$400 al mes, o R$2 mil al cambio de R$5 por dólar.

Stack auto-hospedada en una VPS dedicada con 4 GB de RAM (R$80 al mes en la mayoría de los proveedores brasileños), más almacenamiento de logs en S3-compatible (R$30 al mes para 150 GB en R2 o B2), más valor estimado de tiempo de mantenimiento (dos horas al mes a R$200 por hora, R$400 al mes): R$510 al mes.

Diferencia mensual: R$1.490. Diferencia anual: R$17.880. En tres años, R$53 mil — equivalente al salario de dos meses de persona sénior, o al costo de adquirir un cliente medio en ventas B2B.

Importante: el tiempo de mantenimiento es estimación pesimista. Equipos que estandarizan el setup típicamente gastan menos de una hora al mes después de la inversión inicial. En tres años, el mantenimiento compone pero no se vuelve proyecto continuo.

Cómo HeroCtl encaja

El orquestador expone métricas del cluster en formato Prometheus por default. No hay agente propietario que instalar en cada servidor — el cluster expone agregado en endpoint único, y Prometheus raspa directo.

Logs siguen arquitectura de escritor único embebida. En lugar de cada container producir log que necesita ser recolectado por un agente en cada nodo, el cluster centraliza la captura y expone interfaz de consulta. Eso reduce overhead operacional — no montas un agente en cada servidor.

La stack OSS (Prometheus, Grafana, Loki, Tempo, Sentry) corre como jobs en el propio cluster. Sometes el manifiesto de Prometheus como cualquier otro servicio, y el orquestador cuida de health check, restart, rolling update y ruteo. Overhead operacional adicional: cero.

Para startup que ya corre HeroCtl, activar observabilidad completa es una tarde. El cluster ya da todo de plumbing — falta solo decidir los dashboards.

Comparativo: Datadog vs New Relic vs Stack OSS auto-hospedada

CriterioDatadogNew RelicStack OSS auto-hospedada
Costo mensual para 5 hostsR$1k-2kR$800-1.5kR$80-510
MétricasExcelente, integraciones de 1 clicBuena, integraciones fuertesPrometheus + Grafana, exporters por target
LogsExcelente, búsqueda ricaBuena, búsqueda ricaLoki, búsqueda por label
APMProfundidad líder de mercadoPróximo de DatadogSigNoz/Tempo, 80% del shine
TracesSampling avanzadoSampling avanzadoOpenTelemetry, sampling configurable
AlertingAnomaly detection, estacionalidadAnomaly detectionThreshold + Alertmanager (sin AI)
Integraciones600+ listas400+ listas100+ exporters comunitarios
Expertise mínimaBaja (botón conecta)Baja (botón conecta)Media (config + mantenimiento)
Lock-inAlto (formato propietario)Alto (formato propietario)Cero (formatos abiertos)
Rango idealSeries B+ con ingresosSeries A-B con ingresosBootstrapped, seed, Series A

La última columna es la que importa para startup brasileña. El lock-in cero significa que si la stack OSS deja de servir, migras los dashboards y reglas con inversión contenida — formato abierto corre en cualquier lugar.

Cuándo quedarse en Datadog

La honestidad obliga a apuntar cuándo la alternativa no compensa.

Empresa Series B o mayor con ingresos justificando. Por encima de US$5 millones de ARR, R$2 mil al mes desaparece en el presupuesto. El tiempo que ahorras no montando stack vale más que el caja.

Compliance que exige proveedor SOC2 o ISO certificado nominalmente. Algunos frameworks listan herramientas pre-aprobadas. Si necesitas el nombre Datadog o New Relic en una lista de auditoría, la alternativa no cabe.

Equipo sin capacidad para montar stack. Si el equipo de ingeniería tiene tres personas enfocadas en producto y cero en infra, montar Prometheus más Grafana más Loki es distracción de cuatro a ocho horas que el equipo no tiene. Datadog free tier o New Relic free tier resuelven el inicio.

Necesidad de NPM o DBM grado enterprise. Para los 5% de los casos donde Datadog tiene feature insustituible, quedarse en él es decisión técnica correcta.

Preguntas frecuentes

¿Puedo usar Datadog free tier? Sí, y tiene sentido para empezar. Cinco hosts, retención corta, sin APM, sin logs avanzados. Funciona para equipo de dos personas validando idea. La migración empieza cuando el tier gratuito se acaba y la estimación de costo aparece — generalmente entre seis y doce meses después.

¿Grafana Cloud es una buena alternativa intermedia? Lo es. Grafana Cloud free tier ofrece 10k series, 50 GB de logs, 50 GB de traces. Pago empieza en US$8 al mes con volumen razonable. Cubre la franja entre "Datadog es muy caro" y "auto-hospedar da trabajo". Trade-off es el lock-in moderado — formatos son abiertos, pero no controlas retención y costos quedan en otra planilla.

¿Cuánto cuesta storage de logs en S3-compatible en Brasil? Cloudflare R2 cobra US$0,015 por GB por mes, sin tarifa de egress. Backblaze B2 cobra US$0,005 por GB por mes con US$0,01 por GB de egress. Para 150 GB en R2: US$2,25 al mes, o R$11. Para 1 TB en B2: US$5 al mes más egress según uso. En ambos casos, el costo es despreciable.

¿OpenTelemetry vs StatsD? OpenTelemetry es el estándar actual y cubre métricas, traces y logs. StatsD fue el estándar de los años 2010 para métricas, todavía existe, pero es narrow. Si estás empezando, ve directo en OpenTelemetry — todos los SDKs modernos soportan, todos los backends modernos soportan, y la inversión de aprender vale por años.

¿Sentry vale la pena auto-hospedar? Para equipo pequeño, GlitchTip resuelve con menos overhead — instalación simple, misma API que Sentry, drop-in compatible con SDKs. Para equipo que necesita las features avanzadas (Performance, Profiling, Replay), Sentry self-hosted vale el trabajo de montar Docker Compose. Free tier de Sentry SaaS es generoso y cubre el inicio.

¿Cuánto consume la stack OSS en RAM y CPU? Para cinco a diez nodes monitoreados: Prometheus 1,5 GB de RAM, Grafana 200 MB, Loki 1 GB, Tempo 500 MB. Total en torno a 3,5 GB. CPU promedio es bajo — pico en los scrapes de 5 a 10% de una vCPU. Cabe en VPS de 4 GB con holgura.

¿HeroCtl tiene dashboards listos? Sí. El cluster expone métricas en formato Prometheus, y el panel de administración embebido incluye dashboards básicos por job — uso de CPU, memoria, status de réplicas, latencia de health check. Para dashboards más elaborados, sube Grafana como job en el propio cluster y apunta al endpoint de métricas del plano de control.

Cierre

La diferencia entre R$2 mil y R$500 al mes no es detalle — es R$18 mil al año. Para startup en etapa de validación, es lo que separa contratar persona adicional y quedarse en el equipo actual. Para startup en etapa de crecimiento, es el margen que justifica invertir en producto en lugar de en proveedor.

La elección no es "Datadog o nada". Es "qué herramienta sirve a la fase actual de la empresa". En fase early, la stack OSS auto-hospedada gana en costo con paridad funcional. En fase late, Datadog gana en productividad con costo absorbido. El error común es seguir pagando Datadog porque nunca fue reevaluado — auditoría anual de stack es práctica de empresa madura, incluso entre las que eligen seguir pagando.

Si corres HeroCtl, la stack OSS sube como job común en el cluster. Sin agente extra, sin provisioner de infra, sin tercer proveedor. El presupuesto que sobra va al próximo ingeniero contratado.

curl -sSL get.heroctl.com/install.sh | sh

Para continuar la lectura: Cuánto cuesta alojar un SaaS en 2026 y Postgres en producción: gestionado vs self-hosted.

#observabilidad#datadog#monitoring#open-source#costo