Observabilidade sem Datadog: a stack alternativa que cabe no orçamento brasileiro

Datadog cobra US$15-31/host/mês. Pra startup com 5 servidores, isso vira R$1k/mês só de monitoring. A stack auto-hospedada chega no mesmo lugar por R$50.

Equipe HeroCtl··14 min

A primeira fatura do Datadog que ultrapassa quatro dígitos em real costuma chegar num momento previsível. O time deploy mais um par de serviços, o auto-discovery do agente passa a contar containers como hosts faturáveis, alguém liga APM no backend Node, outro alguém liga RUM no frontend pra investigar lentidão de página, e na virada do mês o cartão da empresa é debitado em quase R$2 mil. O fundador olha pra planilha, soma com Vercel, soma com banco gerenciado, soma com S3, e descobre que a infraestrutura — antes uma linha discreta no orçamento — agora come o equivalente a meio salário sênior por mês.

A reação dominante é apertar os dentes e pagar. Datadog é, sem ironia, o melhor produto do mercado em observabilidade. Os dashboards são bonitos, as integrações funcionam de primeira, o APM mostra a query lenta com profundidade que poucos concorrentes alcançam, o alerting é flexível o suficiente pra modelar políticas de SLO sem virar projeto interno. Pra empresa Series B com receita acima de US$5 milhões anuais, a conta de US$2 mil ou US$5 mil é desprezível diante do tempo de engenharia que ela compra. A escolha é racional.

Pra startup brasileira de cinco a dez servidores, faturando entre R$30 mil e R$500 mil por mês, a mesma escolha é financeiramente devastadora. Esse post mapeia a alternativa concreta — quais ferramentas usar, em qual servidor rodar, quanto consome de RAM, quanto custa em armazenamento — pra entregar 95% do mesmo resultado por cerca de 10% do preço.

Por que o Datadog ganhou o mercado

Não dá pra falar honestamente sobre alternativas sem explicar primeiro por que o líder está onde está. Quem já operou observabilidade em alguma escala sabe: a versão "monte você mesmo" sempre existiu, e ainda assim Datadog cresceu pra US$2 bilhões de receita anual. Há razões reais pra isso.

A primeira é que a UX cravou um padrão. Quando você abre um dashboard de Datadog pela primeira vez, a hierarquia de informação faz sentido na hora — host map, service map, traces, logs, tudo conectado por links que cruzam os contextos sem fricção. Quem operou observabilidade nos anos 2010 com Nagios, Cacti e Munin sabe que isso não é gratuito. Foi engenharia de produto cara, durante uma década.

A segunda é a biblioteca de integrações. Postgres, MySQL, Redis, Kafka, RabbitMQ, ElasticSearch, Mongo, Cassandra, dezenas de provedores cloud, mais de seiscentos targets prontos. Cada integração vem com dashboard padrão razoável, alertas sugeridos, métricas relevantes coletadas sem você ter que ler documentação obscura.

A terceira é o APM accurate. Os tracers oficiais para as linguagens populares fazem instrumentação automática que captura o nível certo de detalhe. A query lenta no Postgres aparece com plano de execução. O endpoint p99 lento aparece com a stack trace que causou a lentidão. Esse nível de visibilidade exige investimento contínuo em cada runtime.

A quarta é o alerting flexível. Threshold simples é fácil em qualquer ferramenta. Alerting que entende sazonalidade, que cruza múltiplas séries, que aplica anomaly detection em séries esparsas — isso o Datadog faz bem porque investiu uma década calibrando.

Pra empresa que pode pagar, contratar Datadog é a decisão certa. Pra você que não pode, vale entender exatamente onde a fatura explode antes de procurar alternativa.

Os quatro vetores onde a fatura explode

A página de preços do Datadog parece civilizada quando você olha de longe. US$15 por host por mês na entrada, US$23 no plano profissional, US$31 no plano empresa. Cinco hosts vezes US$23 dá US$115 — barato. O problema é que essa não é a fatura que chega.

Cobrança por host com containers contando como hosts. Em alguns planos, cada container conta como host adicional pra fins de billing. A startup que roda quatro serviços em três réplicas em três servidores pensa que tem três hosts — mas a fatura conta trinta e seis pontos de telemetria. A política mudou várias vezes nos últimos anos e mesmo quem lê a documentação atenta erra a estimativa.

Custom metrics cobradas por métrica por minuto. Cada métrica customizada acima do limite incluído tem custo individual. Um time bem-intencionado adiciona métricas de negócio — pedidos por minuto, valor médio do carrinho, conversão por funil — e a fatura sobe US$50, US$100, US$300 dependendo da cardinalidade das tags. Cardinalidade alta em métricas customizadas é a tarifa silenciosa que ninguém prevê.

APM Pro como upsell. O APM básico vem incluso, mas as features que você efetivamente quer usar — continuous profiler, code-level visibility, deployment tracking, retenção estendida de traces — estão no APM Pro, com preço adicional por host.

Logs ingestion mais retention extra. O preço de logs é em duas dimensões: ingestão (quanto entra) e retenção (por quanto tempo fica). Cinco servidores gerando 1 GB de log por dia ingerem 150 GB por mês. Reter 30 dias é uma faixa de preço; reter 90 dias é outra; reter um ano é outra. E busca em logs antigos custa por consulta em alguns planos.

Some Network Performance Monitoring, Real User Monitoring, Database Monitoring, Synthetics, CI Visibility — cada um é upsell em cima de upsell. A conta final de uma startup com cinco a dez servidores tipicamente fica entre US$200 e US$400 por mês, ou seja, R$1 mil a R$2 mil ao câmbio de R$5 por dólar. R$24 mil por ano é o equivalente a um mês de salário de pessoa sênior.

A stack alternativa, com nomes específicos

A boa notícia: a indústria open-source de observabilidade está madura há tempos. Não é cenário de 2015 com Nagios e Munin. As ferramentas hoje cobrem cada vertical com qualidade real.

Métricas: Prometheus para coleta e armazenamento, Grafana para visualização. A combinação tem quinze anos de produção em milhares de empresas, é o padrão de fato, e a maioria das aplicações modernas já expõe métricas em formato compatível.

Logs: Loki, da mesma equipe que mantém o Grafana. A sintaxe de consulta é parecida com a do Prometheus, o que reduz a carga cognitiva de quem já usa um. Por GB armazenado, é tipicamente 90% mais barato que Datadog Logs porque indexa apenas labels, não o conteúdo completo.

Traces: Tempo (Grafana) ou Jaeger ou SigNoz. Os três falam OpenTelemetry, então a aplicação não fica acoplada à escolha. Tempo se integra mais limpamente ao Grafana; Jaeger é o veterano com UI própria; SigNoz combina traces, métricas e logs num produto único.

APM: SigNoz é o concorrente direto mais maduro hoje, com instrumentação OpenTelemetry-native. OpenObserve é alternativa mais nova com arquitetura moderna. Pyroscope cobre continuous profiling — o tipo de visibilidade de CPU e memória que o APM Pro do Datadog vende caro.

Erros e exceções: Sentry self-hosted é a opção robusta — mesma ferramenta que a versão SaaS, sem o custo. GlitchTip é alternativa mais leve, drop-in compatível com SDKs do Sentry, ótima para times pequenos.

Uptime monitoring: Uptime Kuma cobre 95% dos casos com instalação de cinco minutos. Statping é alternativa similar.

Synthetic checks: Checkly tem free tier generoso e cobre o caso "rodar test em browser de várias regiões" sem você precisar manter infra de checks. Pra quem prefere homegrown, scripts Playwright em GitHub Actions resolvem.

A stack acima cobre todos os verticais que o Datadog vende. A pergunta honesta é onde cada peça fica devendo na comparação.

O que cada componente faz e o que não faz

Prometheus e Grafana cobrem 90% do que dashboards de Datadog cobrem. A diferença real está nas integrações: o Datadog tem integração de um clique pra seiscentos targets, enquanto Prometheus tipicamente exige escrever exporter ou usar um exporter comum — postgres_exporter, redis_exporter, blackbox_exporter, node_exporter. Pra targets populares, esses exporters existem e são bem mantidos. Pra targets exóticos, você escreve.

Loki cobre logs em 95% dos casos web. O trade-off é a indexação: Loki indexa apenas labels, não o conteúdo completo. Pra busca rica em logs com termos full-text complexos, ELK ou OpenSearch entram melhor. Pra busca por serviço, host, nível de log, status code — que é o que 95% dos times realmente fazem — Loki é mais barato e mais simples.

SigNoz e Tempo cobrem APM com qualidade. O trade-off é polimento. O profile de query lenta no Datadog APM tem mais shine — anos de UX nas vistas que importam. SigNoz está perto e melhora a cada release; em casos de uso comuns (endpoint lento, query lenta, erro spike) cobre tranquilamente. Pra investigação forense de profile de uma transação rara, o Datadog ainda ganha em refinamento.

Sentry self-hosted é praticamente idêntico ao Sentry SaaS — mesmo time mantém os dois. Você instala o stack via Docker Compose, passa quinze minutos configurando, e tem rastreamento de erros em produção. Custa zero em licença e duas a quatro horas por mês de manutenção.

A arquitetura concreta numa stack pequena

Pra uma startup operando cinco a dez servidores, a arquitetura cabe em um único servidor de observabilidade dedicado. Quatro gigabytes de RAM resolvem.

Servidor de observabilidade (4 GB RAM): Prometheus consome em torno de 1,5 GB com séries de cinco a dez nodes. Grafana fica em 200 MB. Loki em 1 GB com retenção razoável. Tempo em 500 MB. Sobra espaço pra Alertmanager (50 MB) e algum exporter ou collector adicional.

Storage para métricas: cinco servidores expondo cerca de 100 métricas por segundo cada, retidas por 30 dias, geram aproximadamente 10 GB de banco de séries temporais. Disco SSD comum dá conta — tipicamente R$30 por mês de armazenamento adicional na maioria dos provedores.

Storage para logs: cinco servidores produzindo 1 GB de log por dia, retidos por 30 dias, são 150 GB. A solução barata é apontar Loki para um backend compatível com S3 — Cloudflare R2 cobra US$0,015 por GB por mês sem taxa de egress, ou seja, US$2,25 por mês para 150 GB. Backblaze B2 é equivalente. AWS S3 funciona mas tem egress que dói se você for ler muito; pra observability, R2 ou B2 são escolha óbvia.

Sampling em traces: trace de 100% costuma ser desperdício. Sampling de 1% a 5% para traces normais, 100% para traces que contêm erro, 100% para endpoints específicos críticos. Reduz volume em ordem de magnitude sem perder o sinal que importa.

Setup honesto: passos sem copy-paste

A diferença entre tutorial de blog e operação real é o conhecimento de onde os passos quebram. Aqui vai a sequência que funciona, com as armadilhas reais.

Passo 1: Prometheus em container. Sobe Prometheus apontando o scrape config para os nodes que rodam node_exporter. Cada nó precisa do node_exporter rodando — também em container, porta 9100. Configuração inicial são vinte linhas de YAML. Armadilha: service discovery dinâmico exige integração com a fonte verdadeira de hosts. Pra cluster pequeno, lista estática resolve; pra cluster que cresce, integração com a API do orquestrador.

Passo 2: Grafana em container. Adiciona Prometheus como datasource, importa três a cinco dashboards prontos do Grafana Marketplace — node_exporter full, container metrics, blackbox uptime são bons pontos de partida. Em quinze minutos você tem dashboards melhores que muito setup de Datadog que vi em produção.

Passo 3: Loki mais Promtail (ou Grafana Agent unificado) em cada nó. Promtail lê logs locais e empurra pra Loki. Configuração mínima são cerca de trinta linhas — definir paths de log, labels, e endpoint do Loki. Armadilha: log de aplicação que sai em formato livre força você a escrever regex de parsing. Vale o investimento de uma tarde pra padronizar logs em JSON estruturado antes de configurar parsing.

Passo 4: OpenTelemetry SDK na aplicação. Cada linguagem tem o seu SDK oficial. Você inicializa no bootstrap da aplicação, define o endpoint do Tempo (ou SigNoz collector), e ganha tracing distribuído automático para HTTP, database, cache. Adicionar spans customizados em pontos críticos é trivial.

Passo 5: Alertmanager. Recebe regras de alerta do Prometheus e roteia para Slack, email, PagerDuty ou webhook do Discord. Armadilha clássica: o primeiro mês você vai ter alert fatigue por threshold mal calibrado. Reserve uma hora por semana nos primeiros dois meses pra refinar regras.

Tempo total para alguém sem experiência prévia: quatro a oito horas pra ter o stack completo funcional, mais duas a três tardes refinando dashboards e alertas nas duas semanas seguintes. Ao câmbio de R$200 por hora de engenharia, o investimento total é R$1,2 mil a R$2,5 mil. Substitui R$1 mil a R$2 mil por mês de Datadog indefinidamente. Payback em um a dois meses.

Onde o auto-hospedado fica devendo

A honestidade aqui é o teste de quem está vendendo a alternativa de boa-fé versus quem está vendendo a versão simplificada da realidade.

Database Monitoring profundo. Datadog DBM tem visibilidade detalhada em Postgres e Redis, com plano de execução por query, lock waits, slow query analysis. O postgres_exporter cobre métricas de saúde básicas — conexões, transações, replicação, cache hit ratio. Slow query analysis profunda em open source exige pgBadger ou raspagem manual de pg_stat_statements, com bem mais trabalho do que clicar em "Enable DBM" no Datadog.

Real User Monitoring. Datadog RUM mede tempo de carregamento percebido pelo usuário real, distribuído por geografia, navegador, dispositivo. A combinação de Sentry com Plausible cobre parte do espaço, mas com gaps. Se RUM detalhado é parte central da estratégia de produto, Datadog ganha hoje.

Network Performance Monitoring. Datadog NPM tem visibilidade de pacote em redes complexas, especialmente útil em arquiteturas que cruzam múltiplas zonas. Não há equivalente self-hosted prático para o caso geral.

Synthetic monitoring global. Datadog roda checks de mais de trinta regiões. Self-hosted exige você rodar checks de regiões múltiplas — viável mas trabalhoso. Checkly cobre o vão com tier intermediário acessível.

Resumo: 95% dos casos de observabilidade que startup precisa estão cobertos. Os 5% que ficam de fora são features enterprise raramente usadas em startup.

Custo concreto comparado

Vale fazer a planilha em real, com números que você pode reproduzir.

Datadog em cinco hosts, com APM Pro, 100 GB de logs por mês, 30 métricas customizadas e RUM ativo: cerca de US$400 por mês, ou R$2 mil ao câmbio de R$5 por dólar.

Stack auto-hospedada num VPS dedicado com 4 GB de RAM (R$80 por mês na maioria dos provedores brasileiros), mais armazenamento de logs em S3-compatível (R$30 por mês para 150 GB em R2 ou B2), mais valor estimado de tempo de manutenção (duas horas por mês a R$200 por hora, R$400 por mês): R$510 por mês.

Diferença mensal: R$1.490. Diferença anual: R$17.880. Em três anos, R$53 mil — equivalente ao salário de dois meses de pessoa sênior, ou ao custo de adquirir um cliente médio em vendas B2B.

Importante: o tempo de manutenção é estimativa pessimista. Times que padronizam o setup tipicamente gastam menos de uma hora por mês após o investimento inicial. Em três anos, a manutenção compõe mas não vira projeto contínuo.

Como o HeroCtl encaixa

O orquestrador expõe métricas do cluster em formato Prometheus por padrão. Não há agente proprietário pra instalar em cada servidor — o cluster expõe agregado em endpoint único, e o Prometheus rascpa direto.

Logs seguem arquitetura de escritor único embutida. Em vez de cada container produzir log que precisa ser coletado por um agente em cada nó, o cluster centraliza a captura e expõe interface de consulta. Isso reduz overhead operacional — você não monta um agente em cada servidor.

A stack OSS (Prometheus, Grafana, Loki, Tempo, Sentry) roda como jobs no próprio cluster. Você submete o manifesto do Prometheus como qualquer outro serviço, e o orquestrador cuida de health check, restart, rolling deploy e roteamento. Overhead operacional adicional: zero.

Pra startup que já roda HeroCtl, ligar observabilidade completa é uma tarde. O cluster já dá tudo de plumbing — falta só decidir os dashboards.

Comparativo: Datadog vs New Relic vs Stack OSS auto-hospedada

CritérioDatadogNew RelicStack OSS auto-hospedada
Custo mensal pra 5 hostsR$1k-2kR$800-1.5kR$80-510
MétricasExcelente, integrações de 1 cliqueBoa, integrações fortesPrometheus + Grafana, exporters por target
LogsExcelente, busca ricaBoa, busca ricaLoki, busca por label
APMProfundidade líder de mercadoPróximo de DatadogSigNoz/Tempo, 80% do shine
TracesSampling avançadoSampling avançadoOpenTelemetry, sampling configurável
AlertingAnomaly detection, sazonalidadeAnomaly detectionThreshold + Alertmanager (sem AI)
Integrações600+ prontas400+ prontas100+ exporters comunitários
Expertise mínimaBaixa (botão liga)Baixa (botão liga)Média (config + manutenção)
Lock-inAlto (formato proprietário)Alto (formato proprietário)Zero (formatos abertos)
Faixa idealSeries B+ com receitaSeries A-B com receitaBootstrapped, seed, Series A

A última coluna é a que importa pra startup brasileira. O lock-in zero significa que se a stack OSS deixar de servir, você migra os dashboards e regras com investimento contido — formato aberto roda em qualquer lugar.

Quando ficar no Datadog

A honestidade obriga a apontar quando a alternativa não compensa.

Empresa Series B ou maior com receita justificando. Acima de US$5 milhões de ARR, R$2 mil por mês desaparece no orçamento. O tempo que você economiza não montando stack vale mais que o caixa.

Compliance que exige fornecedor SOC2 ou ISO certificado nominalmente. Alguns frameworks listam ferramentas pré-aprovadas. Se você precisa do nome Datadog ou New Relic numa lista de auditoria, a alternativa não cabe.

Time sem capacidade pra montar stack. Se a equipe de engenharia tem três pessoas focadas em produto e zero em infra, montar Prometheus mais Grafana mais Loki é distração de quatro a oito horas que o time não tem. Datadog free tier ou New Relic free tier resolvem o início.

Necessidade de NPM ou DBM grau enterprise. Para os 5% de casos onde Datadog tem feature insubstituível, ficar nele é decisão técnica correta.

Perguntas frequentes

Posso usar Datadog free tier? Sim, e faz sentido pra começar. Cinco hosts, retenção curta, sem APM, sem logs avançados. Funciona pra time de duas pessoas validando ideia. A migração começa quando o tier gratuito acaba e a estimativa de custo aparece — geralmente entre seis e doze meses depois.

Grafana Cloud é uma boa alternativa intermediária? É. Grafana Cloud free tier oferece 10k séries, 50 GB de logs, 50 GB de traces. Pago começa em US$8 por mês com volume razoável. Cobre a faixa entre "Datadog é caro demais" e "auto-hospedar dá trabalho". Trade-off é o lock-in moderado — formatos são abertos, mas você não controla retenção e custos fica em outra planilha.

Quanto custa storage de logs em S3-compatível no Brasil? Cloudflare R2 cobra US$0,015 por GB por mês, sem taxa de egress. Backblaze B2 cobra US$0,005 por GB por mês com US$0,01 por GB de egress. Para 150 GB em R2: US$2,25 por mês, ou R$11. Para 1 TB em B2: US$5 por mês mais egress conforme uso. Em ambos os casos, o custo é desprezível.

OpenTelemetry vs StatsD? OpenTelemetry é o padrão atual e cobre métricas, traces e logs. StatsD foi o padrão dos anos 2010 pra métricas, ainda existe, mas é narrow. Se você está começando, vá direto em OpenTelemetry — todos os SDKs modernos suportam, todos os backends modernos suportam, e o investimento de aprender vale por anos.

Sentry vale auto-hospedar? Pra time pequeno, GlitchTip resolve com menos overhead — instalação simples, mesma API que Sentry, drop-in compatível com SDKs. Pra time que precisa das features avançadas (Performance, Profiling, Replay), Sentry self-hosted vale o trabalho de montar Docker Compose. Free tier do Sentry SaaS é generoso e cobre o início.

Quanto consome a stack OSS em RAM e CPU? Pra cinco a dez nodes monitorados: Prometheus 1,5 GB de RAM, Grafana 200 MB, Loki 1 GB, Tempo 500 MB. Total em torno de 3,5 GB. CPU médio é baixo — pico nos scrapes de 5 a 10% de uma vCPU. Cabe em VPS de 4 GB com folga.

HeroCtl tem dashboards prontos? Sim. O cluster expõe métricas em formato Prometheus, e o painel de administração embutido inclui dashboards básicos por job — uso de CPU, memória, status de réplicas, latência de health check. Pra dashboards mais elaborados, suba Grafana como job no próprio cluster e aponte pro endpoint de métricas do plano de controle.

Fechamento

A diferença entre R$2 mil e R$500 por mês não é detalhe — é R$18 mil por ano. Pra startup em estágio de validação, é o que separa contratar pessoa adicional e ficar no time atual. Pra startup em estágio de crescimento, é a margem que justifica investir em produto em vez de em fornecedor.

A escolha não é "Datadog ou nada". É "qual ferramenta serve à fase atual da empresa". Em fase early, a stack OSS auto-hospedada vence em custo com paridade funcional. Em fase late, Datadog vence em produtividade com custo absorvido. O erro comum é continuar pagando Datadog porque nunca foi reavaliado — auditoria anual de stack é prática de empresa madura, mesmo entre as que escolhem ficar pagando.

Se você roda HeroCtl, a stack OSS sobe como job comum no cluster. Sem agente extra, sem provisioner de infra, sem terceiro fornecedor. O orçamento que sobra vai pro próximo engenheiro contratado.

curl -sSL get.heroctl.com/install.sh | sh

Pra continuar a leitura: Quanto custa hospedar SaaS no Brasil em 2026 e Postgres em produção: gerenciado vs self-hosted.

#observabilidade#datadog#monitoring#open-source#custo