Qual o número mínimo de servidores pra alta disponibilidade real?
Três. Plano de controle replicado precisa de quórum (maioria) — com dois nós, qualquer falha quebra o quórum e o cluster vira somente leitura. Três nós toleram a queda de um e mantêm operação plena. Cinco nós toleram dois — caro pro tamanho médio, padrão pro grande.
SLA de 99,9% representa quanto de downtime aceito por mês?
Cerca de 43 minutos por mês, ou 8 horas e 45 minutos por ano. SLA de 99,99% (quatro noves) cai pra 4 minutos/mês — só faz sentido pra aplicações financeiras ou de comunicação onde minuto extra dói monetariamente.
Posso ter HA com 2 servidores se um deles for "ativo" e o outro "passivo"?
Não no sentido contratual. Failover ativo-passivo manual (ou semi-manual via DNS) tem janela de detecção e promoção que costuma passar dos 10 minutos — e durante a janela, requisições caem. Pra SLA de 99,9%, você sai do orçamento de downtime em uma única falha por mês. Cluster ativo-ativo de 3+ nós é o mínimo viável.
Backup precisa de outra estratégia além de snapshot do disco?
Sim, sempre. Snapshot do disco é cópia consistente de bytes, mas pra banco transacional precisa snapshot consistente da aplicação (file system freeze ou WAL flush). Snapshot diário sem WAL contínuo te dá RPO de 24h — se o cliente perde 1 dia de dados, é incidente regulatório em vários setores. WAL shipping contínuo derruba RPO pra menos de 5 minutos.
Como medir se rolling deploy está funcionando bem?
Três métricas durante o deploy: taxa de erro 5xx (deve ficar zero ou perto), latência p99 (não deve subir mais de 10%), e tempo total do deploy (deve ser previsível — variação grande indica health check inconsistente). Se uma das três falha, o deploy aborta e auto-reverte.
Chaos drill em produção é seguro?
É, se planejado. Faça em janela combinada, em horário de tráfego razoável (não pico, não vale), com a equipe inteira em call. O ganho é descobrir os pontos cegos antes do cliente — toda startup que medimos descobriu pelo menos uma surpresa no primeiro drill. O custo de não fazer é descobrir no fim de semana.
Vale a pena pagar Business ou Enterprise pra ter SLA de fornecedor sobre HA?
Pra cliente B2B regulado (financeiro, saúde, governo), vale — eles vão pedir. O contrato comercial publicado e o suporte humano por dentro do produto tira você do "você que se vire" do open-source puro. Pra startup early-stage sem cliente regulado, o tier Community resolve.