Engenharia

Observabilidade SRE: o 80/20 que importa de verdade

abril 8, 2026 1 min

A observabilidade SRE tem um padrão comum: times de engenharia adotam a ferramenta, instrumentam tudo, ficam sufocados de sinal e param de olhar pra qualquer coisa. A ferramenta fica abandonada enquanto postmortems continuam dependendo de caça aos logs.

Após ajudar ~80 times a migrarem para stacks instrumentadas, convergimos numa regra 80/20 que se confirma de forma consistente.

Os 20% de observabilidade SRE que sempre valem

Cinco categorias, em ordem de prioridade:

Taxa de request, taxa de erro, latência (métricas RED) em toda fronteira externa
Profundidade de fila em todo sistema assíncrono
Utilização do pool de conexões de banco
Memória e contadores de goroutines/threads em processos longos
Métricas de KPI de negócio com a mesma disciplina de SLO que as de infra

Acabou. Cinco categorias. A maioria dos times sub-instrumenta aqui enquanto super-instrumenta em outros lugares — e essa inversão é a causa raiz de quase toda dor de plantão que vemos no campo de engenharia.

Os 80% que você deveria deixar pra depois

A armadilha é instrumentar chamadas de função individuais “por garantia”. Não vai precisar, e o ruído afoga o sinal.

O padrão certo: lance sem esse nível de detalhe. Quando algo quebra e você está debugando sem a visibilidade que gostaria, instrumente aí. A dor te ensina o que valia a pena medir.

Uma coisa que ninguém te avisa

A biblioteca de instrumentação em si vira load-bearing. Já vimos múltiplas indisponibilidades causadas pelo caminho de emissão de métricas falhando sob carga. Trate sua biblioteca de observabilidade com o mesmo rigor do client de banco.

Boa observabilidade SRE é mais sobre o que você decide NÃO medir do que sobre o que decide medir. Times com 200 dashboards quase sempre olham apenas para 10. Comece pelos 10.

#engineering #observability #performance

Os 20% de observabilidade SRE que sempre valem

Os 80% que você deveria deixar pra depois

Uma coisa que ninguém te avisa

Mais artigos

Context switching: o custo invisível na engenharia

Pipeline em Rust: por que reescrevemos o motor da Luminary

Detecção de padrões em produção sem teatro de IA

Deixe um comentário Cancelar resposta