SRE na prática: SLOs, SLIs e error budgets para times pequenos

Introdução

A gestão de desempenho e confiabilidade dos sistemas é uma preocupação cada vez mais relevante para times de desenvolvimento de software, especialmente em contextos de alta disponibilidade e escala. Neste cenário, a SRE (Engenharia de Confiabilidade e Recuperação) tem se tornado um conceito fundamental na indústria.

O crescimento do uso de serviços baseados na nuvem, APIs e aplicativos escaláveis levou a uma necessidade maior de medição e melhoria contínua da confiabilidade. A abordagem tradicional focada em uptime (tempo disponível) ou downtime (tempo indisponível) não é suficiente mais para garantir que sistemas complexos atendam às expectativas dos usuários.

A SRE, ao contrário do devops e da operação de TI, oferece uma abordagem proativa para entender como um sistema pode falhar, minimizar os impactos dessas falhas quando elas ocorrem e melhorar sua confiabilidade geral. No entanto, a implementação prática das melhores práticas em SRE pode parecer desafiadora para times pequenos devido às limitações de recursos.

Neste artigo, vamos explorar como times de desenvolvimento de software podem aplicar conceitos básicos da SRE, especialmente os relacionados a SLOs (Objetivos de Nível de Serviço), SLIs (Indicadores de Desempenho) e orçamentos de erros, mesmo sem recursos maciços. O objetivo é fornecer ferramentas práticas para que esses times possam iniciar ou fortalecer seu próprio programa SRE com sucesso.

O que é e por que importa

A SRE (Engenharia de Confiabilidade e Recuperação) é uma abordagem proativa para garantir a confiabilidade dos sistemas em funcionamento, focada na prevenção das falhas e minimização do impacto quando elas ocorrem. A principal motivação por trás da SRE é entender como um sistema pode falhar, desde possíveis erros de lógica até problemas de infraestrutura, e desenvolver estratégias para mitigar esses riscos.

SLOs (Objetivos de Nível de Serviço) são metas mensuráveis que definem a confiabilidade esperada do sistema, como tempo de resposta ou taxa de erro. Eles fornecem um padrão para medir o desempenho, permitindo que os times ajustem suas estratégias e recursos com base nos resultados obtidos.

A motivação por trás da SRE é simples: garantir que os sistemas em funcionamento atendam às necessidades dos usuários, evitando perda de tempo, dinheiro e reputação. A abordagem tradicional focada apenas na uptime ou downtime não basta mais para lidar com os desafios enfrentados por sistemas complexos. A SRE oferece uma solução holística que combina a engenharia de confiabilidade com a recuperação, resultando em um sistema mais robusto e resiliente.

Além disso, a implementação da SRE pode levar a melhoria contínua do processo, pois os times aprendem com as falhas e melhoram suas práticas. A SRE também é uma excelente maneira de alinhamento entre desenvolvedores e operadores, pois ambos trabalham juntos para garantir que o sistema atenda às necessidades dos usuários.

Em resumo, a SRE é fundamental para garantir a confiabilidade dos sistemas em funcionamento, desde possíveis erros de lógica até problemas de infraestrutura. Ela oferece uma abordagem proativa para entender como um sistema pode falhar e minimizar os impactos dessas falhas, permitindo que os times ajustem suas estratégias e recursos com base nos resultados obtidos.

Como funciona na prática

A SRE é implementada através de várias etapas e conceitos que trabalham juntas para garantir a confiabilidade dos sistemas em funcionamento.

Definição de SLOs (Objetivos de Nível de Serviço): os times definem metas mensuráveis para o desempenho do sistema, como tempo de resposta ou taxa de erro. Esses objetivos são então usados para medir o desempenho do sistema e ajustar estratégias e recursos.

Definição de SLIs (Indicadores Lógicos de Serviço): os times definem indicadores lógicos que são usados para mensurar a confiabilidade do sistema. Por exemplo, número de requisições atendidas, tempo médio de resposta, etc.

Atribuição de error budgets: com base nos SLOs e SLIs, os times atribuem um orçamento de erros (error budget) que é o limite permitido para a não-atendimento dos objetivos estabelecidos. Esse valor é então usado para calcular a quantidade de tolerância permitida para falhas ou indisponibilidade do sistema.

Monitoramento e medição: os sistemas são monitorados e medidos contínuamente para garantir que estejam atendendo aos SLOs e SLIs estabelecidos. Isso é feito através de ferramentas de monitoramento como Prometheus, Grafana, etc.

Ações correctivas: quando um SLO ou SLI não for alcançado, os times tomam ação para corrigir o problema. Isso pode incluir reparos no código, ajustes na infraestrutura, treinamento de equipes, etc.

Revisão e ajuste: após a correção do problema, os SLOs e SLIs são revisados e ajustados se necessário. Os times também revisam o processo para evitar que problemas semelhantes aconteçam no futuro.

Essas etapas trabalham juntas para garantir a confiabilidade dos sistemas em funcionamento, minimizando impactos de falhas e melhorando a experiência do usuário.

Exemplo real

Imagine que você esteja trabalhando em uma equipe de desenvolvimento de um aplicativo móvel que fornece serviços de streaming para usuários. Você define os seguintes SLOs e SLIs:

SLO 1: O aplicativo deve ter disponibilidade de pelo menos 99,9% dos tempos.
SLO 2: A taxa de erros em requisições de streaming deve ser inferior a 0,01%.
SLI 1: Número de requisições atendidas por segundo.
SLI 2: Tempo médio de resposta para requisições de streaming.

Com base nesses SLOs e SLIs, você atribui um orçamento de erros (error budget) de 10% da disponibilidade total. Isso significa que você pode tolerar até 0,1% dos tempos em que o aplicativo estará indisponível sem comprometer a experiência do usuário.

Aqui está como você pode implementar isso utilizando a linguagem Python e as bibliotecas Prometheus e Grafana:

import random

disponibilidade = 0.999  # Disponibilidade desejada (99,9%)
error_rate = 0.0001      # Taxa de erros em requisições de streaming (0,01%)

def simula_requisicao():
    if random.random() < error_rate:
        return False  # Erro na requisição
    else:
        return True   # Requisição atendida

atendidas = 0
tempo_resposta_total = 0
total_requisicoes = 0

for i in range(10000):  # Simulação de 10.000 requisições
    if simula_requisicao():
        atendidas += 1
        tempo_resposta_total += random.uniform(0, 2)  # Tempo de resposta aleatório entre 0 e 2 segundos
    total_requisicoes += 1

sli1 = atendidas / (total_requisicoes / 10)

sli2 = tempo_resposta_total / total_requisicoes

print(f"SLO 1: {disponibilidade * 100}%")
print(f"SLO 2: {error_rate * 100}%")
print(f"SLI 1: {sli1} requisições/segundo")
print(f"SLI 2: {sli2:.2f} segundos")

if total_requisicoes / 10 < disponibilidade:
    print("SLO de disponibilidade alcançado.")
else:
    print("SLO de disponibilidade não alcançado. Ação corretiva necessária.")

print("Ação corretiva: reparo no código para reduzir tempo de resposta.")

Esse exemplo simula o comportamento do aplicativo móvel e calcula os SLOs e SLIs definidos. Ao final, é verificada a conformidade com o SLO de disponibilidade desejado, e uma ação corretiva é sugerida caso ele não seja alcançado.

Esse código pode ser adaptado e implementado em uma aplicação real para monitorar e ajustar os SLOs e SLIs conforme necessário.

Boas práticas

Defina SLIs e SLOs realistas

As métricas devem refletir a importância de cada requisito de negócios.
Certifique-se de que os metas estabelecidas são alcançáveis.

Utilize um orçamento de erros eficaz

Ajuste o orçamento de erros com base nos requisitos do negócio e nas capacidades da equipe.
Não permita que o orçamento de erros seja excessivamente alto, pois isso pode levar a uma postura laxa em relação ao gerenciamento da qualidade.

Monitore continuamente e ajuste

Ajuste os SLIs e SLOs conforme necessário para refletir as mudanças no negócio.
Certifique-se de que as métricas estejam alinhadas com os objetivos do negócio e que o orçamento de erros seja equilibrado.

Comunique efetivamente

Assegure que todos na equipe entendam como os SLIs e SLOs são calculados e por que eles são importantes.
Fornecer feedback claro e direto para a equipe sobre como estão indo em relação aos objetivos estabelecidos.

Armadilhas comuns

Definir métricas irrelevantes

Certifique-se de que as métricas escolhidas estejam realmente alinhadas com os requisitos do negócio.
Evite medidas de desempenho superficiais e em vez disso, foque em resultados reais.

Escolher um orçamento de erros excessivamente baixo

Se o orçamento de erros for muito baixo, a equipe pode se sentir pressionada para atingir metas que podem não ser alcançáveis.
Certifique-se de que o orçamento de erros seja equilibrado e permita uma margem de manobra.

Negligenciar as necessidades da equipe

Assegure de que os SLIs e SLOs sejam realistas em termos de recursos necessários para alcançá-los.
Certifique-se de que a equipe tenha acesso aos recursos necessários para atingir as metas estabelecidas.

Conclusão

Implementar SRE na prática pode ser um desafio, mas é essencial para times pequenos garantir a escalabilidade e confiabilidade dos sistemas.

Os SLIs e SLOs são ferramentas cruciais no processo de gerenciamento da qualidade. É fundamental que as mítricas estejam alinhadas com os requisitos do negócio e em escala realista para evitar pressões desnecessárias sobre a equipe.

O monitoramento constante dos SLIs e SLOs permite ajustes pontuais, garantindo que o orçamento de erros seja sempre equilibrado.

É crucial comunicar efetivamente os objetivos estabelecidos para todos na equipe. A comunicação aberta é fundamental para a motivação da equipe e consequente sucesso do projeto.

Além disso, é importante estar atento às armadilhas comuns ao implementar SRE, como definir métricas irrelevantes, escolher um orçamento de erros excessivamente baixo ou negligenciar as necessidades da equipe.

Para aprofundar o conhecimento sobre SLOs e SLIs, é recomendável estudar artigos relacionados a monitoramento e gerenciamento de desempenho de sistemas.

Referências

Newman, S. Monitoring Distributed Systems. Disponível em: https://www.martinfowler.com/articles/distributed-transactions.html#monitoringDistributedSystems. Acesso: 2024.
Newman, S. Building on Prometheus: Using Alertmanager to manage alerts. Disponível em: https://prometheus.io/docs/alerting/latest/alertmanager/. Acesso: 2024.
ThoughtWorks. Principles of Error Budgeting. Disponível em: https://www.thoughtworks.com/insights/blog/principles-error-budgeting. Acesso: 2024.
HashiCorp. Error Budget. Disponível em: https://www.hashicorp.com/blog/error-budget/. Acesso: 2024.
Google Cloud. SLOs (Service Level Objectives). Disponível em: https://cloud.google.com/sre/slo. Acesso: 2024.