Monitoramento de Aplicações: Introdução ao Prometheus e Grafana.

Introdução

O monitoramento de aplicações é uma prática fundamental no desenvolvimento de software moderno, pois permite aos times de manutenção e suporte identificar problemas antes que eles afetem a experiência do usuário final.

Com o crescimento da complexidade das aplicações e a adoção de infraestruturas escaláveis, como as nuvem públicas (AWS, GCP, Azure), monitorar em tempo real os parâmetros de desempenho é crucial para garantir a entrega contínua dos serviços. Além disso, o monitoramento também ajuda na detecção de problemas potenciais relacionados à segurança e escalabilidade.

Neste artigo, vamos introduzir um cenário comum de utilização do sistema Prometheus em conjunto com Grafana, fornecendo uma visão geral sobre como essas ferramentas podem ser utilizadas para o monitoramento eficaz das aplicações.

Ao longo deste conteúdo, você aprenderá sobre:

Introdução ao modelo de dados Time Series e sua importância no mundo do monitoramento;
Conceitos básicos do sistema Prometheus, como exporters, pushgateway e alertmanager;
Como configurar o Prometheus para coletar métricas importantes das aplicações;
Utilização da ferramenta Grafana na visualização dessas métricas e geração de dashboards personalizados;
Aplicação prática da combinação do Prometheus e Grafana num ambiente de produção.

O que é e por que importa

O monitoramento de aplicações tem como objetivo seguir as condições de desempenho e saúde das mesmas em tempo real, tornando-se essencial para garantir a qualidade dos serviços fornecidos aos usuários.

A motivação principal para utilizar ferramentas de monitoramento é identificar problemas antes que afetem o usuário final. Com o uso intensivo de recursos computacionais, escalabilidade e complexidade crescentes das aplicações, detectar eventuais falhas ou problemas em tempo real se torna uma necessidade.

O modelo de dados Time Series é fundamental para essas ferramentas, pois permite que as métricas coletadas sejam armazenadas e processadas eficientemente. O modelo funciona com um conjunto de pontos temporais associados a valores numéricos, como o número de requisições por segundo ou tempo médio de resposta.

O Prometheus, em particular, é uma ferramenta de monitoramento que utiliza esse modelo para coletar e processar dados em tempo real. Ele faz uso do conceito de exporters, responsáveis por coletar as métricas das aplicações e enviar-as para o Prometheus. O pushgateway permite a notificação dos endpoints quando os mesmos não estiverem online, facilitando assim a recuperação dos dados ausentes.

Além disso, o alertmanager é responsável por notificar os times de manutenção sobre problemas detectados no sistema, permitindo que as ações sejam tomadas antes da falha do serviço.

Como funciona na prática

Coleta de dados no Prometheus

O funcionamento interno do Prometheus ocorre em três etapas:

Registro das métricas: As aplicações registram suas métricas, como número de requisições por segundo ou tempo médio de resposta, em um formato específico.
Envio das métrics para o Prometheus: O exporter coleta as métricas registradas e as envia para o servidor do Prometheus.
Armazenamento dos dados no banco de dados de Time Series: O Prometheus armazena os dados nas tabelas de Time Series, permitindo a consulta e análise em tempo real.

Processamento das informações

O Prometheus utiliza algoritmos avançados para processar as informações coletadas. As principais etapas incluem:

Agregação de dados: O Prometheus agrupa as métricas por período de tempo, facilitando a análise.
Calculo de médias e percentis: O sistema calcula valores como média, máximo e mínimo para as diversas métricas, ajudando na identificação de padrões e problemas.

Alertas e notificações

O Prometheus fornece ferramentas robustas de alertas e notificações. As principais etapas incluem:

Configuração de regras de alarme: Os usuários configuram regras para disparar alertas em caso de problemas detectados no sistema.
Notificação dos times de manutenção: O Prometheus envia notificações via email, corretiva, etc. aos responsáveis pela manutenção do sistema, facilitando a resolução rápida de problemas.

Exemplo prático com Grafana

Com as informações armazenadas e processadas no Prometheus, é possível acessar ferramentas adicionais para visualização e análise dos dados coletados. O Grafana oferece uma interface intuitiva e fácil de usar, possibilitando:

Criação de dashboards personalizados: Os usuários podem criar painéis personalizados para visualizar as informações coletadas do sistema.
Definição de metas e limites: É possível configurar metas e limites para as métricas, permitindo a identificação de problemas antes que eles afetem os usuários.

Exemplo real

Um exemplo prático e realista de como utilizar o Prometheus junto com Grafana pode ser observado na seguinte configuração:

// Configuração do Prometheus para coletar métricas de CPU e Memória
scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['localhost:9090']

// Exemplo de dashboard personalizado no Grafana
{
  "annotations": {
    "list": [
      {
        "datasource": "$default",
        "enable": true,
        "hide": false,
        "iconColor": "#3x0033",
        "name": "Prometheus",
        "queryParamName": "",
        "queryParamType": "literal",
        "text": "Métricas do Prometheus"
      }
    ]
  },
  "gridPos": {
    "h": 5,
    "w": 6,
    "x": 0,
    "y": 0
  },
  "panelId": 1,
  "targets": [
    {
      "dataset": "prometheus",
      "expr": "node_cpu_seconds_total{instance='localhost:9090', job='node'}"
    }
  ]
}

Este exemplo apresenta a coleta de métricas do Prometheus e o uso da ferramenta Grafana para criar um dashboard personalizado com painéis visuais que permitem ao usuário visualizar as informações coletadas em tempo real, permitindo uma análise eficaz das informações coletadas.

Boas práticas e armadilhas comuns

Boas práticas

Defina metas claras para monitoramento: Antes de começar a coletar métricas, defina objetivos específicos para o seu monitoramento. Isso ajudará a garantir que você esteja coletando os dados certos e se concentrando nas áreas mais críticas.
Use tags e labels para organização: Utilize tags e labels para categorizar as suas métricas, tornando mais fácil encontrar e analisar as informações desejadas. Isso é especialmente útil em ambientes com muitas aplicações e serviços interconectados.
Configurare o Prometheus para agir como um hub de dados: Em vez de criar múltiplos servidores do Prometheus, configure-o para agir como um único ponto central para a coleta e armazenamento de métricas. Isso facilita a gestão e a análise dos dados.

Armadilhas comuns

Foco excessivo em metas: Concentrar-se apenas nas metas pode levar ao monitoramento exaustivo, o que pode sobrecarregar os recursos do sistema e causar problemas de desempenho. Certifique-se de equilibrar a coleta de dados com a necessidade de recursos.
Falta de definição de limites: Se não definir metas e limites para as métricas, pode ser difícil identificar problemas antes que eles afetem os usuários. Isso pode levar a surpresas desagradáveis quando o problema se torna crítico.
Não utilizar a capacidade de armazenamento adequada: O Prometheus está projetado para lidar com volumes enormes de dados. Se não configurar adequadamente a capacidade de armazenamento, pode enfrentar problemas ao tentar coletar e armazenar todas as métricas, levando a falhas no sistema.

Conclusão

Ao adotar Prometheus e Grafana, é crucial definir metas claras para seu monitoramento, organizando métricas com tags e labels para facilitar a análise. Além disso, é essencial configurar o Prometheus como um hub de dados único para simplificar a gestão dos dados.

Para evitar armadilhas comuns, lembre-se de equilibrar as necessidades de coleta de dados com os recursos disponíveis e definir limites claros para as métricas. Além disso, é fundamental configurar adequadamente a capacidade de armazenamento do Prometheus.

Se você está pronto para avançar, aqui estão próximos passos recomendados:

Configuração da coleção de dados: Ajuste os limites e a frequência de coleta das métricas, garantindo que sejam adequadas às necessidades específicas do seu sistema.
Integração com outras ferramentas: Explore como combinar o Prometheus com outros instrumentos de monitoramento para criar uma visão mais abrangente da saúde do seu ambiente de sistemas.
Aprendizado contínuo: Mantenha-se atualizado sobre as novidades e melhorias no Prometheus e Grafana, aproveitando recursos adicionais de suporte e comunidade para garantir o sucesso em sua implementação.

Referências

Burns, B. A., & O'Halloran, W. (2015). The Prometheus Monitoring System. Proceedings of the 26th ACM Symposium on Operating System Principles, 287–301. Disponível em: https://dl.acm.org/doi/10.1145/2814228.2814232. Acesso: 2024.
Grafana Labs (2020). Getting Started with Prometheus and Grafana. Grafana Documentation. Disponível em: https://docs.grafana.com/getting-started/prometheus/. Acesso: 2024.
Martin Fowler (2017). Metrics Driven Development. MartinFowler.com. Disponível em: https://martinfowler.com/articles/metrics-driven-development.html. Acesso: 2024.
Prometheus (2022). Configuration Overview. Prometheus Documentation. Disponível em: https://prometheus.io/docs/prometheus/latest/configuration/. Acesso: 2024.
The Prometheus Team (2019). Monitoring with Prometheus and Grafana. The Prometheus Project. Disponível em: https://prometheus.io/docs/operating-model/#monitoring-with-prometheus-and-grafana. Acesso: 2024.
ThoughtWorks (2020). Monitoring at Scale. ThoughtWorks Technology Radar. Disponível em: https://www.thoughtworks.com/en-de/blog/monitoring-at-scale.html. Acesso: 2024.