Usando Machine Learning para Detectar Anomalias em Custos na Nuvem (FinOps)
Gerenciar os custos em ambientes de computação em nuvem é uma tarefa complexa que exige atenção constante. Uma pesquisa global encomendada pela Veritas Technologies mostrou que 94% das empresas entrevistadas relataram que seus gastos com provedores de serviços de nuvem pública excederam o previsto, com uma média de 43% acima do orçamento inicial.
Este artigo avalia como a união de Machine Learning (ML) e FinOps pode auxiliar profissionais e gestores do setor a manterem a eficiência operacional e financeira de suas infraestruturas em nuvem, explorando os conceitos fundamentais, as metodologias aplicáveis e as melhores práticas para implementar soluções eficazes em ML para detecção de anomalias em custos na nuvem.
O que são anomalias em custos na nuvem?
Anomalias em custos na nuvem podem ser definidas como perturbações ou irregularidades no padrão de gastos nos serviços de computação em nuvem. Essas anomalias têm diversas origens, como mudanças na demanda, erros de configuração ou uso indevido dos recursos, gerando gastos indesejados e prejudicando planejamentos.

Por que usar Machine Learning para detecção de anomalias?
Imagine o seguinte cenário: uma empresa nota um aumento inesperado nos custos de serviços em nuvem. Ao investigar, a equipe de FinOps se depara com vários serviços apresentando gastos elevados de forma repentina. Analisar cada um manualmente seria uma tarefa demorada e ineficaz. Nesse contexto, o uso de Machine Learning se torna essencial por suas capacidades de:
- Processar grandes volumes de dados: Capacidade de analisar dados complexos e em escala, como custos distribuídos por serviços, regiões ou projetos.
- Identificar padrões rápida e precisamente: Detecta desvios em tempo real, evitando a dependência de análises manuais lentas e reconhece anomalias sutis que passariam despercebidas por métodos tradicionais.
- Prevenir anomalias futuras de forma proativa: Opera em tempo real para bloquear gastos anormais antes que impactem o orçamento e gera alertas automáticos para ações corretivas imediatas (ex.: ajustar configurações, encerrar recursos ociosos).
- Otimizar recursos: Identifica recursos subutilizados ou mal configurados, sugerindo realocações ou reduções de custo. Amplia o conhecimento sobre padrões de uso, fortalecendo práticas de FinOps.
- Adaptar automaticamente a novos dados: Modelos de ML evoluem conforme novos dados são incorporados, mantendo a eficácia em cenários dinâmicos, reduz a necessidade de intervenção manual da equipe.
→ Saiba mais sobre Estratégia de Tagging: 5 recomendações para começar
Como lidar com anomalias?
Para lidar com as anomalias, é necessário:
- Realizar uma análise preliminar detalhada de todos os serviços consumidos na nuvem, Identificando padrões históricos de gastos e agrupá-los por projetos, equipes ou regiões para facilitar a identificação de anomalias.
- Organizar os dados financeiros em categorias como tipo de serviço, região de implantação e unidade de negócio. Isso permite uma melhor compreensão das flutuações nos custos e facilita a detecção de anomalias contextuais.
- Com base nos dados obtidos na análise, é necessário planejar e implementar ações corretivas que solucionem a anomalia de forma eficaz.
- Analisar e documentar como prevenir que outras anomalias do mesmo tipo voltem a surgir por meio de revisões retrospectivas.

Metodologias de implementação
Ferramenta de detecção de anomalias
Uma ferramenta importante para implementar a detecção de anomalias na nuvem é o AWS Cost Anomaly Detection. Este recurso é gratuito para todos os usuários da AWS, sendo possível ativar e desativar a qualquer momento, e vem equipado com modelos de machine learning para detectar automaticamente anomalias nos padrões de custo, configurando alertas e limites para monitoramento eficiente de gastos na nuvem.
- Acesse o console do Billing and Cost Management e selecione a opção de “Detecção de Anomalias em Custos”.
- Configure um monitor para os serviços AWS, definindo os parâmetros de frequência dos alertas, os destinatários e os limites de acionamento.
- Revise as configurações e crie o monitor para iniciar o monitoramento dos custos de forma automatizada.
Essa solução é fácil e rapidamente implementável, sendo executada nativamente na AWS, fornecendo insights e métricas suficientes para análises.
Modelos de ML para detectar anomalias
Uma outra solução possível é a criação de um modelo customizado para encontrar anomalias. Essa solução requer um ambiente apropriado para construir, treinar e implantar modelos de machine learning. Uma opção disponível no mercado é o Amazon SageMaker, uma ferramenta para desenvolver e implementar aplicações de IA desde a sua concepção, além de oferecer ótimos recursos para o gerenciamento dos modelos.
Para criar um modelo de detecção de anomalias customizado para o seu negócio:
- Avalie os dados disponíveis a partir dos relatórios de custos disponíveis na provedora de nuvem utilizada.
- Determine se o problema será tratado como aprendizagem supervisionada ou não supervisionada. Com isso, tome conhecimento dos tipos de modelos de aprendizado de máquina e pondere sobre qual deles é o mais adequado para a implementação desejada, por exemplo, Regressão Linear, Isolation Forest e Autoencoders.
- Estabeleça métricas claras para avaliar os resultados do modelo. Métricas como Área sob a curva ROC (ROC-AUC), F1-Score e Taxa de alarmes falsos (FAR) podem ser usadas na identificação de anomalias e aumentam a credibilidade do modelo desenvolvido.
- Integre com uma solução de notificação em e-mails, dashboards interativos ou gatilhos para realizar ações automatizadas.
Esta solução tem como benefícios a possibilidade de personalização conforme as necessidades específicas do negócio, proporcionando maior controle na detecção de anomalias, além de automatizar grande parte dos processos que, em maior escopo, podem se mostrar extensivos de se executar em tempo hábil.
Técnicas e metodologias aplicáveis
Além dos algoritmos apresentados acima, outras técnicas estatísticas e de machine learning podem ser utilizadas nesse tema, como:
- Métodos estatísticos, como a análise de desvio padrão, permitem detectar valores que se afastam do esperado, enquanto médias móveis ajudam a suavizar flutuações curtas e destacar tendências de longo prazo.
- Abordagens de Machine Learning também se mostram eficazes, como a clusterização, que agrupa padrões de consumo semelhantes para identificar anomalias, e modelos de regressão, que preveem os custos esperados e sinalizam desvios significativos.
- A análise de séries temporais examina os dados ao longo do tempo para identificar tendências, sazonalidade e padrões cíclicos, permitindo a detecção de variações inesperadas.
→Veja como o Ouribank otimizou custos de cloud com e-Core e AWS
Melhores práticas de FinOps para gerenciar anomalias
Obtenha melhor aproveitamento das detecções certificando-se que a solução está em conformidade com as melhores práticas de FinOps, como:
- Monitorar constantemente para notificar anomalias assim que surgirem
- Integrar a solução desenvolvida com ferramentas de FinOps, como o Focus, que padroniza os dados para facilitar a leitura e entendimento dos dados.
- Revisar e ajustar regularmente os limites especulados, refinar constantemente os algoritmos baseados nos feedbacks e nas condições de negócios.
- Manter a comunicação clara entre os times para informar rapidamente a ocorrência de uma anomalia.
- Utilizar as anomalias detectadas para formulação de estratégias de otimização de gastos mais robustas.
→ Veja Os 6 princípios que guiam o sucesso em FinOps
Conclusão
Implementar Machine Learning para detectar anomalias nos custos de nuvem é importante para fortalecer a cultura FinOps dentro da empresa, fornecendo insights sobre o consumo de recursos, facilitando a colaboração entre TI, finanças e negócios para decisões estratégicas. Com esse tipo de solução, podemos gerar economia imediata ao identificar recursos ociosos, configurações inadequadas e picos de demanda. Integrando Machine Learning com práticas de FinOps, é possível assegurar uma gestão financeira sustentável na nuvem, com controle orçamentário preciso e escalabilidade eficiente.
Quer usar machine learning para para entender melhor os custos da cloud e não sabe por onde começar? Nossos especialistas estão prontos para te ajudar! Entre em contato conosco e veja como podemos apoiar o seu negócio!

Lucas Chagas Henrichs
Data Scientist I

Maíra Santos
FinOps Analyst II
e-Core
Combinamos experiência global com tecnologias emergentes para ajudar empresas como a sua a criar produtos digitais inovadores, modernizar plataformas de tecnologia e melhorar a eficiência nas operações digitais.
Isso pode te interessar:

