Engenharia do caos: metodologia criada pela Netflix auxilia Itaú a reduzir falhas em 98%

Resultado foi compartilhado na última edição do Prime Control Experience, evento da Prime Control voltado ao público sênior de Tecnologia com foco em Quality Assurance (QA)

O conceito de engenharia do caos, criado pela Netflix em 2008, visa a simulação de cenários com o propósito de identificar vulnerabilidades e antecipar possíveis problemas. Esses procedimentos envolvem simulações ou experimentos conduzidos com rigorosa metodologia, monitoramento cuidadoso, análise dos resultados e planos de ação. Utilizando o conceito, o Itaú Unibanco conseguiu reduzir consideravelmente a taxa de falhas: em 2018, 2,4% das implementações enfrentaram problemas, enquanto em 2023, esse número caiu para apenas 0,7%, uma diminuição de 98%.

O tema foi abordado durante a segunda edição do Prime Control Experience, evento de Quality Assurance (QA) voltado para o público sênior de empresas de tecnologia idealizado pela Prime Control. Na ocasião, especialistas em qualidade de software se juntaram a profissionais da área de tecnologia para debater os avanços do mercado. Na ocasião, os resultados foram apresentados pelos especialistas do Itaú Unibanco, Felipe Jacob, Líder de Produtos Técnicos para Qualidade de Software; Diana Mazza Furquim, Product Manager e responsável por Monitoração Sintética; e Carlos Eduardo Dias Ferraz, Especialista/SME Tech em Performance e Engenharia do Caos.

Um dos maiores desafios na área, segundo Felipe, é garantir uma maior percepção de qualidade. “A palavra-chave é proximidade. Quanto mais próximos estivermos de nossos clientes, mais teremos condições de entender a jornada deles, sua percepção e suas dores. Melhor ainda seria se pudéssemos sentir essas mesmas dores dos nossos usuários. O Itaú tem 70 milhões de clientes, cada um com sua própria perspectiva e expectativas. Entregar um software sem bugs não garante que todos considerarão o aplicativo bom, já que a qualidade é subjetiva. Para melhorar a percepção de qualidade, a proximidade com os clientes é essencial”, explica.

O especialista Carlos Eduardo explica que, na engenharia do caos, as falhas são injetadas de forma controlada para validar a resiliência do sistema, mas apenas quando há certeza de que os processos funcionam. “O objetivo é aprender com nosso sistema e descobrir comportamentos inesperados. Durante uma campanha de crédito imobiliário, estávamos confiantes de que a aplicação estava pronta, mas realizamos testes de produção que provaram o contrário. Com 20 transações por segundo, o ambiente já estava sobrecarregado”.

Por meio deste teste, a equipe conseguiu atualizar o sistema para receber um grande volume de transações e alcançar as metas da campanha. “Para fornecer uma visão geral de nossas práticas no Itaú, realizamos mais de 400 testes de desempenho diariamente, totalizando mais de 17.000 execuções até setembro. Além disso, no último ano, realizamos mais de 2.000 testes de caso e aplicamos mais de 40 tipos de ataques”, revela Carlos.

Um dos temas que foram abordados, também durante o evento, foi a monitoração sintética. Diana Mazza revelou que, dentro do Itaú Unibanco, esse é um dos processos utilizados para garantir que as soluções funcionem de forma apropriada. Os benefícios desse método incluem antecipação, permitindo a detecção de falhas nas aplicações e serviços antecipadamente, especialmente em cenários específicos, assim como a identificação de erros com antecedência, permitindo que as equipes ajam rapidamente em na correção. Outras vantagens são o acompanhamento do desempenho e da disponibilidade da aplicação ou serviço e a capacidade de personalizar a frequência da monitoração, critérios de desempenho e disponibilidade.

Mas antes de implementar uma solução, é necessário entendê-la. “A monitoração sintética não é uma solução milagrosa, capaz de solucionar todos os problemas em produção, e não se pode esperar que ela seja a única responsável por resolver todos os desafios. Para que a monitoração sintética agregue valor, é fundamental executar diversos processos correlacionados”. Segundo ela, atualmente, existem 72 jornadas monitoradas em quatro segmentos, quase 200 dispositivos dedicado a executar essas tarefas e cerca de 34.000 execuções diárias, com intervalos de 5 minutos.

Reunindo cerca de 52 líderes de empresas como Bauducco, Bradesco Seguros, B3 – Brasil Bolsa Balcão, Seguros Unimed, Itaú Unibanco, Bradesco, Vivo, Azul Linhas Aéreas, Gartner, Grupo Protege, Cielo, PagSeguro, DASA, Via Varejo, Ailos, VR Benefícios, Estapar, F1rst, Klabin S.A., Grupo Casas Bahia, Carrefour, Boticário, FullStory, Banco Santander e TravelEx Bank, a segunda edição do Prime Control Experience foi, na opinião do CEO da Prime Control, Everton Arantes, uma oportunidade de desenvolver o setor de Quality Assurance.

“A comunidade que cuida da gestão e dos desafios é a que tem a responsabilidade de assegurar uma experiência melhor para o cliente, aumentar a conversão e entregar um software com maior qualidade, para que a empresa possa acelerar seus objetivos de negócio e os clientes possam ficar mais satisfeitos, pois tudo está relacionado com a experiência do cliente”, comenta o CEO. “A qualidade é fundamental para que possamos garantir o time-to-market dos nossos clientes e assegurar que eles vão entregar uma experiência mais fluída, um software fácil de usar e com o mínimo de incidentes e problemas no dia a dia”.

Imagem: SOPA Images/Getty Images

Sair da versão mobile