Game Day. Os Game Days visam replicar falhas e desvios de comportamento para testar sistemas, processos e resp para que a equipe desenvolva uma resposta rápida e eficaz, criando uma espécie de memória muscular para lidar com incidentes. Os Game Days devem abranger todas as áreas envolvidas na operação dos workloads, incluindo operações, testes, desenvolvimento, segurança, finanças e também o time de negócios. Os game days podem ser conduzidos com réplicas do ambiente de produção, utilizando infraestrutura como código, ou mesmo em um ambiente de homologação, que haja uma réplica fiel do ambiente produtivo. Isso proporciona um ambiente seguro para testes, que se assemelha muito ao ambiente real de produção. para testes que se assemelha muito ao ambiente real de produção. Bom, e quais são as etapas de um Game Day? A primeira coisa é definir o cenário que deseja praticar. Então escolha o evento ou falha que deseja simular baseando-se em falhas anteriores, fraquezas conhecidas nos processos ou na equipe, picos sazionais na demanda, dentre outros. Isso ajudará a direcionar o foco do exercício. A segunda etapa, execute a simulação. Realize a simulação em um local separado, fora do ambiente de produção. Anuncie o início do Game Day. Execute os eventos simulados ao longo do dia. Execute cada evento simulado utilizando o seu roteiro, confirmando as execuções para garantir que o resultado seja o desejado. Identifique através dos observadores quando o problema for corretamente abordado e use o feedback dos observadores para determinar se deve atrasar algum evento simulado. para determinar se deve atrasar algum evento simulado. Documente áreas onde suas ferramentas, processos, procedimentos e pessoas não atendem às necessidades e expectativas, usando um processo de RCA. Realize uma análise após o término do Game Day para determinar se é necessário fornecer algum tipo de educação, treinamento, ferramentas adicionais e documente oportunidades para testar áreas adicionais em game days subsequentes. Então, vejam, aqui, o que a gente está falando? Como vai funcionar basicamente a dinâmica de um game day? A gente vai ter um caderninho de testes, certo? Esse caderno de testes vai ser baseado aqui em experiências anteriores, então problemas que a gente pode já ter enfrentado, pode acabar motivando aqui, ou algum tipo de fraqueza conhecida que a gente já entenda que faz sentido a gente explorar. A gente vai definir qual é o ambiente que vai ser executado, então se vai ser uma réplica, se de repente isso vai ser feito no ambiente de homologação, caso o ambiente de homologação suporte esse tipo de cenário a gente vai começar então ali a disparar os eventos então aqui muitas vezes a gente está falando de injetar de propósito utilizar até ferramentas de chaos mesmo a gente pode disparar um experimento utilizando uma ferramenta de chaos sem comunicar para ninguém, consequent, o que vai acontecer? Ou o que seria esperado que acontecesse? Vai gerar algum tipo de desvio de comportamento no ambiente. A gente tem que ter alguns dashboards que vão pegar esse tipo de desvio. A gente vai ter que ter uma ferramenta de alertas. Essa ferramenta de alerta tem que estar integrada ali para você, ferramenta de alertas essa ferramenta de alerta tem que estar integrado ali para você né com alguma outra ferramenta de sm para você receber incidente para você receber notificação via e-mail de repente receber uma notificação no slack ou no times alguma coisa nesse sentido que você fala assim beleza estou com algum problema aqui no meu ambiente um ambiente falha proposital então beleza e a gente vai definir algumas pessoas um time dentro desse time a gente vai pegar algumas pessoas ali que vão ser incumbidas de fazer o troubleshooting para resolver os problemas e aí vai começar a olhar e falar assim, puta, beleza caiu um alerta aqui, aonde que ele tá qual foi o componente que gerou esse alerta tem algum humbook, tem algum KB associado deixa eu olhar se esse KB resolve meu problema, deixa eu ver se eu tenho esse KB deixa eu dar uma olhada se eu tenho algum dashboard desse componente e ele vai evoluindo ali na investigação, deixa eu fazer uma análise dos logs, deixa eu fazer uma análise das métricas, deixa eu ver se eu tenho algum problema aqui nos meus traces, se eu tenho algum erro nos meus traces que possa estar justificando esse tipo de problema. E todo o restante das pessoas vão observando ali e entendendo o que está acontecendo. Muitas vezes a gente não dispara um único experimento. Então, a gente dispara um experimento, vê o que aconteceu, vê como o time se comportou, puta, beleza, resolveu o problema. A gente dispara um segundo experimento um terceiro experimento e a gente pode ir dosando se a gente vai disparar o próximo ou não conforme a evolução das pessoas que tiverem também no troubleshooting analisando esse ambiente e aí qual que é o benefício maior que a gente tem desse tipo desse tipo de técnica aqui a gente vai pegar aí provavelmente gaps de acordo com o desenvolvimento da lógica de troubleshooting eu tinha realmente todas as ferramentas, eu tinha todos os dashboards, os incidentes foram gerados da forma adequada, quanto tempo levou para que o problema, o experimento que eu tivesse feito, até o problema ser gerado, a ferramenta notificar, você ficar sabendo e começar a fazer o troubleshooting, quanto tempo levou. Então, todas aquelas métricas de incidentes, a gente também consegue fazer uma análise ali, né? A gente também consegue entender se o time está bem capacitado, então, putz, de repente o cara tentou fazer um troubleshooting e ele não conhece muito bem aquela ferramenta, será que esse é um cenário específico dessa pessoa, Será que esse é um cenário específico dessa pessoa? Será que esse é um cenário específico da equipe inteira? De repente a gente tem que trabalhar em algum tipo de treinamento, alguns workshops para passagem de conhecimento. Então percebam, a gente consegue tirar diversos benefícios desse tipo de abordagem. A gente consegue tirar diversos benefícios desse tipo de abordagem. A gente vai, ao término, fazer um RCA para entender também a qualidade do nosso post-mortem, se está sendo bem preenchido, se não está, quais informações faltaram. A gente vai documentar como foi feito esse Game Day. E a gente também, com base nos feedbacks que a gente teve desse Game Day, entender quais são as melhorias que a gente consegue fazer para os próximos Game Days. Então, a fim de a gente conseguir ter cada vez mais esse processo mais disseminado para toda a corporação, por exemplo.