E agora, galera, a gente vai pra mais um cara. Sim, existe vida depois do chain of thought, tá? E na realidade, é um cara bem interessante. Eu poderia ter citado ele até antes de ter ido pros outros, mas eu preferi fazer essa separação proposital. Existe um camarada que é chamado de self-consistency, tá? Por padrão, ele é um chain of thought de forma geral. Como que ele funciona? O prompt induz o modelo a pensar passo a passo usando o chain of thought. A tarefa é executada diversas vezes, tipicamente de 5 a 10 vezes. As respostas são geradas e coletadas e comparadas. A saída final é definida por uma votação majoritária ou por métrica de consistência. O princípio é simples. O modelo pode cometer erros em uma cadeia específica. Mas com múltiplas execuções, as respostas mais confiáveis tendem a convergir. O que acontece? Lembra que eu falei para vocês que quando a gente está trabalhando no chain of thought, a gente tem um problema que às vezes a gente pede para ele pensar passo a passo, mas se em um dos raciocínios ele errar, o próximo raciocínio vai estar errado e vai gerar um efeito dominó na sua resposta. Então, a ideia do self-consistence é basicamente pegar aquela informação, executar várias vezes, tá? E daí você vai comparar essas linhas de raciocínio e ver quais são as respostas que têm mais consistência depois de várias execuções. Quando você começa a ver várias respostas que acabam chegando no mesmo lugar, você fala, opa, eu tenho consistência baseado nisso. Agora, olha, essa resposta aqui que ele colocou está muito diferente das outras. Então, provavelmente, essa resposta, ele deu alguma vacilada, tá? Pessoal, vocês conseguem sacar a importância da gente fazer isso? Então, quando utilizar, quando há ambiguidade ou contradição matemática ou estrutural, você tá pensando uma lógica, uma linha de raciocínio, você quer uma estrutura organizacional da forma de como algo deve ser feito. A tarefa é suscetível a variações de raciocínio. Tenho várias formas de resolver a mesma coisa. O modelo, ele tende a dar boas respostas às vezes, mas não sempre. Então, se você executar várias vezes, você vai conseguir ter essa ideia aí pra gente, tá? Você aumenta a confiabilidade de saída com pouco custo computacional adicional, porque você já está pedindo a mesma coisa. Por que que funciona? As LLMs operam com amostragem probabilística, tá? E a gente escolhe a temperatura, né? Ou seja, conforme a gente escolhe essa temperatura, ela pode ser mais, entre aspas, criativa ou não. E essa criatividade pode gerar, né? Um encadeamento, por exemplo, de pensamento viajado. Entendeu? Então, quando você acabar tendo essas variações muito grandes, o que acontece? Eu realizar várias execuções, a gente reduz a alucinação. Se ele alucinou duas vezes, mas eu rodei o negócio dez vezes, as oito vezes teve resultado parecido, eu vou ignorar as das outras duas vezes, tá? Então, eu tenho uma chance maior de ter uma resposta estatisticamente sólida e a gente acaba priorizando coerência entre caminhos lógicos distintos, tá? Então, aqui a gente tem o paper só de self-consistency. Vou deixar aqui para vocês darem uma olhada aqui também. Beleza? Então, está aí para que a gente consiga se ligar à parte de self-consistency. Então, vamos pensar uma situação aqui. Você está desenvolvendo a estimativa de um custo mensal para uma aplicação em produção na AWS. A aplicação usa, por exemplo, 10 instâncias EC2-T3-Large na região US-East, 1 TB de armazenamento EBS, 1 load balancer, 100 GB de transferência de dados saindo por mês. Como pequenos desvios podem ocorrer entre as execuções, você pode decidir aplicar self-consistency para gerar múltiplas estimativas e selecionar mais confiável. Então, por exemplo, calcule o custo mensal dessa infraestrutura. Pense passo a passo. E aí ele faz uma execução e gera um valor. Aí ele faz uma outra execução e gera outro valor. Aí ele gera uma outra execução e gera outro valor. Nesse caso aqui eu forcei bem a barra. Se você olhar a execução 1 e execução 3, está trazendo as respostas mais parecidas aqui para mim. E como ela está fazendo isso, e a opção 2 está trazendo uma resposta diferente, adivinha com qual eu vou ficar? Então, eu estou pensando na self-consistence. Então, como eu tive o resultado estimado repetido em duas execuções, provavelmente eu vou dizer que ela é a resposta mais confiável. Legal? Essa é a ideia principal do self-consistence. Então, aplicações práticas. Estimativa de custo de capacidade, planejamento de sizing de ambientes, validação de resultados numéricos ou previsões algorítmicas, verificação de hipóteses técnicas sobre múltiplos critérios, comparação lógica interna em testes de arquitetura, dicas de aplicação, gere de 5 a 10 respostas com uma temperatura de 0.5 para estimular caminhos diversos. Porque se você tiver algo, vamos dizer, com uma temperatura que vá fazer com que ele, de forma geral, não explore, não fique, entre aspas, criativo, você vai ter também respostas muito consistentes e daí também você perde oportunidades de ter outras opções, tá? Então, exemplo completo usando as dicas de aplicação. Você quer estimar o número ideal de charges para uma base de dados multi-tenant com 80 mil clientes. Pronto. Qual o número ideal de charges para participar, para particionar uma base de 80 mil clientes considerando escalabilidade, performance e isolamento. Pense passo a passo. E daí, eu testo, por exemplo, diferentes temperaturas, por exemplo. Então, eu vou gerar oito respostas variando de temperaturas, de 0.6 a 0.8, para ele explorar caminhos realmente diferentes. Aí, normalização da saída. Antes de comparar, remove as diferenças como 10 shards, 10, 10. Tudo é convertido para 10, galera. Ou seja, uma simples variação na saída, aqui a gente pode ter problemas. E a seleção da resposta final. 5 ou 8 execuções sugerem 10 shards, como raciocínio de 8 mil clientes por shard, balanceamento operacional, flexibilidade. Você implementa o script simples, resultado final, 10 shards justificado pela frequência, coerência técnica e compatibilidade. Então, essa que é a ideia interessante de você aplicar todo essa ideia de self-consistency, tá? E daqui a pouco, em seguida, próximo vídeo, a gente vai falar sobre directional stimulus, tá? Ou directed prompt. Então, a gente vai falar isso daqui a pouquinho. Vamos nessa.