pessoal vamos falar agora um pouquinho do head shift, head shift é uma ferramenta super poderosa também ela é utilizada muito pra você que vai precisar fazer análise de grande volume de dados conseguir entender como é que estão funcionando e se relacionando ali ele é um serviço ali muito utilizado para data warehouse basicamente para quem vai precisar olhar ali uma baita capacidade de dados ele tem uma possibilidade de você escalar muito e olhar muito análise de dados, então se você quiser buscar muito, muito dados e analisar isso, ele é o cara tá. Então diferente do que a gente estava falando até agora, que era um modelo mais transacional e assim por diante, esse aqui é para analítico de dados, então quando você tiver precisando fazer coisas nesse sentido, ele vai te dar ali uma capacidade de consulta em petabytes, ou seja, você vai conseguir puxar muita informação para fazer muita análise de dados e trabalhar com seu Analytics com mais tranquilidade. O Redshift tem uma grande diferença, que eu acho que a primeira coisa que a gente tem que falar é que ele não tem uma arquitetura em coluna, perdão, ele não tem uma arquitetura em linha, ele tem uma arquitetura em coluna. Então, diferente dos bancos de dados que a maior parte da galera está acostumada, que você vai lá e grava suas informações em linha, o Redshift tem uma estratégia de guardar em coluna. E você deve estar pensando, puta, que loucura, como assim, né? Primeiro, ele faz isso porque com isso mais rápido e mais veloz para buscar informação. Lembra, aqui a gente não estava buscando informação transacional, então ele não foi feito para isso, ele não foi feito para você ir lá e buscar dados de um cliente, por exemplo, para mostrar na tela para ele. Ele foi feito para você analisar grandes grupos de dados. Então, para quem está analisando grandes grupos de dados, você não está buscando uma linha específica, possivelmente. A maior parte das vezes você está buscando conjuntos. E acho que por isso a grande sacada aqui da gente utilizar um banco de dados que ele vai ter uma arquitetura em colunas e não em linhas. Mas vamos lá, o que é uma arquitetura em colunas e não em linhas? Eu fiz aqui um exemplo para a gente ver. Imagina esse banco de dados, tá? Você tem o seu ID, a data, o ID do seu cliente, assim por diante, beleza? Tem tudo isso daqui no dia a dia. Se você tivesse que olhar um banco de dados em linha, ele ia estar como? Ele ia estar olhando linha a linha, certo? Assim como está aqui embaixo, ó, linha 1, eu tenho ID 1, a data, o Customer ID, Product ID, assim por diante, beleza? Então, essa é a primeira linha, essa é a segunda linha, essa é a terceira linha. Os dados estão todos em linha, fechou? Agora vamos olhar como é que o Redshift monta isso, se você olhar, se você pegar o esquema dele, tá? Ele vai colocar o quê? A coluna, seu ID, e vai colocar lá tudo que tem ali dentro. Depois a data, tudo que tem ali dentro, o Customer ID, tudo que tem ali dentro e assim por diante. Na hora que ele vai buscar, quando você faz um select, por exemplo, por Customer ID, ou por exemplo, por quantidade de compras, quando você faz o select, ele não precisa ler tudo isso daqui, ele vai pegar direto essa linha e ele vai poder limpar a base de pesquisa dele. Com isso ele vai ser muito mais rápido, ele vai conseguir te entregar uma quantidade de informações muito mais rápida. A mudança de paradigma que traz para você velocidade de processamento. Ah, mas colocar isso aqui no transacional funcionaria? Não acho que funcionaria. Se você começar a colocar desse jeito no transacional, vai dar alguns problemas. Para o que a gente tem que fazer aqui, para o Redshift, quando ele está usando para análise de dados, aí para análise de dados, aí acho que faz bastante sentido, funciona super bem, porque conforme eu falei, você está querendo ver grupos de dados e não dados específicos, então por isso fica mais fácil, você vai ver que normalmente os esquemas de consulta são totalmente diferentes de um esquema normal de um banco de dados transacional, beleza? Tem uma outra coisa também que eu acho muito interessante da Redshift, que é o jeito que ele faz a compreensão de dados. coisa também que eu acho muito interessante da Redshift que é o jeito que ele faz a compreensão de dados ele tem uma compreensão bem como é que eu posso dizer bem bem apurada bem diferenciada, bem legal de fazer ele tem algumas estratégias de compreensão de dados que eu acho que faz sentido a gente comentar um pouco uma delas é o valor delta que é muito legal de usar também quando a gente está falando de conjunto de grandes dados, codificação de texto e compreensão baseada em RAM length. Acho que aqui são algumas coisas que vão ajudar na eficiência do armazenamento para o banco de dados também não ficar tão alto. Então, com tanto dado, você consegue ter mais eficiência na hora de armazenar e na hora da consulta você acaba buscando essa eficiência também. Como é que funciona isso? Eu fiz aqui alguns exemplos bem rapidinho aqui só para a gente discutir um pouco. O valor delta, a primeira coisa que a gente falou. Imagina que você tem aqui ID, 1001, 1002, 1003, 1004. Você está vendo que guardar um valor delta, ele tem aqui 1, 2, 3, 4, 4 itens, mais 4, mais 4, mais 4. Isso aqui gera certo espaço para você armazenar. Se você trabalhar com o delta, ou seja, a diferença de um para o outro, você reduz e daí com isso você consegue ter uma eficiência maior na guarda do dado. Então, basicamente, o valor delta vai usar o valor delta, ou seja, a diferença de um valor para o outro, como índice de armazenamento. Então você pega o primeiro valor e vai colocar lá, 1001, beleza, esse você guardou. O resto você vai acrescentando em cima do 1001, com isso você consegue diminuir. Esse tipo de estratégia do Redshift é automático, você consegue usar isso daqui para deixar ele mais rápido e ele vai decidir se faz isso ou não, mais rápido e com mais armazenamento mais eficiente, beleza? Tem outro cara também que é o Text Encoding que é uma outra diferença também pensa que aqui a gente tem USA Estados Unidos, Canadá, México Estados Unidos, beleza a gente está falando então, Estados Unidos, Estados Unidos Estados Unidos, Canadá e México são três itens, no fim das contas só que representados por texto. Como eu represento por texto, eles têm um tamanho, está vendo? Canadá, por exemplo, é gigante. Se eu fizer um depara, ou seja, se eu indexar isso em um número, eu vou ter um índice daquele país. Então, por exemplo, aqui a gente chamou os Estados Unidos de 01. Então, toda vez que tiver Estados Unidos, vai ser 01, 01, 01. Canadá, 02. México, 03. Então, toda vez que eles aparecerem, eles vão estar com esse índice do que significa cada coisa. Com isso, você também, de novo, vai ter mais eficiência no armazenamento disso. E com isso, você vai ter um banco de dados mais eficiente. com isso você vai ter um banco de dados mais eficiente. Tem um outro cara aqui também que ele vai fazer o seguinte, ele vai ter uma estratégia de analisar os dados, beleza? E agrupá-los. Basicamente seria isso, tá? Então pensa assim, se você tiver dados repetidos e que são muito próximos, então pensa assim, vou dar um exemplo, tá? Imagina uma entrega de marketplace, você tem lá, por exemplo, alguns tipos de pedido, né? Imagina se tem uma tabela lá que tem entregue, em trânsito ou em separação, beleza? São três status, uma tabela gigantesca. Várias vezes eles vão estar repetidos, você vai pegar vários e vai estar entregue, entregue, entregue, entregue, em um pending, um com outro tipo de status, ele ia colocar um com outro tipo de status, e depois mais 15 com shippage, ele ia vender 15 shippage. Então essa é a diferença, ele começa a agrupar e depois ele expande isso na hora que você consulta. Com isso ele também consegue ser mais eficiente, beleza? Ele também tem uma estratégia de processamento muito legal, que ele usa o MPP, ou seja, uma arquitetura de processamento mas se em paralelo que fala ou seja vai executar muita coisa em paralelo e com isso ele consegue te dar um monte de resposta é de múltiplos nós ali para acelerar sua consulta como está buscando muito dado tem estratégia de consulta é muito crucial aqui por isso que essa distribuição de carga de trabalho ela é bem inteligente do Redshift pra conseguir te entregar esse tipo de processamento beleza? Tem um outro cara que também é muito interessante que é o Redshift Spectrum ele faz o seguinte imagina que você está buscando num banco de dados gigantesco uma porrada de dados, então você está com aquele data lake ali gigantesco aquele monte de conjunto de dados quando você começa a analisar, você pode usar um espectro indício dentro de um S3, ou seja, você vai pegar os dados que você está usando mais, jogar para dentro de um S3, trabalhar em cima disso para você não ter que ficar carregando no Redshift toda hora. Então, você consegue analisar sem ficar movimentando todo o conjuntão de dados. Então, você meio que separa o seu conjunto de amostras dentro do S3 com o Redshift Spectrum. Ele faz isso para você e você consegue ter uma análise mais direta sem ficar movimentando muitos dados, beleza? Outra coisa também, óbvio, como qualquer produto ali da AWS ele tem uma escalabilidade automática, então você vai conseguir aumentar ou diminuir o processamento dele e com isso você vai ter uma capacidade tanto de processamento quanto de armazenamento boa, e com isso você vai ter recurso suficiente para o que você precisar, ou seja, consegue escalar, você não vai ter dificuldade ali com armazenamento nem com processamento, tá bom? E quando a gente está falando de segurança, a mesma coisa de quase todos eles, a gente está falando de KMS, ou seja, seu dado em repouso em trânsito vão estar seguros, criptografados ali com as duas chaves que a gente já falou, e você vai ter o IAM aqui por trás para também gerenciar o acesso ao circuito da Redshift de forma granular para ver quem que acessa, como que acessa e assim por diante. Com isso você garante um conjunto de segurança bastante inteligente também para o seu processamento aí. Outra coisa, integração com a AWS, pô, é um serviço da AWS, então ele integra com todos os serviços da AWS possíveis e imagináveis, Amazon S3, RDS, Glue, Glue para quem não conhece é para fazer ali tratamento de dados, assim por diante, o Lambda, o Amazon QuickSight, que também é legal, a gente vai falar um pouquinho do QuickSight aqui, e com isso você vai ter muita facilidade ali pra fazer a gestão, transformação e etc, dos seus dados aí.