#################################################################################################### 01. Lidando com outliers: Nesta aula, vamos falar sobre outliers ou valores atípicos em conjuntos de dados. Um outlier é um dado que é muito diferente dos outros dados em um conjunto. Eles podem ser causados por erros de medição, dados incompletos ou eventos aleatórios. Os outliers podem afetar os resultados da análise de dados, então é importante identificá-los e lidar com eles adequadamente. Vou fornecer algumas técnicas para lidar com outliers, como identificá-los e documentá-los, removê-los, transformar os dados, agrupá-los ou substituí-los. Também é importante entender a causa do outlier e considerar se é relevante para a análise. Agora, vamos para o código. #################################################################################################### 02. Hands-On - Preparacao Dataframe: Nesta aula, vamos abordar a detecção de outliers em um conjunto de dados. Primeiro, criamos um DataFrame apenas com clientes do tipo "contrato mensal". Em seguida, verificamos se a distribuição dos dados é normal, utilizando um histograma. Observamos que a distribuição não é normal, mas mesmo assim, vamos aplicar duas abordagens para detectar outliers. A primeira abordagem é utilizando o boxplot, que visualmente nos mostra se existem outliers na coluna analisada. No entanto, não encontramos outliers no conjunto de dados. Em seguida, exploramos a detecção de outliers agrupando o boxplot por tipo de contrato. Observamos que há outliers nos clientes com contrato de um ano. A partir disso, vamos utilizar técnicas de detecção de outliers para continuar nossa análise exploratória de dados. #################################################################################################### 03. Hands-On - Metodo Tukey: Nesta aula, vamos aprender sobre o método de Tukey para detectar outliers em distribuições não normais. O objetivo é calcular o Range Interquartile (IKR) e definir os limites para identificar os pontos acima ou abaixo desses limites. Vou mostrar como calcular o IKR usando a fórmula do terceiro quartil menos o primeiro quartil. No código, vamos usar a função Quantile para calcular os quartis e, em seguida, calcular o IKR. Também vamos definir os limites inferior e superior como 1,5 vezes o IKR e filtrar os registros que estão acima ou abaixo desses limites. No próximo vídeo, vamos explorar uma técnica para distribuições normais. #################################################################################################### 04. Hands-On - Metodo Zscore: Nesta aula, discutimos a detecção de outliers em um conjunto de dados usando o z-score. O z-score é uma medida estatística que indica quantos desvios padrões um ponto de dados está distante da média. Usamos o método np.abs do NumPy para transformar os valores em valores absolutos e, em seguida, definimos um limite de 3 para identificar os outliers. Ao aplicar o z-score ao DataFrame, filtramos os registros que estão acima desse limite e encontramos 65 outliers. Essa técnica é útil quando os dados seguem uma distribuição normal e pode ser usada para identificar e tratar outliers em futuras análises. #################################################################################################### 01. Lidando com outliers: Nesta aula, vamos falar sobre outliers ou valores atípicos em conjuntos de dados. Um outlier é um dado que é muito diferente dos outros dados em um conjunto. Eles podem ser causados por erros de medição, dados incompletos ou eventos aleatórios. Os outliers podem afetar os resultados da análise de dados, então é importante identificá-los e lidar com eles adequadamente. Vou fornecer algumas técnicas para lidar com outliers, como identificá-los e documentá-los, removê-los, transformar os dados, agrupá-los ou substituí-los. Também é importante entender a causa do outlier e considerar se é relevante para a análise. Agora, vamos para o código. #################################################################################################### 02. Hands-On - Preparacao Dataframe: Nesta aula, vamos abordar a detecção de outliers em um conjunto de dados. Primeiro, criamos um DataFrame apenas com clientes do tipo "contrato mensal". Em seguida, verificamos se a distribuição dos dados é normal, utilizando um histograma. Observamos que a distribuição não é normal, mas mesmo assim, vamos aplicar duas abordagens para detectar outliers. A primeira abordagem é utilizando o boxplot, que visualmente nos mostra se existem outliers na coluna analisada. No entanto, não encontramos outliers no conjunto de dados. Em seguida, exploramos a detecção de outliers agrupando o boxplot por tipo de contrato. Observamos que há outliers nos clientes com contrato de um ano. A partir disso, vamos utilizar técnicas de detecção de outliers para continuar nossa análise exploratória de dados. #################################################################################################### 03. Hands-On - Metodo Tukey: Nesta aula, vamos aprender sobre o método de Tukey para detectar outliers em distribuições não normais. O objetivo é calcular o Range Interquartile (IKR) e definir os limites para identificar os pontos acima ou abaixo desses limites. Vou mostrar como calcular o IKR usando a fórmula do terceiro quartil menos o primeiro quartil. No código, vamos usar a função Quantile para calcular os quartis e, em seguida, calcular o IKR. Também vamos definir os limites inferior e superior como 1,5 vezes o IKR e filtrar os registros que estão acima ou abaixo desses limites. No próximo vídeo, vamos explorar uma técnica para distribuições normais. #################################################################################################### 04. Hands-On - Metodo Zscore: Nesta aula, discutimos a detecção de outliers em um conjunto de dados usando o z-score. O z-score é uma medida estatística que indica quantos desvios padrões um ponto de dados está distante da média. Usamos o método np.abs do NumPy para transformar os valores em valores absolutos e, em seguida, definimos um limite de 3 para identificar os outliers. Ao aplicar o z-score ao DataFrame, filtramos os registros que estão acima desse limite e encontramos 65 outliers. Essa técnica é útil quando os dados seguem uma distribuição normal e pode ser usada para identificar e tratar outliers em futuras análises. #################################################################################################### 01. Lidando com outliers: Nesta aula, vamos falar sobre outliers ou valores atípicos em conjuntos de dados. Um outlier é um dado que é muito diferente dos outros dados em um conjunto. Eles podem ser causados por erros de medição, dados incompletos ou eventos aleatórios. Os outliers podem afetar os resultados da análise de dados, então é importante identificá-los e lidar com eles adequadamente. Vou fornecer algumas técnicas para lidar com outliers, como identificá-los e documentá-los, removê-los, transformar os dados, agrupá-los ou substituí-los. Também é importante entender a causa do outlier e considerar se é relevante para a análise. Agora, vamos para o código. #################################################################################################### 02. Hands-On - Preparacao Dataframe: Nesta aula, vamos abordar a detecção de outliers em um conjunto de dados. Primeiro, criamos um DataFrame apenas com clientes do tipo "contrato mensal". Em seguida, verificamos se a distribuição dos dados é normal, utilizando um histograma. Observamos que a distribuição não é normal, mas mesmo assim, vamos aplicar duas abordagens para detectar outliers. A primeira abordagem é utilizando o boxplot, que visualmente nos mostra se existem outliers na coluna analisada. No entanto, não encontramos outliers no conjunto de dados. Em seguida, exploramos a detecção de outliers agrupando o boxplot por tipo de contrato. Observamos que há outliers nos clientes com contrato de um ano. A partir disso, vamos utilizar técnicas de detecção de outliers para continuar nossa análise exploratória de dados. #################################################################################################### 03. Hands-On - Metodo Tukey: Nesta aula, vamos aprender sobre o método de Tukey para detectar outliers em distribuições não normais. O objetivo é calcular o Range Interquartile (IKR) e definir os limites para identificar os pontos acima ou abaixo desses limites. Vou mostrar como calcular o IKR usando a fórmula do terceiro quartil menos o primeiro quartil. No código, vamos usar a função Quantile para calcular os quartis e, em seguida, calcular o IKR. Também vamos definir os limites inferior e superior como 1,5 vezes o IKR e filtrar os registros que estão acima ou abaixo desses limites. No próximo vídeo, vamos explorar uma técnica para distribuições normais. #################################################################################################### 04. Hands-On - Metodo Zscore: Nesta aula, discutimos a detecção de outliers em um conjunto de dados usando o z-score. O z-score é uma medida estatística que indica quantos desvios padrões um ponto de dados está distante da média. Usamos o método np.abs do NumPy para transformar os valores em valores absolutos e, em seguida, definimos um limite de 3 para identificar os outliers. Ao aplicar o z-score ao DataFrame, filtramos os registros que estão acima desse limite e encontramos 65 outliers. Essa técnica é útil quando os dados seguem uma distribuição normal e pode ser usada para identificar e tratar outliers em futuras análises. #################################################################################################### 01. Lidando com outliers: Nesta aula, vamos falar sobre outliers ou valores atípicos em conjuntos de dados. Um outlier é um dado que é muito diferente dos outros dados em um conjunto. Eles podem ser causados por erros de medição, dados incompletos ou eventos aleatórios. Os outliers podem afetar os resultados da análise de dados, então é importante identificá-los e lidar com eles adequadamente. Vou fornecer algumas técnicas para lidar com outliers, como identificá-los e documentá-los, removê-los, transformar os dados, agrupá-los ou substituí-los. Também é importante entender a causa do outlier e considerar se é relevante para a análise. Agora, vamos para o código. #################################################################################################### 02. Hands-On - Preparacao Dataframe: Nesta aula, vamos abordar a detecção de outliers em um conjunto de dados. Primeiro, criamos um DataFrame apenas com clientes do tipo "contrato mensal". Em seguida, verificamos se a distribuição dos dados é normal, utilizando um histograma. Observamos que a distribuição não é normal, mas mesmo assim, vamos aplicar duas abordagens para detectar outliers. A primeira abordagem é utilizando o boxplot, que visualmente nos mostra se existem outliers na coluna analisada. No entanto, não encontramos outliers no conjunto de dados. Em seguida, exploramos a detecção de outliers agrupando o boxplot por tipo de contrato. Observamos que há outliers nos clientes com contrato de um ano. A partir disso, vamos utilizar técnicas de detecção de outliers para continuar nossa análise exploratória de dados. #################################################################################################### 03. Hands-On - Metodo Tukey: Nesta aula, vamos aprender sobre o método de Tukey para detectar outliers em distribuições não normais. O objetivo é calcular o Range Interquartile (IKR) e definir os limites para identificar os pontos acima ou abaixo desses limites. Vou mostrar como calcular o IKR usando a fórmula do terceiro quartil menos o primeiro quartil. No código, vamos usar a função Quantile para calcular os quartis e, em seguida, calcular o IKR. Também vamos definir os limites inferior e superior como 1,5 vezes o IKR e filtrar os registros que estão acima ou abaixo desses limites. No próximo vídeo, vamos explorar uma técnica para distribuições normais. #################################################################################################### 04. Hands-On - Metodo Zscore: Nesta aula, discutimos a detecção de outliers em um conjunto de dados usando o z-score. O z-score é uma medida estatística que indica quantos desvios padrões um ponto de dados está distante da média. Usamos o método np.abs do NumPy para transformar os valores em valores absolutos e, em seguida, definimos um limite de 3 para identificar os outliers. Ao aplicar o z-score ao DataFrame, filtramos os registros que estão acima desse limite e encontramos 65 outliers. Essa técnica é útil quando os dados seguem uma distribuição normal e pode ser usada para identificar e tratar outliers em futuras análises. #################################################################################################### 01. Lidando com outliers: Nesta aula, vamos falar sobre outliers ou valores atípicos em conjuntos de dados. Um outlier é um dado que é muito diferente dos outros dados em um conjunto. Eles podem ser causados por erros de medição, dados incompletos ou eventos aleatórios. Os outliers podem afetar os resultados da análise de dados, então é importante identificá-los e lidar com eles adequadamente. Vou fornecer algumas técnicas para lidar com outliers, como identificá-los e documentá-los, removê-los, transformar os dados, agrupá-los ou substituí-los. Também é importante entender a causa do outlier e considerar se é relevante para a análise. Agora, vamos para o código. #################################################################################################### 02. Hands-On - Preparacao Dataframe: Nesta aula, vamos abordar a detecção de outliers em um conjunto de dados. Primeiro, criamos um DataFrame apenas com clientes do tipo "contrato mensal". Em seguida, verificamos se a distribuição dos dados é normal, utilizando um histograma. Observamos que a distribuição não é normal, mas mesmo assim, vamos aplicar duas abordagens para detectar outliers. A primeira abordagem é utilizando o boxplot, que visualmente nos mostra se existem outliers na coluna analisada. No entanto, não encontramos outliers no conjunto de dados. Em seguida, exploramos a detecção de outliers agrupando o boxplot por tipo de contrato. Observamos que há outliers nos clientes com contrato de um ano. A partir disso, vamos utilizar técnicas de detecção de outliers para continuar nossa análise exploratória de dados. #################################################################################################### 03. Hands-On - Metodo Tukey: Nesta aula, vamos aprender sobre o método de Tukey para detectar outliers em distribuições não normais. O objetivo é calcular o Range Interquartile (IKR) e definir os limites para identificar os pontos acima ou abaixo desses limites. Vou mostrar como calcular o IKR usando a fórmula do terceiro quartil menos o primeiro quartil. No código, vamos usar a função Quantile para calcular os quartis e, em seguida, calcular o IKR. Também vamos definir os limites inferior e superior como 1,5 vezes o IKR e filtrar os registros que estão acima ou abaixo desses limites. No próximo vídeo, vamos explorar uma técnica para distribuições normais. #################################################################################################### 04. Hands-On - Metodo Zscore: Nesta aula, discutimos a detecção de outliers em um conjunto de dados usando o z-score. O z-score é uma medida estatística que indica quantos desvios padrões um ponto de dados está distante da média. Usamos o método np.abs do NumPy para transformar os valores em valores absolutos e, em seguida, definimos um limite de 3 para identificar os outliers. Ao aplicar o z-score ao DataFrame, filtramos os registros que estão acima desse limite e encontramos 65 outliers. Essa técnica é útil quando os dados seguem uma distribuição normal e pode ser usada para identificar e tratar outliers em futuras análises.