# Procedimento para gerar um arquivo csv contendo dados candidatos para o modelo preditivo
geraCenario <- function(ent_volume, out_arq_destino)
	{
		df_tipo_vs_visualiz = df_clima_consolidado %>% 
			select (state:hour) %>%						
			filter(!shape %in% c("Other")) %>%
			group_by (shape) %>%
			summarise(quantas =  n()) %>%
			filter(quantas > ent_volume) %>%
			arrange (desc(quantas)) 
		df_OVNI <- df_clima_consolidado[(df_clima_consolidado$shape %in% df_tipo_vs_visualiz$shape),] 

		tipos <- unique(df_tipo_vs_visualiz$shape) # tipos[1] é Light
		df_final <- data.frame()
		for (t in tipos){
		  x <- df_OVNI[ sample( which( df_OVNI$shape == t ) , ent_volume ) , ]
		  df_final <- rbind(df_final,x)
		}
		#rownames(df_final) <- c() # get rid of row names
		df_OVNI <- df_final
		write.csv(rbind(df_OVNI), file =  out_arq_destino,  row.names=FALSE) 
	}
	# Fim rotina geraCenario
	
# Chamada
setwd("D:\\R")
library(dplyr)

df_clima_consolidado <- read.csv(file="clima_consolidado_v01.csv", header=TRUE, sep=",")
dim(df_clima_consolidado)
c1 = geraCenario (500, "Curso_3_Aula_5_Teste_1.csv")  # 4.500 observações
c2 = geraCenario (2000, "Curso_3_Aula_5_Teste_2.csv") # 6.000 observações

df_clima_consolidado <- read.csv(file="clima_consolidado_v02.csv", header=TRUE, sep=",")
dim(df_clima_consolidado)
c3 = geraCenario (3500, "Curso_3_Aula_5_Teste_3.csv") # 10.500 observações (este csv será fornecido)