AutoML

O Gaio utiliza a tecnologia H2O AutoML (Automatic Machine Learning) para criar modelos preditivos de forma automatizada. Isso significa que o Gaio operacionaliza todo o processo: conexão com os dados, processamento, envio das diretrizes de treino e modelagem para o H2O AutoML, recuperação dos resultados da execução e entrega desses resultados em uma interface amigável ao usuário. Todo esse fluxo pode ser totalmente automatizado dentro do Gaio.

Como usar o AutoML

1. Acessar a task AutoML

No menu lateral esquerdo, vá até Analytics e selecione a tarefa AutoML.

2. Configurar o modelo

Na tela de configuração:

Nome do Modelo (opcional): Informe um nome para o modelo (ex.: auto_ML).
Tabela: Selecione a tabela que será usada como fonte de dados.
Alvo: Escolha a variável que deseja prever (ex.: status).
Colunas para remover: Informe colunas que devem ser excluídas do treinamento (ex.: IDs).
Tempo de treinamento (Segundos): Tempo estimado que o sistema utilizará para treinar os modelos.
Limite de linhas: Por padrão, o Gaio utiliza até 100.000 linhas para o treinamento. Esse valor pode ser ajustado, porém valores mais altos podem sobrecarregar o servidor.

O processo de modelagem costuma ser intensivo em memória e processamento. Por isso, é fundamental ter atenção ao volume de dados utilizado. Uma boa estratégia é utilizar uma amostra representativa do dataset, o que geralmente mantém a qualidade do modelo, permite criar mais modelos em menos tempo e evita sobrecarga do servidor. Para grandes volumes de dados, utilize a Amostragem antes do AutoML para reduzir o volume e otimizar a performance. Embora seja possível alterar o limite padrão de 100 mil linhas, isso só é recomendado em cenários onde o servidor possui grande capacidade.

Clique em Salvar e Treinar para iniciar o processo.

3. Acompanhar o progresso

Durante o treinamento, a interface exibe duas barras de progresso:

Preparation: Etapa de preparação e pré-processamento dos dados
Training: Construção e teste dos modelos

4. Técnicas utilizadas

Diversas técnicas são aplicadas no processo de modelagem automática. Abaixo estão algumas delas, com referência à documentação oficial do H2O:

GLM (Generalized Linear Model)
XGBoost: Combinação de múltiplas árvores de decisão criadas em paralelo
GBM (Gradient Boosting Machine)
DeepLearning: Uso de Redes Neurais

Critérios de treino e validação são aplicados automaticamente. O Gaio utiliza Cross-Validation para avaliar a assertividade dos modelos.

É utilizado 5-Fold Cross-Validation, que gera 5 amostras aleatórias do mesmo tamanho para treinar diversos modelos.

O critério principal para priorização do modelo é a Accuracy.

Variáveis de resposta

Variáveis Categóricas (texto) e Numéricas são aceitas como variáveis alvo.
Quando a variável de resposta é numérica, o Gaio entende que o objetivo é prever um valor numérico, e não a probabilidade de ocorrência de um evento.

Se a variável de resposta for Cancelamento de Serviço com valores 0 ou 1, será necessário transformá-los em algo como R0 ou R1. Isso porque, nesse caso, o objetivo é calcular a probabilidade do cliente cancelar (1) ou não cancelar (0). Caso contrário, sendo numérica, o Gaio interpretaria que o objetivo é prever um número absoluto, como o valor de uma compra. Técnicas e resultados distintos são aplicados dependendo do tipo da variável de resposta.

5. Revisar os resultados

Após a conclusão, o sistema exibirá um relatório completo contendo:

Summary: Resumo do processo automático de construção do modelo e avaliação geral da qualidade
Model Accuracy: Acurácia do melhor modelo gerado
ROC Curve: Representação visual da performance do modelo
Most Important Variables: Lista das variáveis mais importantes para a predição
Models: Lista de todos os modelos criados dentro do tempo definido, com estatísticas de qualidade

Tabelas de apoio

Cross Validation
Confusion Matrix
Gain Table
Maximum Metrics

6. Aplicar o modelo

O modelo treinado é salvo e pode ser reutilizado por meio da Scoring Task, permitindo aplicar previsões a novos conjuntos de dados.

AnteriorAmostragem PróximoScoring

Atualizado há 1 mês

hashtagComo usar o AutoML

hashtagComo usar o AutoML

hashtag1. Acessar a task AutoML

hashtag2. Configurar o modelo

hashtag3. Acompanhar o progresso

hashtag4. Técnicas utilizadas

hashtag5. Revisar os resultados

hashtag6. Aplicar o modelo

Como usar o AutoML

Como usar o AutoML

1. Acessar a task AutoML

2. Configurar o modelo

3. Acompanhar o progresso

4. Técnicas utilizadas

5. Revisar os resultados

6. Aplicar o modelo