AutoML

O Gaio utiliza a tecnologia H2O AutoML (Automatic Machine Learning) para criar modelos preditivos de forma automatizada. Isso significa que o Gaio operacionaliza todo o processo: conexão com os dados, processamento, envio das diretrizes de treino e modelagem para o H2O AutoML, recuperação dos resultados da execução e entrega desses resultados em uma interface amigável ao usuário. Todo esse fluxo pode ser totalmente automatizado dentro do Gaio.


Como usar o AutoML


Como usar o AutoML

1. Acessar a task AutoML

No menu lateral esquerdo, vá até Analytics e selecione a tarefa AutoML.


2. Configurar o modelo

Na tela de configuração:

  • Nome do Modelo (opcional): Informe um nome para o modelo (ex.: auto_ML).

  • Tabela: Selecione a tabela que será usada como fonte de dados.

  • Alvo: Escolha a variável que deseja prever (ex.: status).

  • Colunas para remover: Informe colunas que devem ser excluídas do treinamento (ex.: IDs).

  • Tempo de treinamento (Segundos): Tempo estimado que o sistema utilizará para treinar os modelos.

  • Limite de linhas: Por padrão, o Gaio utiliza até 100.000 linhas para o treinamento. Esse valor pode ser ajustado, porém valores mais altos podem sobrecarregar o servidor.

circle-info

O processo de modelagem costuma ser intensivo em memória e processamento. Por isso, é fundamental ter atenção ao volume de dados utilizado. Uma boa estratégia é utilizar uma amostra representativa do dataset, o que geralmente mantém a qualidade do modelo, permite criar mais modelos em menos tempo e evita sobrecarga do servidor. Para grandes volumes de dados, utilize a Amostragemarrow-up-right antes do AutoML para reduzir o volume e otimizar a performance. Embora seja possível alterar o limite padrão de 100 mil linhas, isso só é recomendado em cenários onde o servidor possui grande capacidade.

  • Clique em Salvar e Treinar para iniciar o processo.


3. Acompanhar o progresso

Durante o treinamento, a interface exibe duas barras de progresso:

  • Preparation: Etapa de preparação e pré-processamento dos dados

  • Training: Construção e teste dos modelos


4. Técnicas utilizadas

Diversas técnicas são aplicadas no processo de modelagem automática. Abaixo estão algumas delas, com referência à documentação oficial do H2O:

  • GLM (Generalized Linear Model)

  • XGBoost: Combinação de múltiplas árvores de decisão criadas em paralelo

  • GBM (Gradient Boosting Machine)

  • DeepLearning: Uso de Redes Neurais

Critérios de treino e validação são aplicados automaticamente. O Gaio utiliza Cross-Validation para avaliar a assertividade dos modelos.

  • É utilizado 5-Fold Cross-Validation, que gera 5 amostras aleatórias do mesmo tamanho para treinar diversos modelos.

O critério principal para priorização do modelo é a Accuracy.

Variáveis de resposta

  • Variáveis Categóricas (texto) e Numéricas são aceitas como variáveis alvo.

  • Quando a variável de resposta é numérica, o Gaio entende que o objetivo é prever um valor numérico, e não a probabilidade de ocorrência de um evento.

circle-info

Se a variável de resposta for Cancelamento de Serviço com valores 0 ou 1, será necessário transformá-los em algo como R0 ou R1. Isso porque, nesse caso, o objetivo é calcular a probabilidade do cliente cancelar (1) ou não cancelar (0). Caso contrário, sendo numérica, o Gaio interpretaria que o objetivo é prever um número absoluto, como o valor de uma compra. Técnicas e resultados distintos são aplicados dependendo do tipo da variável de resposta.

5. Revisar os resultados

Após a conclusão, o sistema exibirá um relatório completo contendo:

  • Summary: Resumo do processo automático de construção do modelo e avaliação geral da qualidade

  • Model Accuracy: Acurácia do melhor modelo gerado

  • ROC Curve: Representação visual da performance do modelo

  • Most Important Variables: Lista das variáveis mais importantes para a predição

  • Models: Lista de todos os modelos criados dentro do tempo definido, com estatísticas de qualidade

Tabelas de apoio

  • Cross Validation

  • Confusion Matrix

  • Gain Table

  • Maximum Metrics


6. Aplicar o modelo

O modelo treinado é salvo e pode ser reutilizado por meio da Scoring Task, permitindo aplicar previsões a novos conjuntos de dados.

Atualizado