Gaio Documentation
Portuguese
Portuguese
  • Bem vindo à documentação da Plataforma Gaio!
  • Documentação
    • Informações Gerais
      • Estrutura de Funcionamento
      • Login
      • Página Inicial
    • Aplicações
    • Studio
      • Processos
      • Fontes de Dados
      • Tarefas
        • ETL
          • Consulta
          • SQL
          • SQL Externo
          • Inserção Tabela
          • Inserção Linha
          • Atualização
          • Exclusão
          • Cria Tabela
          • Quick Table
          • Pivot Table
          • Unpivot Table
          • Executar Processo
          • Rest
          • Parâmetros para Tabela
          • Tabela para Parâmetros
          • Usuários
          • CSV Web
          • Google Planilhas
        • Analytics
          • Amostragem
          • AutoML
          • Scoring
          • Cluster
          • Componentes Principais
          • Regras de Associação
          • Séries Temporais
          • Python
        • Delivery
          • Relatório
          • Power Search
          • Conteúdo
          • Formulário
          • Exportar Output
          • Banner
          • Exportar CSV
          • Mapa
          • Insights
          • API
          • SMS
          • WhatsApp
          • Email
          • Network
      • Parâmetros
      • Formulários
      • Arquivos
      • Botões de Ação
      • Menu Superior
        • SQL
        • Editar Tabelas do Bucket
        • Execuções em Andamento
        • Editor de Mapas
        • Agendamento
        • Modelos
        • Cognitivo
        • Log de erros
        • Editar Dashboard
        • Chat - GPS
        • Menu Geral
    • Administração
      • Permissões
      • Usuários
      • Fontes de Dados
      • Repositórios
        • Criação
        • Gestão de Dados
      • Compartilhamento
      • Agendamento
      • Log
    • Atalhos do Teclado
  • Integrações
    • LDAP
  • HUB
    • Exemplos
      • Tarefa Conteúdo
        • Formulário Manual
  • FAQ
  • Gestão de Servidor
    • Inicialização do Gaio
  • What's New!
    • Release Notes
      • 2022
Powered by GitBook
On this page
  • 1. Configuração
  • 2. Técnicas
  • 3. Resultados
  1. Documentação
  2. Studio
  3. Tarefas
  4. Analytics

AutoML

PreviousAmostragemNextScoring

Last updated 2 years ago

O gaio utiliza na criação de modelos preditivos a tecnologia (Automatic Machine Learning). Isso significa que o Gaio operacionaliza a conexão a dados, tratamento dos dados, entrega ao H2O AutoML os dados e diretivas de treinamento e modelagem, recupera o resultado da execução e entrega em uma interface amigável os resultados. Todo esse processo pode ser automatizado dentro do Gaio.

1. Configuração

Dentro do Gaio o processo para criar modelos preditivos é bem simples.

  1. Clique na tabela com os dados históricos para treinar os modelos

  2. No menu Tarefas, escolha AutoML

  3. Defina o nome do modelo que será salvo pelo Gaio

  4. Defina qual será a variável resposta

  5. Defina o tempo que o Gaio terá para buscar padrões nos dados

  6. Exclua campos que não fazem sentido no treinamento, como por exemplo Código do Cliente

  7. Clique em Treinar ou Salvar. Execute a tarefa e aguarde o tempo definido.

A interface de construção de modelo é bem simples e não demanda conhecimento especializado, porém é muito importante que o analista saiba o que está acontecendo na construção de modelos.

2. Técnicas

Diversas técnicas são utilizadas no processo de modelagem automática. Na lista a seguir contém o link para a documentação oficial do H2O:

Critério de treinamento e validação são aplicados. O Gaio utiliza Cross-Validation para avaliar se os modelos estão sendo assertivos. Um 5-Fold é usado gerando 5 amostras aleatórias de mesmo tamanho que serão usadas para treinar vários modelos, conforme imagem abaixo:

O critério para priorizar o modelo é a Acurácia.

Como variável resposta, são aceitas Categórica (texto) e Numérica. No caso de variável numérica, sempre será considerado que o desejo é prever o número e não trazer a probabilidade daquele evento ocorrer.

Se a variável resposta for por exemplo Cancelamento do Serviço e tiver valores 0 ou 1, será necessário transformar os valores dessa coluna em por exemplo R0 ou R1. Isso por que nesse caso se espera saber a probabilidade do cliente cancelar, ou seja ser 1 e ao mesmo tempo a probabilidade dele ser 0, não cancelar. Contudo, como é uma variável numérica, o Gaio entende que a intenção é prever um número, como por exemplo o valor que o cliente pode comprar. Técnicas diferentes e resultados diferentes são aplicados para os dois diferentes tipos de variável resposta.

3. Resultados

Após a execução da tarefa AutoML, os resultados são disponibilizados em novo objeto no processo. Abaixo segue um exemplo cuja variável resposta é categórica.

  1. Um resumo do processo de construção automática de modelos é gerado, e informada a qualidade geral do modelo.

  2. As variáveis que mais impactaram no modelo estão ordenadas. No exemplo acima, a Idade foi a variável que mais contribuiu para prever o evento, chegando a 57,3% de contribuição.

  3. A tela Resumo é padrão ao entrar no resultado do modelo e traz as principais informações sobre o modelo escolhido como melhor.

  4. A matriz de confusão sinaliza os percentuais de acerto para cada valor da variável resposta categórica (ver imagem a seguir).

  5. A lista de todos os modelos que foram criados no tempo pré-determinado com algumas estatísticas de qualidade dos modelos.

Circulados de verde estão os acertos do modelo, onde ele coincidiu com o que ocorreu no passado. Já os círculos vermelhos sinalizam onde o modelo errou, diferindo do que ocorreu no passado. Nesse exemplo acima, quando o modelo diz (primeira linha) que o cliente não vai cancelar, ele erra 5 vezes e portanto, acerta 99,2%. Contudo, quando o modelo prevê que o cliente vai cancelar, ele erra 26 vezes o que gera um acerto de 92,4%. No geral, a acurácia (grau de acerto) é de 97,3%.

Nessa execução, foram gerados 16 modelos diferentes que estão ordenados do melhor para o pior. Nas colunas à direita são apresentados alguns indicadores de qualidade do modelo, entre eles o AUC (Area Under the curve - Área abaixo da curva) e o RMSE (Root Mean Square Error - Raiz do Erro Quadrático Médio).

Volume de linhas O processo de modelagem geralmente consome muita memória e processamento. Por isso, especial atenção ao volume de linhas na tabela a ser usado é fundamental. Uma boa é uma excelente estratégia por geralmente representar bem todo o conjunto de dados e assim, permitir que mais modelos possam ser criados em menor tempo, além de não sobrecarregar o servidor. Pode padrão, o Gaio limita a 100 mil linhas, contudo é possível alterar tal valor, mas é necessário ter ciência do impacto e só é interessante em casos que o servidor é muito grande.

: Generalized Linear Model.

: Combinacão de múltiplas árvores de decisão criadas em paralelo.

: Gradient Boosting Machine.

: uso de Redes Neurais.

amostra
GLM
XGBoost
GBM
DeepLearning
H2O AutoML