> For the complete documentation index, see [llms.txt](https://docs.gaiodataos.com/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.gaiodataos.com/gaio-dataos-portuguese/tools/tarefas/analytics/automl.md).

# AutoML

<figure><img src="/files/PVpdvC1vhGEvE7bOt2gk" alt=""><figcaption></figcaption></figure>

O **Gaio** utiliza a tecnologia **H2O AutoML (Automatic Machine Learning)** para criar modelos preditivos de forma automatizada. Isso significa que o Gaio operacionaliza todo o processo: conexão com os dados, processamento, envio das diretrizes de treino e modelagem para o H2O AutoML, recuperação dos resultados da execução e entrega desses resultados em uma interface amigável ao usuário. Todo esse fluxo pode ser totalmente automatizado dentro do Gaio.

***

## Como usar o AutoML

***

### Como usar o AutoML

#### 1. Acessar a task AutoML

No menu lateral esquerdo, vá até **Analytics** e selecione a tarefa **AutoML**.

***

#### 2. Configurar o modelo

Na tela de configuração:

* **Nome do Modelo (opcional):** Informe um nome para o modelo\
  (ex.: `auto_ML`).
* **Tabela:** Selecione a tabela que será usada como fonte de dados.
* **Alvo:** Escolha a variável que deseja prever\
  (ex.: `status`).
* **Colunas para remover:** Informe colunas que devem ser excluídas do treinamento\
  (ex.: IDs).
* **Tempo de treinamento (Segundos):** Tempo estimado que o sistema utilizará para treinar os modelos.
* **Limite de linhas:**\
  Por padrão, o Gaio utiliza até **100.000 linhas** para o treinamento.\
  Esse valor pode ser ajustado, porém valores mais altos podem sobrecarregar o servidor.

{% hint style="info" %}
O processo de modelagem costuma ser intensivo em memória e processamento.\
Por isso, é fundamental ter atenção ao volume de dados utilizado.\
Uma boa estratégia é utilizar uma **amostra** representativa do dataset, o que geralmente mantém a qualidade do modelo, permite criar mais modelos em menos tempo e evita sobrecarga do servidor.\
Para grandes volumes de dados, utilize a [**Amostragem**](https://docs.gaiodataos.com/gaio-dataos-portuguese/~/revisions/6yKeTAa4lTBhaCQ8Wyt8/tools/tarefas/analytics/amostragem) antes do AutoML para reduzir o volume e otimizar a performance. Embora seja possível alterar o limite padrão de 100 mil linhas, isso só é recomendado em cenários onde o servidor possui grande capacidade.
{% endhint %}

* Clique em **Salvar e Treinar** para iniciar o processo.

***

### 3. Acompanhar o progresso

Durante o treinamento, a interface exibe duas barras de progresso:

* **Preparation:** Etapa de preparação e pré-processamento dos dados
* **Training:** Construção e teste dos modelos

***

### 4. Técnicas utilizadas

Diversas técnicas são aplicadas no processo de modelagem automática.\
Abaixo estão algumas delas, com referência à documentação oficial do **H2O**:

* **GLM (Generalized Linear Model)**
* **XGBoost:** Combinação de múltiplas árvores de decisão criadas em paralelo
* **GBM (Gradient Boosting Machine)**
* **DeepLearning:** Uso de Redes Neurais

Critérios de treino e validação são aplicados automaticamente.\
O Gaio utiliza **Cross-Validation** para avaliar a assertividade dos modelos.

* É utilizado **5-Fold Cross-Validation**, que gera 5 amostras aleatórias do mesmo tamanho para treinar diversos modelos.

<div align="center"><img src="/files/Yh6faJihYFGejHgsfieT" alt=""></div>

O critério principal para priorização do modelo é a **Accuracy**.

**Variáveis de resposta**

* Variáveis **Categóricas (texto)** e **Numéricas** são aceitas como variáveis alvo.
* Quando a variável de resposta é **numérica**, o Gaio entende que o objetivo é prever um valor numérico, e não a probabilidade de ocorrência de um evento.

{% hint style="info" %}
Se a variável de resposta for *Cancelamento de Serviço* com valores `0` ou `1`, será necessário transformá-los em algo como `R0` ou `R1`. Isso porque, nesse caso, o objetivo é calcular a **probabilidade** do cliente cancelar (`1`) ou não cancelar (`0`).\
Caso contrário, sendo numérica, o Gaio interpretaria que o objetivo é prever um número absoluto, como o valor de uma compra. Técnicas e resultados distintos são aplicados dependendo do tipo da variável de resposta.
{% endhint %}

### 5. Revisar os resultados

<figure><img src="/files/WKshzH2OiRrPhqybKFXY" alt=""><figcaption></figcaption></figure>

Após a conclusão, o sistema exibirá um relatório completo contendo:

* **Summary:** Resumo do processo automático de construção do modelo e avaliação geral da qualidade
* **Model Accuracy:** Acurácia do melhor modelo gerado
* **ROC Curve:** Representação visual da performance do modelo
* **Most Important Variables:** Lista das variáveis mais importantes para a predição
* **Models:** Lista de todos os modelos criados dentro do tempo definido, com estatísticas de qualidade

**Tabelas de apoio**

* Cross Validation
* Confusion Matrix
* Gain Table
* Maximum Metrics

***

### 6. Aplicar o modelo

O modelo treinado é salvo e pode ser reutilizado por meio da **Scoring Task**, permitindo aplicar previsões a novos conjuntos de dados.