# AutoML

<figure><img src="/files/PVpdvC1vhGEvE7bOt2gk" alt=""><figcaption></figcaption></figure>

O **Gaio** utiliza a tecnologia **H2O AutoML (Automatic Machine Learning)** para criar modelos preditivos de forma automatizada. Isso significa que o Gaio operacionaliza todo o processo: conexão com os dados, processamento, envio das diretrizes de treino e modelagem para o H2O AutoML, recuperação dos resultados da execução e entrega desses resultados em uma interface amigável ao usuário. Todo esse fluxo pode ser totalmente automatizado dentro do Gaio.

***

## Como usar o AutoML

***

### Como usar o AutoML

#### 1. Acessar a task AutoML

No menu lateral esquerdo, vá até **Analytics** e selecione a tarefa **AutoML**.

***

#### 2. Configurar o modelo

Na tela de configuração:

* **Nome do Modelo (opcional):** Informe um nome para o modelo\
  (ex.: `auto_ML`).
* **Tabela:** Selecione a tabela que será usada como fonte de dados.
* **Alvo:** Escolha a variável que deseja prever\
  (ex.: `status`).
* **Colunas para remover:** Informe colunas que devem ser excluídas do treinamento\
  (ex.: IDs).
* **Tempo de treinamento (Segundos):** Tempo estimado que o sistema utilizará para treinar os modelos.
* **Limite de linhas:**\
  Por padrão, o Gaio utiliza até **100.000 linhas** para o treinamento.\
  Esse valor pode ser ajustado, porém valores mais altos podem sobrecarregar o servidor.

{% hint style="info" %}
O processo de modelagem costuma ser intensivo em memória e processamento.\
Por isso, é fundamental ter atenção ao volume de dados utilizado.\
Uma boa estratégia é utilizar uma **amostra** representativa do dataset, o que geralmente mantém a qualidade do modelo, permite criar mais modelos em menos tempo e evita sobrecarga do servidor.\
Para grandes volumes de dados, utilize a [**Amostragem**](https://docs.gaiodataos.com/gaio-dataos-portuguese/~/revisions/6yKeTAa4lTBhaCQ8Wyt8/tools/tarefas/analytics/amostragem) antes do AutoML para reduzir o volume e otimizar a performance. Embora seja possível alterar o limite padrão de 100 mil linhas, isso só é recomendado em cenários onde o servidor possui grande capacidade.
{% endhint %}

* Clique em **Salvar e Treinar** para iniciar o processo.

***

### 3. Acompanhar o progresso

Durante o treinamento, a interface exibe duas barras de progresso:

* **Preparation:** Etapa de preparação e pré-processamento dos dados
* **Training:** Construção e teste dos modelos

***

### 4. Técnicas utilizadas

Diversas técnicas são aplicadas no processo de modelagem automática.\
Abaixo estão algumas delas, com referência à documentação oficial do **H2O**:

* **GLM (Generalized Linear Model)**
* **XGBoost:** Combinação de múltiplas árvores de decisão criadas em paralelo
* **GBM (Gradient Boosting Machine)**
* **DeepLearning:** Uso de Redes Neurais

Critérios de treino e validação são aplicados automaticamente.\
O Gaio utiliza **Cross-Validation** para avaliar a assertividade dos modelos.

* É utilizado **5-Fold Cross-Validation**, que gera 5 amostras aleatórias do mesmo tamanho para treinar diversos modelos.

<div align="center"><img src="/files/Yh6faJihYFGejHgsfieT" alt=""></div>

O critério principal para priorização do modelo é a **Accuracy**.

**Variáveis de resposta**

* Variáveis **Categóricas (texto)** e **Numéricas** são aceitas como variáveis alvo.
* Quando a variável de resposta é **numérica**, o Gaio entende que o objetivo é prever um valor numérico, e não a probabilidade de ocorrência de um evento.

{% hint style="info" %}
Se a variável de resposta for *Cancelamento de Serviço* com valores `0` ou `1`, será necessário transformá-los em algo como `R0` ou `R1`. Isso porque, nesse caso, o objetivo é calcular a **probabilidade** do cliente cancelar (`1`) ou não cancelar (`0`).\
Caso contrário, sendo numérica, o Gaio interpretaria que o objetivo é prever um número absoluto, como o valor de uma compra. Técnicas e resultados distintos são aplicados dependendo do tipo da variável de resposta.
{% endhint %}

### 5. Revisar os resultados

<figure><img src="/files/WKshzH2OiRrPhqybKFXY" alt=""><figcaption></figcaption></figure>

Após a conclusão, o sistema exibirá um relatório completo contendo:

* **Summary:** Resumo do processo automático de construção do modelo e avaliação geral da qualidade
* **Model Accuracy:** Acurácia do melhor modelo gerado
* **ROC Curve:** Representação visual da performance do modelo
* **Most Important Variables:** Lista das variáveis mais importantes para a predição
* **Models:** Lista de todos os modelos criados dentro do tempo definido, com estatísticas de qualidade

**Tabelas de apoio**

* Cross Validation
* Confusion Matrix
* Gain Table
* Maximum Metrics

***

### 6. Aplicar o modelo

O modelo treinado é salvo e pode ser reutilizado por meio da **Scoring Task**, permitindo aplicar previsões a novos conjuntos de dados.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.gaiodataos.com/gaio-dataos-portuguese/tools/tarefas/analytics/automl.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
