# Clusterização

<figure><img src="/files/zJNAMj4RhSynvyH1cgse" alt=""><figcaption></figcaption></figure>

A tarefa **Cluster** no Gaio DataOS aplica algoritmos de clusterização para agrupar **registros com características semelhantes**. É ideal para casos de uso como segmentação de clientes, reconhecimento de padrões e tomada de decisão orientada por dados com base em perfis comportamentais ou estruturais.\
O Gaio utiliza a **técnica K-Means** para identificar grupos e os cálculos analíticos são realizados no H2O, cuja documentação pode ser [acessada aqui.](https://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/k-means.html)

***

### Como Utilizar a Tarefa Cluster

#### 1. Abrir a Tarefa Cluster

No Studio, vá até o painel de Tasks.\
Na seção Analytics, selecione Cluster.

#### 2. Configurar a Tarefa

**Rótulo** (opcional): Nome para identificar esta etapa no seu fluxo.\
**Tabela resultado:** Tabela de saída que conterá os resultados clusterizados. Exemplo: `cluster_campaign`.\
**Nome da tabela:** Preenchido automaticamente com a tabela selecionada (exemplo: `new_sales`).

#### 3. Excluir Colunas (Opcional)

No campo **Excluir colunas**, adicione colunas que não devem ser consideradas no processo de clusterização, como identificadores únicos (exemplo: `cod_cliente`). Isso ajuda a evitar viés ou ruído no algoritmo.

#### 4. Ajustar Configurações de Execução

**Tempo de execução**\
Define o tempo máximo de execução do algoritmo de clusterização (em segundos).\
Recomendado: entre 20 e 60 segundos, dependendo do tamanho e complexidade do dataset.

**Tamanho máximo do cluster**\
Define o número máximo de clusters que o algoritmo pode criar.\
Exemplo: se definido como 3, a saída conterá até 3 grupos distintos.

**Tamanho automático de clusters**\
Quando habilitado, o Gaio determinará automaticamente o número ideal de clusters com base na variabilidade dos dados.\
Quando desabilitado, seguirá estritamente o limite manual definido em Max cluster size.

#### 5. Salvar e Executar

Clique em **Salvar** para confirmar a configuração da tarefa.\
Execute o fluxo — a tabela de saída conterá seus dados clusterizados.

***

### Output

A tabela resultante incluirá:

* Todas as colunas originais (exceto aquelas definidas para serem ignoradas)
* Uma nova coluna indicando o ID do cluster atribuído a cada linha

***

### Boas Práticas

* Utilize tarefas como Sample ou Principal Component Analysis (PCA) previamente para reduzir dimensionalidade e melhorar performance.
* Remova colunas irrelevantes ou com alta cardinalidade que possam distorcer os resultados da clusterização.
* Utilize clusterização para personalizar campanhas, identificar perfis de clientes, detectar anomalias ou apoiar estratégias de retenção.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.gaiodataos.com/gaio-dataos-portuguese/tools/tarefas/analytics/clusterizacao.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
