> For the complete documentation index, see [llms.txt](https://docs.gaiodataos.com/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.gaiodataos.com/gaio-dataos-portuguese/tools/tarefas/analytics/clusterizacao.md).

# Clusterização

<figure><img src="/files/zJNAMj4RhSynvyH1cgse" alt=""><figcaption></figcaption></figure>

A tarefa **Cluster** no Gaio DataOS aplica algoritmos de clusterização para agrupar **registros com características semelhantes**. É ideal para casos de uso como segmentação de clientes, reconhecimento de padrões e tomada de decisão orientada por dados com base em perfis comportamentais ou estruturais.\
O Gaio utiliza a **técnica K-Means** para identificar grupos e os cálculos analíticos são realizados no H2O, cuja documentação pode ser [acessada aqui.](https://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/k-means.html)

***

### Como Utilizar a Tarefa Cluster

#### 1. Abrir a Tarefa Cluster

No Studio, vá até o painel de Tasks.\
Na seção Analytics, selecione Cluster.

#### 2. Configurar a Tarefa

**Rótulo** (opcional): Nome para identificar esta etapa no seu fluxo.\
**Tabela resultado:** Tabela de saída que conterá os resultados clusterizados. Exemplo: `cluster_campaign`.\
**Nome da tabela:** Preenchido automaticamente com a tabela selecionada (exemplo: `new_sales`).

#### 3. Excluir Colunas (Opcional)

No campo **Excluir colunas**, adicione colunas que não devem ser consideradas no processo de clusterização, como identificadores únicos (exemplo: `cod_cliente`). Isso ajuda a evitar viés ou ruído no algoritmo.

#### 4. Ajustar Configurações de Execução

**Tempo de execução**\
Define o tempo máximo de execução do algoritmo de clusterização (em segundos).\
Recomendado: entre 20 e 60 segundos, dependendo do tamanho e complexidade do dataset.

**Tamanho máximo do cluster**\
Define o número máximo de clusters que o algoritmo pode criar.\
Exemplo: se definido como 3, a saída conterá até 3 grupos distintos.

**Tamanho automático de clusters**\
Quando habilitado, o Gaio determinará automaticamente o número ideal de clusters com base na variabilidade dos dados.\
Quando desabilitado, seguirá estritamente o limite manual definido em Max cluster size.

#### 5. Salvar e Executar

Clique em **Salvar** para confirmar a configuração da tarefa.\
Execute o fluxo — a tabela de saída conterá seus dados clusterizados.

***

### Output

A tabela resultante incluirá:

* Todas as colunas originais (exceto aquelas definidas para serem ignoradas)
* Uma nova coluna indicando o ID do cluster atribuído a cada linha

***

### Boas Práticas

* Utilize tarefas como Sample ou Principal Component Analysis (PCA) previamente para reduzir dimensionalidade e melhorar performance.
* Remova colunas irrelevantes ou com alta cardinalidade que possam distorcer os resultados da clusterização.
* Utilize clusterização para personalizar campanhas, identificar perfis de clientes, detectar anomalias ou apoiar estratégias de retenção.