Clusterização

A tarefa Cluster no Gaio DataOS aplica algoritmos de clusterização para agrupar registros com características semelhantes. É ideal para casos de uso como segmentação de clientes, reconhecimento de padrões e tomada de decisão orientada por dados com base em perfis comportamentais ou estruturais. O Gaio utiliza a técnica K-Means para identificar grupos e os cálculos analíticos são realizados no H2O, cuja documentação pode ser acessada aqui.arrow-up-right


Como Utilizar a Tarefa Cluster

1. Abrir a Tarefa Cluster

No Studio, vá até o painel de Tasks. Na seção Analytics, selecione Cluster.

2. Configurar a Tarefa

Rótulo (opcional): Nome para identificar esta etapa no seu fluxo. Tabela resultado: Tabela de saída que conterá os resultados clusterizados. Exemplo: cluster_campaign. Nome da tabela: Preenchido automaticamente com a tabela selecionada (exemplo: new_sales).

3. Excluir Colunas (Opcional)

No campo Excluir colunas, adicione colunas que não devem ser consideradas no processo de clusterização, como identificadores únicos (exemplo: cod_cliente). Isso ajuda a evitar viés ou ruído no algoritmo.

4. Ajustar Configurações de Execução

Tempo de execução Define o tempo máximo de execução do algoritmo de clusterização (em segundos). Recomendado: entre 20 e 60 segundos, dependendo do tamanho e complexidade do dataset.

Tamanho máximo do cluster Define o número máximo de clusters que o algoritmo pode criar. Exemplo: se definido como 3, a saída conterá até 3 grupos distintos.

Tamanho automático de clusters Quando habilitado, o Gaio determinará automaticamente o número ideal de clusters com base na variabilidade dos dados. Quando desabilitado, seguirá estritamente o limite manual definido em Max cluster size.

5. Salvar e Executar

Clique em Salvar para confirmar a configuração da tarefa. Execute o fluxo — a tabela de saída conterá seus dados clusterizados.


Output

A tabela resultante incluirá:

  • Todas as colunas originais (exceto aquelas definidas para serem ignoradas)

  • Uma nova coluna indicando o ID do cluster atribuído a cada linha


Boas Práticas

  • Utilize tarefas como Sample ou Principal Component Analysis (PCA) previamente para reduzir dimensionalidade e melhorar performance.

  • Remova colunas irrelevantes ou com alta cardinalidade que possam distorcer os resultados da clusterização.

  • Utilize clusterização para personalizar campanhas, identificar perfis de clientes, detectar anomalias ou apoiar estratégias de retenção.

Atualizado