Clusterização

A tarefa Cluster no Gaio DataOS aplica algoritmos de clusterização para agrupar registros com características semelhantes. É ideal para casos de uso como segmentação de clientes, reconhecimento de padrões e tomada de decisão orientada por dados com base em perfis comportamentais ou estruturais. O Gaio utiliza a técnica K-Means para identificar grupos e os cálculos analíticos são realizados no H2O, cuja documentação pode ser acessada aqui.
Como Utilizar a Tarefa Cluster
1. Abrir a Tarefa Cluster
No Studio, vá até o painel de Tasks. Na seção Analytics, selecione Cluster.
2. Configurar a Tarefa
Rótulo (opcional): Nome para identificar esta etapa no seu fluxo.
Tabela resultado: Tabela de saída que conterá os resultados clusterizados. Exemplo: cluster_campaign.
Nome da tabela: Preenchido automaticamente com a tabela selecionada (exemplo: new_sales).
3. Excluir Colunas (Opcional)
No campo Excluir colunas, adicione colunas que não devem ser consideradas no processo de clusterização, como identificadores únicos (exemplo: cod_cliente). Isso ajuda a evitar viés ou ruído no algoritmo.
4. Ajustar Configurações de Execução
Tempo de execução Define o tempo máximo de execução do algoritmo de clusterização (em segundos). Recomendado: entre 20 e 60 segundos, dependendo do tamanho e complexidade do dataset.
Tamanho máximo do cluster Define o número máximo de clusters que o algoritmo pode criar. Exemplo: se definido como 3, a saída conterá até 3 grupos distintos.
Tamanho automático de clusters Quando habilitado, o Gaio determinará automaticamente o número ideal de clusters com base na variabilidade dos dados. Quando desabilitado, seguirá estritamente o limite manual definido em Max cluster size.
5. Salvar e Executar
Clique em Salvar para confirmar a configuração da tarefa. Execute o fluxo — a tabela de saída conterá seus dados clusterizados.
Output
A tabela resultante incluirá:
Todas as colunas originais (exceto aquelas definidas para serem ignoradas)
Uma nova coluna indicando o ID do cluster atribuído a cada linha
Boas Práticas
Utilize tarefas como Sample ou Principal Component Analysis (PCA) previamente para reduzir dimensionalidade e melhorar performance.
Remova colunas irrelevantes ou com alta cardinalidade que possam distorcer os resultados da clusterização.
Utilize clusterização para personalizar campanhas, identificar perfis de clientes, detectar anomalias ou apoiar estratégias de retenção.
Atualizado