Componentes Principais

Quando você possui um grande conjunto de colunas (principalmente numéricas), pode ser interessante reduzi-las para poucas colunas que representem bem a variabilidade existente entre elas. Um método para isso é Componentes Principais. O Gaio utiliza o H2Oarrow-up-right para realizar os cálculos e resumir os dados em poucas colunas. O algoritmo aceita tanto variáveis numéricas quanto categóricas.

Como Utilizar a Tarefa PCA

1. Abrir a Tarefa de Análise de Componentes Principais

  • No Studio, vá até o painel de Tasks.

  • Na seção Analytics, selecione Principal Component Analysis.

2. Configurar os Campos Principais

  • Rótulo: (opcional) Nome para identificar esta etapa no seu fluxo.

  • Tabela resultado: Tabela de saída que conterá os componentes principais. Exemplo: pca.

  • Tabela de origem: Preenchido automaticamente com a tabela selecionada (exemplo: new_sales).

  • Quantidade de componentes: Defina quantos componentes principais você deseja extrair.

4. Selecionar colunas para remover (Opcional)

Em Colunas para remover, você pode excluir colunas que não devem ser consideradas no cálculo do PCA (exemplo: IDs, códigos, campos irrelevantes). Isso ajuda a evitar viés e melhora a qualidade dos resultados.

5. Salvar e Executar

  • Após configurar, clique em Salvar.

  • Execute o fluxo — a tabela de saída conterá os componentes principais extraídos.


Output

A tabela resultante incluirá:

  • Os principais componentes apresentados nas primeiras colunas e, em seguida, todas as colunas da tabela de origem

  • Uma ou mais colunas representando os componentes principais (exemplo: PCA_1, PCA_2, etc.)

  • Um dataset simplificado pronto para uso em tarefas como Clustering, AutoML ou visualizações 2D


Boas Práticas

Utilize PCA para:

  • Reduzir o número de variáveis em datasets com muitas features numéricas

  • Otimizar a performance de algoritmos de clusterização ou classificação

  • Simplificar visualizações ao trabalhar com dados de alta dimensionalidade

  • Combinar PCA com tarefas que se beneficiam de redução de dimensionalidade, como Cluster ou Forecast

Atualizado