Componentes Principais

Quando você possui um grande conjunto de colunas (principalmente numéricas), pode ser interessante reduzi-las para poucas colunas que representem bem a variabilidade existente entre elas. Um método para isso é Componentes Principais. O Gaio utiliza o H2O para realizar os cálculos e resumir os dados em poucas colunas. O algoritmo aceita tanto variáveis numéricas quanto categóricas.
Como Utilizar a Tarefa PCA
1. Abrir a Tarefa de Análise de Componentes Principais
No Studio, vá até o painel de Tasks.
Na seção Analytics, selecione Principal Component Analysis.
2. Configurar os Campos Principais
Rótulo: (opcional) Nome para identificar esta etapa no seu fluxo.
Tabela resultado: Tabela de saída que conterá os componentes principais. Exemplo:
pca.Tabela de origem: Preenchido automaticamente com a tabela selecionada (exemplo:
new_sales).Quantidade de componentes: Defina quantos componentes principais você deseja extrair.
4. Selecionar colunas para remover (Opcional)
Em Colunas para remover, você pode excluir colunas que não devem ser consideradas no cálculo do PCA (exemplo: IDs, códigos, campos irrelevantes). Isso ajuda a evitar viés e melhora a qualidade dos resultados.
5. Salvar e Executar
Após configurar, clique em Salvar.
Execute o fluxo — a tabela de saída conterá os componentes principais extraídos.
Output
A tabela resultante incluirá:
Os principais componentes apresentados nas primeiras colunas e, em seguida, todas as colunas da tabela de origem
Uma ou mais colunas representando os componentes principais (exemplo:
PCA_1,PCA_2, etc.)Um dataset simplificado pronto para uso em tarefas como Clustering, AutoML ou visualizações 2D
Boas Práticas
Utilize PCA para:
Reduzir o número de variáveis em datasets com muitas features numéricas
Otimizar a performance de algoritmos de clusterização ou classificação
Simplificar visualizações ao trabalhar com dados de alta dimensionalidade
Combinar PCA com tarefas que se beneficiam de redução de dimensionalidade, como Cluster ou Forecast
Atualizado