Componentes principales

Cuando tienes un gran conjunto de columnas (principalmente numéricas), puede ser interesante reducirlas a pocas columnas que representen adecuadamente la variabilidad existente en las diferentes variables.

Un método para esto es Componentes Principales. Gaio utiliza H2O para realizar los cálculos y resumir los datos en pocas columnas. El algoritmo acepta tanto variables numéricas como categóricas.


Cómo usar la tarea PCA (Análisis de Componentes Principales)

1. Abrir la tarea de Análisis de Componentes Principales

En el Studio, ve al panel Tareas. En la sección Analytics, selecciona Análisis de Componentes Principales.


2. Configurar los campos principales

  • Etiqueta de la tarea: (opcional) Nombre para identificar este paso en tu flujo.

  • Tabla de resultado: Tabla de salida que contendrá los componentes principales. Ejemplo: pca.

  • Tabla origen: Se completa automáticamente con la tabla seleccionada (ej.: new_sales).

  • Cantidad de componentes: Define cuántos componentes principales deseas extraer.


3. Seleccionar columnas a eliminar (opcional)

En Columnas a eliminar, puedes excluir columnas que no deben considerarse en el cálculo de PCA (ej.: IDs, códigos o campos irrelevantes).

Esto ayuda a evitar sesgos y mejora la calidad de los resultados.


4. Guardar y ejecutar

Después de configurar los parámetros, haz clic en Guardar. Ejecuta el flujo — la tabla de salida contendrá los componentes principales extraídos.


Resultado

La tabla resultante incluirá:

  • Los componentes principales presentados en las primeras columnas.

  • Todas las columnas originales de la tabla fuente.

  • Una o más columnas que representan los componentes principales (ej.: PCA_1, PCA_2, etc.).

  • Un conjunto de datos simplificado listo para ser utilizado en tareas como Cluster, AutoML o visualizaciones en 2D.


Buenas prácticas

Utiliza PCA para:

  • Reducir el número de variables en conjuntos de datos con muchas características numéricas.

  • Optimizar el rendimiento de algoritmos de agrupamiento o clasificación.

  • Simplificar visualizaciones cuando se trabaja con datos de alta dimensionalidad.

  • Combinar PCA con tareas que se benefician de la reducción de dimensionalidad, como Cluster o Forecast.

Última actualización