AutoML

Gaio utiliza la tecnología H2O AutoML (Automatic Machine Learning) para crear modelos predictivos de forma automatizada. Esto significa que Gaio se conecta a los datos, procesa la información, envía datos y configuraciones a H2O AutoML, recupera los resultados del entrenamiento y presenta los resultados en una interfaz amigable. Todo este proceso puede automatizarse dentro de Gaio.


Cómo Usar AutoML


1. Acceder a la Tarea AutoML

En el menú lateral izquierdo: Analytics → AutoML


2. Configurar el Modelo

En la pantalla de configuración:

  1. Model Name (opcional): Nombre del modelo (ejemplo: auto_ML).

  2. Table: Selecciona la tabla de datos que será utilizada como fuente.

  3. Target: Selecciona la variable objetivo que deseas predecir (ejemplo: status).

  4. Columns to Remove: Lista las columnas que deben excluirse (por ejemplo, IDs o campos irrelevantes).

  5. Training Time (Seconds): Tiempo estimado que el sistema utilizará para entrenar los modelos.

  6. Rows Limit: Por defecto, Gaio utiliza hasta 100.000 filas para entrenar el modelo.

circle-info

Puedes ajustar este valor, pero valores altos pueden sobrecargar el servidor y el modelado consume memoria y procesamiento intensivamente. Para datasets grandes:

  • Usa primero la tarea Sample para reducir el volumen

  • Esto permite crear más modelos en menos tiempo

  • Reduce el riesgo de sobrecarga del servidor

Por defecto el límite es 100.000 filas. Solo debería aumentarse en servidores con alta capacidad.

  1. Haz clic en Save and Train para iniciar el proceso.


3. Seguimiento del Progreso

Durante el entrenamiento, verás dos barras de progreso:

  • Preparation → Preprocesamiento de datos

  • Training → Construcción y evaluación de modelos


4. Técnicas Utilizadas

AutoML aplica múltiples técnicas automáticamente.

Documentación oficial de H2O:

  • GLM → Modelo Lineal Generalizado

  • XGBoost → Conjunto de árboles de decisión paralelos

  • GBM → Gradient Boosting Machine

  • DeepLearning → Redes Neuronales

Gaio utiliza Cross-Validation (Validación Cruzada). Se aplica 5-Fold Cross-Validation. Se generan 5 muestras aleatorias del mismo tamaño para entrenar múltiples modelos.

El criterio principal para priorizar modelos es Accuracy (Exactitud).

Se aceptan variables categóricas (texto) ou numérica. Si la variable es numérica, Gaio asumirá que se desea predecir un número exacto.

circle-info

Si la variable de respuesta es, por ejemplo, Cancelación del servicio y tiene valores 0 o 1, será necesario transformar los valores de esta columna en, por ejemplo, R0 o R1. Esto se debe a que, en este caso, esperamos conocer la probabilidad de que el cliente cancele, es decir, que sea 1, y al mismo tiempo la probabilidad de que el cliente sea 0, es decir, que no cancele. Sin embargo, al tratarse de una variable numérica, Gaio entiende que la intención es predecir un número, como la cantidad que el cliente puede comprar. Se aplican diferentes técnicas y se obtienen diferentes resultados para los dos tipos diferentes de variable de respuesta.

5. Revisar los Resultados

Al finalizar el entrenamiento, Gaio mostrará un reporte completo con:

  • Summary: Resumen del proceso y calidad general del modelo.

  • Model Accuracy: Precisión del mejor modelo generado.

  • ROC Curve: Representación visual del rendimiento del modelo.

  • Most Important Variables: Variables predictivas ordenadas por importancia.

  • Models: Lista de todos los modelos creados durante el tiempo definido, con métricas de calidad.

  • Tablas de Soporte:

    • Cross Validation

    • Confusion Matrix

    • Gain Table

    • Maximum Metrics


6. Aplicar el Modelo

El modelo entrenado se guarda automáticamente. Puedes reutilizarlo mediante la tarea Scoring,arrow-up-right aplicándolo a nuevos datos para generar predicciones.

Última actualización