AutoML

Gaio utiliza la tecnología H2O AutoML (Automatic Machine Learning) para crear modelos predictivos de forma automatizada. Esto significa que Gaio se conecta a los datos, procesa la información, envía datos y configuraciones a H2O AutoML, recupera los resultados del entrenamiento y presenta los resultados en una interfaz amigable. Todo este proceso puede automatizarse dentro de Gaio.
Cómo Usar AutoML
1. Acceder a la Tarea AutoML
En el menú lateral izquierdo: Analytics → AutoML
2. Configurar el Modelo
En la pantalla de configuración:
Model Name (opcional): Nombre del modelo (ejemplo:
auto_ML).Table: Selecciona la tabla de datos que será utilizada como fuente.
Target: Selecciona la variable objetivo que deseas predecir (ejemplo:
status).Columns to Remove: Lista las columnas que deben excluirse (por ejemplo, IDs o campos irrelevantes).
Training Time (Seconds): Tiempo estimado que el sistema utilizará para entrenar los modelos.
Rows Limit: Por defecto, Gaio utiliza hasta 100.000 filas para entrenar el modelo.
Puedes ajustar este valor, pero valores altos pueden sobrecargar el servidor y el modelado consume memoria y procesamiento intensivamente. Para datasets grandes:
Usa primero la tarea Sample para reducir el volumen
Esto permite crear más modelos en menos tiempo
Reduce el riesgo de sobrecarga del servidor
Por defecto el límite es 100.000 filas. Solo debería aumentarse en servidores con alta capacidad.
Haz clic en Save and Train para iniciar el proceso.
3. Seguimiento del Progreso
Durante el entrenamiento, verás dos barras de progreso:
Preparation → Preprocesamiento de datos
Training → Construcción y evaluación de modelos
4. Técnicas Utilizadas
AutoML aplica múltiples técnicas automáticamente.
Documentación oficial de H2O:
GLM → Modelo Lineal Generalizado
XGBoost → Conjunto de árboles de decisión paralelos
GBM → Gradient Boosting Machine
DeepLearning → Redes Neuronales
Gaio utiliza Cross-Validation (Validación Cruzada). Se aplica 5-Fold Cross-Validation. Se generan 5 muestras aleatorias del mismo tamaño para entrenar múltiples modelos.

El criterio principal para priorizar modelos es Accuracy (Exactitud).
Se aceptan variables categóricas (texto) ou numérica. Si la variable es numérica, Gaio asumirá que se desea predecir un número exacto.
Si la variable de respuesta es, por ejemplo, Cancelación del servicio y tiene valores 0 o 1, será necesario transformar los valores de esta columna en, por ejemplo, R0 o R1. Esto se debe a que, en este caso, esperamos conocer la probabilidad de que el cliente cancele, es decir, que sea 1, y al mismo tiempo la probabilidad de que el cliente sea 0, es decir, que no cancele. Sin embargo, al tratarse de una variable numérica, Gaio entiende que la intención es predecir un número, como la cantidad que el cliente puede comprar. Se aplican diferentes técnicas y se obtienen diferentes resultados para los dos tipos diferentes de variable de respuesta.
5. Revisar los Resultados

Al finalizar el entrenamiento, Gaio mostrará un reporte completo con:
Summary: Resumen del proceso y calidad general del modelo.
Model Accuracy: Precisión del mejor modelo generado.
ROC Curve: Representación visual del rendimiento del modelo.
Most Important Variables: Variables predictivas ordenadas por importancia.
Models: Lista de todos los modelos creados durante el tiempo definido, con métricas de calidad.
Tablas de Soporte:
Cross Validation
Confusion Matrix
Gain Table
Maximum Metrics
6. Aplicar el Modelo
El modelo entrenado se guarda automáticamente. Puedes reutilizarlo mediante la tarea Scoring, aplicándolo a nuevos datos para generar predicciones.
Última actualización