Saltar a contenido

Proyecto Final

Introducción

El propósito de este proyecto es introducir a los estudiantes en el análisis y predicción de series de tiempo multivariadas, trabajando con uno de los desafíos más emblemáticos de Kaggle: el M5 Forecasting - Accuracy. Este proyecto combina técnicas de preprocesamiento, análisis exploratorio, visualización, selección de variables y modelamiento de datos temporales.

Descripción del Proyecto

El desafío M5 Forecasting se basa en datos reales de ventas minoristas de Walmart. El objetivo es predecir la demanda diaria de productos en distintos estados y tiendas durante un período determinado. Este tipo de pronóstico es fundamental para la planificación logística, el manejo de inventario y la toma de decisiones comerciales.

Los estudiantes deberán construir modelos predictivos que logren estimar la demanda futura basándose en patrones históricos, variables categóricas y exógenas como precios o eventos especiales.

Dataset oficial: M5 Forecasting - Accuracy

Evaluación

El proyecto consta de dos componentes principales:

  • Parte Técnica: Desarrollo completo en Jupyter Notebook.
  • Presentación Final: Exposición de resultados con foco en visualización, interpretación y propuesta de solución.

Parte Técnica

Debe incluir las siguientes secciones:

  1. Definición del problema

  2. Importancia del forecasting en el retail.

  3. Objetivo del análisis y justificación del enfoque adoptado.

  4. Exploración de datos

  5. Revisión de los archivos sales_train_validation.csv, calendar.csv, sell_prices.csv.

  6. Comprensión del significado de d_1 a d_1913, y variables clave (item_id, store_id, state_id, etc.).

  7. Visualización

  8. Tendencias de ventas por producto, tienda o estado.

  9. Cambios de precio, patrones semanales, eventos especiales.
  10. Exploración de estacionalidades y anomalías.

  11. Preprocesamiento

  12. Transformación del dataset a formato largo (melt) para modelamiento.

  13. Incorporación de variables exógenas (precios, eventos).
  14. Agregación de features: medias móviles, lags, rolling statistics, etc.

  15. Modelamiento

  16. Se deben comparar al menos cuatro modelos diferentes:

    • Modelos clásicos (ARIMA/SARIMA)
    • Modelos con regresores (LinearRegression, XGBoost, LightGBM)
    • Modelos multivariados como Facebook Prophet o VAR
    • Opcional: redes neuronales (LSTM, RNN) si se justifican adecuadamente.
    • Se recomienda usar validación tipo backtesting o walk-forward.
  17. Evaluación

  18. Métricas requeridas: RMSE, MAE, RMSSE.

  19. Visualización de predicciones vs. reales.
  20. Análisis de errores y comparación entre modelos.

  21. Conclusiones

  22. Reflexión sobre los resultados obtenidos.

  23. Recomendaciones para implementación o mejoras futuras.

Presentación de Resultados

  • La presentación consta de 10–20 minutos.
  • Utilizar diapositivas con BEAMER. Se deja el siguiente tutorial a modo de ejemplo.
  • La presentación debe alojarse en su Portafolio Personal del curso (.pdf).

Información Importante

  • Plazo: 25 de Noviembre del 2025.
  • Esto corresponde a un desafío de Kaggle (link).
  • El conjunto de datos puede descargarse desde la sección Data.
  • Como inspiración, pueden revisar notebooks destacados de Kaggle en la sección Code.