Saltar a contenido

🔥 Fundamentos de PySpark

La Unidad 1 te introduce al mundo del procesamiento distribuido con Apache Spark usando Python. Aquí aprenderás a manejar grandes volúmenes de datos de manera eficiente, utilizando transformaciones, acciones y consultas SQL sobre estructuras distribuidas. Esta unidad es clave para trabajar con Big Data de forma escalable y profesional.


🎯 Objetivos de la unidad

  • Comprender el modelo de ejecución distribuido de Spark.
  • Crear y transformar estructuras de datos distribuidas (RDD y DataFrame).
  • Ejecutar operaciones con transformations y actions.
  • Consultar datos usando Spark SQL.
  • Comprender el flujo de trabajo de un job de Spark.
  • Integrar Spark en entornos locales o en la nube.

📚 Contenidos

Tema Descripción breve
⚙️ Introducción a Spark y PySpark Qué es Spark, cómo funciona y cómo lo usamos con Python.
📦 RDD y DataFrames Tipos de estructuras distribuidas, diferencias y casos de uso.
🔁 Transformaciones y Acciones Cómo manipular y procesar los datos de forma eficiente.
🧠 Lazy Evaluation Ejecución diferida y optimización automática del plan de ejecución.
🔍 Spark SQL Consultas tipo SQL sobre grandes conjuntos de datos.
🧪 Spark Streaming (básico) Introducción al procesamiento de datos en tiempo real.

🧠 Recomendación

Te sugerimos comenzar por la introducción conceptual y luego avanzar paso a paso por las transformaciones, SQL y finalmente streaming. Asegúrate de ejecutar los ejemplos tú mismo para entender cómo Spark distribuye las operaciones.


📚 Prerrequisitos

  • Conocimientos intermedios de Python
  • Familiaridad con estructuras tipo DataFrame
  • Entorno configurado para ejecutar PySpark

✅ ¿Qué lograrás al finalizar esta unidad?

  • Procesar grandes volúmenes de datos con PySpark.
  • Utilizar transformaciones y acciones de forma eficiente.
  • Consultar datos con Spark SQL.
  • Comprender cómo funciona un motor de ejecución distribuido.