Saltar al contenido principal

AWS Glue

Qué es

Un servicio de integración de datos sin servidor y completamente administrado que facilita el descubrimiento, preparación, movimiento e integración de datos de varias fuentes para análisis, aprendizaje automático y desarrollo de aplicaciones.

Para qué sirve

Realizar operaciones ETL (Extract, Transform, Load) a gran escala, automatizar pipelines de datos y gestionar metadatos de datos.

Casos de uso

  • Preparación de datos para almacenes de datos y lagos de datos
  • Transformación de datos para aprendizaje automático
  • Catálogo de datos para descubrimiento y gobernanza de datos
  • Integración de datos de diferentes fuentes
  • Automatización de tareas ETL

Puntos clave

  • Sin servidor: No hay infraestructura que provisionar o gestionar
  • Catálogo de Datos: El AWS Glue Data Catalog es un repositorio central de metadatos para todos sus activos de datos
  • ETL: Soporta ETL visual con AWS Glue Studio, así como scripts en Python y Scala
  • Crawlers: Descubre automáticamente el esquema de los datos y los metadatos
  • Integración: Se integra con otros servicios AWS, como S3, Redshift, Athena, EMR, etc.

Comparación con Amazon EMR

  • AWS Glue: Un servicio ETL sin servidor y completamente administrado, ideal para transformaciones de datos más simples y automatizadas, y para catalogar datos. Más adecuado para desarrolladores que prefieren un enfoque sin código o con poco código.
  • Amazon EMR: Más flexible para cargas de trabajo complejas de big data que requieren control sobre el clúster y la capacidad de usar diferentes frameworks (Hadoop, Spark, etc.). Requiere más gestión de la infraestructura subyacente.