AWS Glue

Qué es

Un servicio de integración de datos sin servidor y completamente administrado que facilita el descubrimiento, preparación, movimiento e integración de datos de varias fuentes para análisis, aprendizaje automático y desarrollo de aplicaciones.

Para qué sirve

Realizar operaciones ETL (Extract, Transform, Load) a gran escala, automatizar pipelines de datos y gestionar metadatos de datos.

Casos de uso

Preparación de datos para almacenes de datos y lagos de datos
Transformación de datos para aprendizaje automático
Catálogo de datos para descubrimiento y gobernanza de datos
Integración de datos de diferentes fuentes
Automatización de tareas ETL

Puntos clave

Sin servidor: No hay infraestructura que provisionar o gestionar
Catálogo de Datos: El AWS Glue Data Catalog es un repositorio central de metadatos para todos sus activos de datos
ETL: Soporta ETL visual con AWS Glue Studio, así como scripts en Python y Scala
Crawlers: Descubre automáticamente el esquema de los datos y los metadatos
Integración: Se integra con otros servicios AWS, como S3, Redshift, Athena, EMR, etc.

Comparación con Amazon EMR

AWS Glue: Un servicio ETL sin servidor y completamente administrado, ideal para transformaciones de datos más simples y automatizadas, y para catalogar datos. Más adecuado para desarrolladores que prefieren un enfoque sin código o con poco código.
Amazon EMR: Más flexible para cargas de trabajo complejas de big data que requieren control sobre el clúster y la capacidad de usar diferentes frameworks (Hadoop, Spark, etc.). Requiere más gestión de la infraestructura subyacente.

Qué es​

Para qué sirve​

Casos de uso​

Puntos clave​

Comparación con Amazon EMR​

Qué es

Para qué sirve

Casos de uso

Puntos clave

Comparación con Amazon EMR