Pular para o conteúdo principal

Amazon EMR

O que é

Uma plataforma de cluster gerenciada que simplifica a execução de frameworks de big data, como Apache Hadoop e Apache Spark, na AWS.

Para que serve

Processamento de grandes volumes de dados, análise de big data, machine learning e execução de consultas SQL interativas em escala.

Casos de uso

  • Processamento de dados para ETL (Extract, Transform, Load)
  • Análise de dados em tempo real e em lote
  • Machine learning e processamento de dados para modelos de ML
  • Análise de logs e clickstream
  • Bioinformática e genômica

Principais pontos

  • Gerenciado: A AWS gerencia a infraestrutura do cluster, incluindo provisionamento, configuração e dimensionamento
  • Frameworks de Big Data: Suporta uma ampla gama de frameworks de código aberto, como Hadoop, Spark, Hive, Presto, Flink, etc.
  • Escalabilidade: Permite dimensionar clusters de forma elástica para atender às necessidades de processamento
  • Integração: Integra-se com outros serviços AWS, como Amazon S3 para armazenamento de dados e Amazon EC2 para capacidade de computação
  • Custo-benefício: Pague apenas pela capacidade que você usa, com opções de instâncias spot para economizar custos

Comparativo

  • Amazon EMR vs. EC2 (auto-gerenciado): O EMR simplifica a execução de frameworks de big data, abstraindo a complexidade de gerenciar servidores e software, enquanto a execução desses frameworks diretamente no EC2 exige que o usuário configure e mantenha toda a pilha de software.
  • Amazon EMR vs. AWS Glue: O EMR é mais flexível para workloads complexos de big data que exigem controle sobre o cluster e a capacidade de usar diferentes frameworks. O AWS Glue é um serviço ETL sem servidor e totalmente gerenciado, ideal para transformações de dados mais simples e automatizadas.