Las Instancias AWS M5 con Procesadores Escalable Intel® Xeon® de 2ª Generación Aceleran el Análisis de Big Data de Amazon EMR Hasta en un 40 %

Spark

  • Acelere el desempeño de EMR hasta un 31 % mediante la selección de instancias AWS m5.4xlarge con procesadores escalable Intel® Xeon® de 2ª Generación frente a instancias m5a.4xlarge con procesadores AMD EPYC.

  • Acelere el desempeño de EMR hasta un 40 % mediante la selección de instancias AWS m5.8xlarge con procesadores escalable Intel® Xeon® de 2ª Generación frente a instancias m5a.8xlarge con procesadores AMD EPYC.

author-image

Por

En Comparación con las Instancias M5a con los Procesadores AMD EPYC en Varios Tamaños de Instancia

La plataforma Amazon EMR (antiguamente Amazon Elastic MapReduce) permite a las organizaciones simplificar la ejecución de los marcos de big data en instancias de AWS. La elección de un tipo de instancia con procesadores más potentes puede acelerar el análisis de datos y ayudar en su resultado final. Mediante el análisis de referencia TPC-DS 2.4, medimos el desempeño de EMR de varias instancias de nube de Amazon Web Services (AWS) EC2. Descubrimos que las instancias M5 de tamaño mediano y grande habilitadas por los procesadores escalable Intel® Xeon® de 2ª Generación aumentaron el análisis de datos de EMR en comparación con las instancias M5a del mismo tamaño con los procesadores AMD EPYC.

En base a estos resultados de pruebas en los tamaños de instancias, las organizaciones que buscan acelerar las cargas de trabajo de EMR (que incluyen Apache Spark 3.1.1 y Hadoop 3.2.1) para el análisis de datos más rápido podrían obtener información más rápida mediante la selección de instancias AWS M5 con procesadores escalable Intel® Xeon® de 2ª Generación.

Mejore el Desempeño de Amazon EMR Hasta un 31 % en Instancias de Tamaño Medio

Para las instancias con 16 vCPUs, la instancia m5.4xlarge habilitada por los procesadores escalable Intel® Xeon® de 2ª Generación mejoró el desempeño de Amazon EMR hasta un 31 % en comparación con la instancia m5a.4xlarge con los procesadores AMD EPYC (vea la Figura 1). De forma similar, con 8 vCPUs, la instancia m5.2xlarge mejoró el análisis de big data con respecto a la instancia m5a.2xlarge hasta un 19 %.

Figura 1. Velocidad relativa de las cargas de trabajo de análisis de Amazon EMR a 16 y 8 vCPUs logradas por instancias M5 con procesadores escalable Intel® Xeon® de 2ª Generación frente a instancias M5a con procesadores AMD EPYC.

Mejore el Desempeño de Amazon EMR Hasta un 40 % en Instancias más Grandes

Como se muestra en la Figura 2, comparando las instancias con 48 vCPUs, la instancia m5.12xlarge habilitada por los procesadores escalable Intel® Xeon® de 2ª Generación aumentó el desempeño de Amazon EMR hasta un 28 % en comparación con la instancia m5a.12xlarge basada en los procesadores AMD EPYC. En 32 vCPUs, la instancia m5.8xlarge aumentó el análisis sobre la instancia m5a.8xlarge en un 40 %.

Figura 2. La velocidad relativa de las cargas de trabajo de análisis de Amazon EMR a 48 y 32 vCPUs logradas por instancias M5 con procesadores escalable Intel® Xeon® de 2ª Generación frente a instancias M5a con procesadores AMD EPYC.

Conclusión

En cuanto a los cuatro tamaños de instancias que probamos, las instancias AWS M5 con procesadores escalable Intel® Xeon® de 2ª Generación aumentaron el desempeño de Amazon EMR en comparación con las instancias AWS M5a basadas en procesadores AMD EPYC del mismo tamaño. Estos resultados muestran que las organizaciones que alojan plataformas de big data en AWS pueden acelerar el análisis de datos y obtener información de forma más rápida mediante la selección de instancias AWS M5 con procesadores escalable Intel® Xeon® de 2ª Generación.

Más Información

Para comenzar a ejecutar sus cargas de trabajo de análisis de Amazon EMR en instancias M5 con procesadores escalable Intel® Xeon® de 2ª Generación, visite https://aws.amazon.com/ec2/instance-types/M5/.

Prueba realizada por Intel en enero de 2022. Pruebas en AWS us-east-1 con Linux 4.14.225-169.362.amzn2.x86_64 #1 SMP, EMR 6.3.0, Apache Spark 3.1.1 y Hadoop 3.2.1. Todas las VMs AMD con AMD EPYC 7571. Detalles de la instancia: m5.12xlarge: 5 nodos, Intel Xeon 8175M, 48 vCPUs, 192 GB RAM, EBS 512 GB, 10 Gbps NW BW, 9,500 Mbps BW de almacenamiento; m5.8xlarge: 5 nodos, Intel Xeon 8259 CL, 32 vCPUs, 128 GB RAM, EBS 512 GB, 10 Gbps NW BW, 6,800 Mbps BW de almacenamiento; m5.4xlarge: 5 nodos, Intel Xeon 8259CL, 16 vCPUs, 64 GB RAM, EBS 256 GB, 10 Gbps NW BW, 4,750 Mbps BW de almacenamiento; m5.2xlarge: 10 nodos, Intel Xeon 8259CL, 8 vCPUs, 32 GB RAM, EBS 128 GB, hasta 10Gbps NW BW, hasta 4,750 Mbps BW de almacenamiento; m5a.12xlarge: 5 nodos, 48 vCPUs, 192 GB RAM, EBS 512 GB, 10 Gbps NW BW, 6,780 Mbps BW de almacenamiento; m5a.8xlarge: 5 nodos, 32 vCPU, 128 GB RAM, EBS 512 GB, hasta 10 Gbps NW BW, 4,750 Mbps Storage BW; m5a.4xlarge: 5 nodos, 16 vCPUs, 64 GB RAM, EBS 256 GB, hasta 10 Gbps NW BW, 2,880 Mbps BW de almacenamiento; m5a.2xlarge: 10 nodos, 8 vCPUs, 32 GB RAM, EBS 128 GB, hasta 10 Gbps NW BW, hasta 2,880 Mbps BW de almacenamiento.