Obtenga respuestas a consultas de Databricks en un 31 % menos de tiempo y ahorre hasta un 30 % con máquinas virtuales Microsoft Azure Edsv4 con procesadores escalables Intel® Xeon® de 2ª generación

Databricks

  • Ejecute las consultas de apoyo a decisiones en hasta un 31 % menos de tiempo con las máquinas virtuales E8ds_v4 habilitadas por procesadores escalables Intel® Xeon de 2ª generación frente a las máquinas virtuales E8sv3 con procesadores AMD EPYC.

  • Gaste hasta un 30 % menos para ejecutar consultas de apoyo a decisiones con las máquinas virtuales E8ds_v4 habilitadas por procesadores escalables Intel® Xeon de 2ª generación respecto a las máquinas virtuales E8s_v3 con procesadores AMD EPYC.

author-image

Por

Estas máquinas virtuales, habilitadas con motor fotónico de consulta vectorizada, ofrecieron un mayor rendimiento para cargas de trabajo de apoyo a decisiones que las máquinas virtuales Easv4 con procesadores AMD EPYC

Databricks y la plataforma Databricks Lakehouse se dedican a almacenar y analizar los enormes conjuntos de datos, tanto estructurados como no estructurados, que las organizaciones recopilan. Cuanto más rápido pueda analizar estos datos, antes podrá su equipo tomar decisiones empresariales sólidas con los datos en la mano. Para las aplicaciones empresariales que exigen mucha memoria como las cargas de trabajo de almacenamiento de datos/apoyo a la decisión, Microsoft Azure ofrece varias series de máquinas virtuales: las Edsv4 habilitadas por procesadores escalables Intel® Xeon® de 2ª generación y las Easv4 con procesadores AMD EPYC. Para ayudar a escoger las máquinas virtuales en la nube para las cargas de trabajo de apoyo a decisiones, hicimos una prueba de carga de trabajo de apoyo a decisiones en un clúster E8ds_v4 de 20 nodos habilitado por Databricks Runtime 9.0. Después, probamos la misma carga de trabajo en un clúster de E8as_v4 de 20 nodos, evaluando de nuevo el tiempo que tardaba en realizar consultas, así como la relación precio/rendimiento para ofrecer conclusiones. En ambos conjuntos de máquinas virtuales, habilitamos Photon, un motor de consulta vectorizada capaz de acelerar el rendimiento de las consultas SQL.

Descubrimos que las máquinas virtuales Edsv4 con procesadores Intel® Xeon de 2ª generación ofrecían un rendimiento de Databricks más rápido que las máquinas virtuales Easv4, reduciendo el tiempo de ejecución de consultas, a la vez que brindan un mejor valor global.

Potencie el rendimiento de almacén de datos con máquinas virtuales Edsv4

Hemos realizado pruebas empleando un análisis de rendimiento de apoyo a las decisiones procedente de TPC-DS, que mide el rendimiento de almacén de datos según el tiempo que tarda en ejecutar un conjunto de consultas. Unos tiempos más reducidos implican respuestas más rápidas, lo cual puede disminuir los costes corrientes para el tiempo de funcionamiento de máquinas virtuales. Como muestra la figura 1, las máquinas virtuales E8ds_v4 con procesadores escalables Intel® Xeon de 2ª generación ofrecían un mejor rendimiento de cargas de trabajo de Databricks que las máquinas virtuales E8as_v4 con procesadores AMD EPYC. Con un conjunto de datos de 1 TB, la consulta del clúster E8ds_v4 redujo el tiempo de ejecución en un 31 % respecto al del clúster E8as_v4. Con un conjunto de datos de 10 TB, el clúster E8ds_v4 redujo el tiempo de ejecución de consultas en un 23 % respecto al del clúster E8as_v4.

Figura 1. El tiempo de procesamiento relativo para realizar 99 consultas de análisis de rendimiento de apoyo a las decisiones en un clúster de máquinas virtuales con fotones E8ds_v4 equipadas con procesadores escalables Intel® Xeon de 2ª generación respecto a un clúster E8as_v4 con procesadores AMD EPYC en conjuntos de datos de 1 TB y de 10 TB.

Mayor rendimiento y valor mejorado

El rendimiento no es el único aspecto que se debe tener en cuenta en la selección de máquinas virtuales para ejecutar sus cargas de trabajo de Databricks. El coste corriente de ejecutarlas también debe ser razonable desde el punto de vista empresarial. Determinamos el coste de ejecución de las cargas de trabajo usando el precio por hora en el momento de las pruebas. Convertimos el tiempo total de procesamiento de consultas de milisegundos a horas, combinamos el coste por hora de las instancias y almacenamiento, y calculamos el precio de ejecución por TB en los cuatro escenarios de uso. Tal como muestra la figura 2, la ejecución de cargas de trabajo de apoyo a decisiones en las máquinas virtuales Edsv4 ofrece un mejor valor que la de las máquinas virtuales Easv4. Para un conjunto de datos de 1 TB, el clúster E8ds_v4 habilitado por procesadores escalables Intel® Xeon® de 2ª generación proporcionó una relación precio/rendimiento un 30 % inferior que el clúster E8as_v4 con procesadores AMD EPYC. La relación precio/rendimiento para el conjunto de datos de 10 TB fue similar, ya que el clúster E8ds_v4 redujo la relación precio/rendimiento en un 22 % respecto al del clúster E8as_v4.

Figura 2. Una relación precio/rendimiento normalizada para ejecutar una carga de trabajo de apoyo a decisiones frente a un entorno de Databricks en máquinas virtuales Azure E8ds_v4 habilitadas por fotones en comparación con las máquinas virtuales E8as_v4 en conjuntos de datos de 1 TB y de 10 TB.

Conclusión

Las máquinas virtuales Microsoft Azure E8ds_v4 con procesadores escalables Intel® Xeon® de 2ª generación finalizaron las cargas de trabajo de apoyo a decisiones en hasta un 31 % menos de tiempo que las máquinas virtuales E8as_v4 con procesadores AMD EPYC. Esta mejora del rendimiento se tradujo en un ahorro de costes de hasta un 30 %. Estas conclusiones demuestran que elegir las máquinas virtuales E8ds_v4 con procesadores escalables Intel® Xeon® de 2ª generación brindan un perfecto equilibrio de rendimiento y precio para ejecutar cargas de trabajo de apoyo a decisiones de Databricks, facultando a su organización para procesar más datos y obtener conocimientos más rápido.

Más información

Para empezar a ejecutar sus clústeres de Databricks en máquinas virtuales Microsoft Azure Edsv4 habilitadas por fotones con procesadores escalables Intel® Xeon® de 2ª generación, visite https://docs.microsoft.com/en-us/azure/virtual-machines/edv4-edsv4-series-series.

Para consultar los detalles y resultados completos de las pruebas que muestran cómo estas máquinas virtuales equipadas con procesadores escalables Intel® Xeon® de 2ᵃ generación se comparan con máquinas virtuales con procesadores de generaciones anteriores, lea el informe en https://www.intel.es/content/www/es/es/partner/workload/microsoft/enhance-databricks-azure-vms-benchmark.html.