Intel Newsroom

Habana Gaudi2 de segunda generación supera a Nvidia A100

Los resultados de MLPerf validan los avances de Gaudi2 en el tiempo de entrenamiento en los modelos ResNet y BERT.

Una foto muestra la tarjeta Habana Gaudi2 Mezzanine. El 10 de mayo de 2022, Habana Labs, el equipo de centros de datos de Intel centrado en las tecnologías de procesadores de aprendizaje profundo de IA, lanzó sus procesadores de aprendizaje profundo de segunda generación para entrenamiento e inferencia: Habana Gaudi2 y Habana Greco. (Crédito: Intel Corporation)

Qué hay nuevo: Intel anunció hoy que sus procesadores de aprendizaje profundo Habana® Gaudi®2 de segunda generación han superado la presentación A100 de Nvidia para el tiempo de entrenamiento de IA en el punto de referencia de la industria MLPerf. Los resultados destacan los principales tiempos de entrenamiento en modelos de visión (ResNet-50) y lenguaje (BERT) con el procesador Gaudi2, que se presentó en mayo en el evento Intel Vision.

"Estoy emocionado de ofrecer los excelentes resultados de MLPerf con Gaudi 2 y orgulloso del logro de nuestro equipo de hacerlo solo un mes después del lanzamiento. Ofrecer el mejor rendimiento de su clase tanto en modelos de visión como de lenguaje aportará valor a los clientes y ayudará a acelerar sus soluciones de aprendizaje profundo de IA".

–Sandra Rivera, vicepresidenta ejecutiva de Intel y gerente general de Datacenter and AI Group

Por qué es importante: Con la plataforma Gaudi de Habana Labs, el equipo de centros de datos de Intel centrado en las tecnologías de procesadores de aprendizaje profundo, permite a los científicos de datos e ingenieros de aprendizaje automático acelerar la capacitación y construir nuevos o migrar modelos existentes con solo unas pocas líneas de código para disfrutar de una mayor productividad, así como menores costos operativos.

Lo que muestra: Gaudi2 ofrece avances dramáticos en el tiempo de entrenamiento (TTT) sobre la primera generación de Gaudi y permitió que la presentación MLPerf de Habana de mayo de 2022 superara al A100-80G de Nvidia para ocho aceleradores en modelos de visión y lenguaje. Para ResNet-50, Gaudi2 ofrece una reducción del 36% en el tiempo de entrenamiento en comparación con el TTT de Nvidia para A100-80GB y una reducción del 45% en comparación con un presentación de servidor de 8 aceleradores A100-40GB por parte de Dell tanto para ResNet-50 como para BERT.

Métricas publicadas por MLCommons, junio de 2022 , https://mlcommons.org/en/training-normal-20/

En comparación con la primera generación de Gaudi, Gaudi2 logra una aceleración de 3 veces en el rendimiento de entrenamiento para ResNet-50 y 4.7 veces para BERT. Estos avances se pueden atribuir de la transición al proceso de 7 nanómetros desde 16 nm, triplicando el número de núcleos de procesador Tensor, aumentando la capacidad de cómputo del motor GEMM, triplicando la capacidad de memoria de alto ancho de banda en el paquete, aumentando el ancho de banda y duplicando el tamaño de SRAM. Para los modelos de visión, Gaudi2 tiene una nueva característica en forma de un motor de medios integrado, que funciona de forma independiente y puede manejar toda la tubería de preprocesamiento para imágenes comprimidas, incluido el aumento de datos requerido para el entrenamiento de IA.

Acerca del rendimiento del cliente listo para usar: El rendimiento de ambas generaciones de procesadores Gaudi se logra sin manipulaciones de software especiales que difieren de la pila de software comercial lista para usar disponible para los clientes de Habana.

Comparando el rendimiento listo para usar alcanzado con el software disponible comercialmente, Habana produjo las siguientes mediciones en un servidor común de 8 GPU frente al servidor de referencia HLS-Gaudi2. El rendimiento de la capacitación se derivó con los dockers TensorFlow de NGC y de los repositorios públicos de Habana, empleando los mejores parámetros para el rendimiento según lo recomendado por los proveedores (precisión mixta utilizada en ambos). El rendimiento del tiempo de entrenamiento es un factor clave que afecta la convergencia del tiempo de entrenamiento resultante:

Pruebe las configuraciones para el gráfico proporcionadas en la sección "La letra pequeña".

Pruebe las configuraciones para el gráfico proporcionadas en la sección "La letra pequeña".

Además de los logros de Gaudi2 observados en MLPerf, la primera generación de Gaudi ofreció un rendimiento sólido y una impresionante escala casi lineal en ResNet para presentaciones de Gaudi de 128 aceleradores y 256 aceleradores que admiten el escalamiento de sistemas de alta eficiencia para los clientes.

"Gaudi2 ofrece un claro rendimiento de capacitación de liderazgo como lo demuestran nuestros últimos resultados de MLPerf", dijo Eitan Medina, director de operaciones de Habana Labs. "Y continuamos innovando en nuestra arquitectura y software de capacitación de aprendizaje profundo para ofrecer las soluciones de capacitación de IA más competitivas en costos".

Acerca de MLPerf Benchmarks: La comunidad MLPerf tiene como objetivo diseñar puntos de referencia justos y útiles que proporcionen "mediciones consistentes de precisión, velocidad y eficiencia" para soluciones de aprendizaje automático. Fueron creados por líderes de IA de la academia, los laboratorios de investigación y la industria que decidieron los puntos de referencia y definieron un conjunto de reglas estrictas que garantizan una comparación justa entre todos los proveedores. El punto de referencia MLPerf es el único punto de referencia confiable para la industria de la IA debido a su conjunto explícito de reglas, que permiten una comparación justa en tareas de extremo a extremo. Además, las presentaciones de MLPerf pasan por un proceso de revisión por pares de un mes de duración, que valida aún más los resultados informados.

Más contexto: Blog de resultados de Habana MLPerf | Resultados MLPerf

La letra pequeña:

Configuración de prueba para la comparación de rendimiento de ResNet-50
A100-80GB: medido en abril de 2022 por Habana en la instancia de Azure Standard_ND96amsr_A100_v4 usando un solo A100-80GB usando TF docker 22.03-tf2-py3 de NGC (optimizer=sgd, BS=256)
A100-40GB: Medido en abril de 2022 por Habana en DGX-A100 usando un solo A100-40GB usando TF docker 22.03-tf2-py3 de NGC (optimizer=sgd, BS=256)
V100-32GB¬: Medido en abril de 2022 por Habana en p3dn.24xlarge usando un solo V100-32GB usando TF docker 22.03-tf2-py3 de NGC (optimizer=sgd, BS=256)
Gaudi2: Medido en mayo de 2022 por Habana en el sistema Gaudi2-HLS usando Gaudi2 único usando SynapseAI TF docker 1.5.0 (BS=256)
Los resultados pueden variar.

Configuración de prueba para BERT Performance Comparison
A100-80GB: medido en abril de 2022 por Habana en la instancia de Azure Standard_ND96amsr_A100_v4 usando un solo A100-80GB con TF docker 22.03-tf2-py3 de NGC (Fase-1: Seq len=128, BS=312, accu steps=256; Fase-2: seq len=512, BS=40, accu steps=768)
A100-40GB: Medido en abril de 2022 por Habana en DGX-A100 usando un solo A100-40GB con TF docker 22.03-tf2-py3 de NGC (Fase-1: Seq len=128, BS=64,
accu steps=1024; Fase-2: seq len=512, BS=16, accu steps=2048)
V100-32GB: Medido en abril de 2022 por Habana en p3dn.24xlarge usando un solo V100-32GB con TF docker 21.12-tf2-py3 de NGC (Fase-1: Seq len=128, BS=64, accu steps=1024; Fase-2: seq len=512, BS=8, accu steps=4096)
Gaudi2: Medido en mayo de 2022 por Habana en el sistema Gaudi2-HLS utilizando gaudi2 único con SynapseAI TF docker 1.5.0 (Fase-1: Seq len=128, BS=64, accu steps=1024; Fase-2: seq len=512, BS=16, accu steps=2048)
Los resultados pueden variar.

Habana Labs. Habana, Habana logo, Gaudi y SynapseAI son marcas comerciales de Habana Labs.