Almacenamiento y memoria de HPC

Evite que la latencia de acceso a datos se convierta en un cuello de botella clave para el rendimiento. Explore las soluciones avanzadas de memoria persistente y almacenamiento para HPC optimizadas para satisfacer las exigencias de ancho de banda y rendimiento de las actuales cargas de trabajo intensivas de datos de la HPC.

Resumen general del almacenamiento y memoria de HPC

  • Las pilas tradicionales de almacenamiento diseñadas para discos duros tradicionales y bloques de E/S son inadecuadas para las cargas de trabajo actuales de HPC que hacen uso intensivo de datos, incluyendo IA y simulaciones.

  • La evolución de los requisitos de almacenamiento de HPC ha impulsado la necesidad de reducir la latencia y las soluciones de almacenamiento de HPC totalmente optimizadas para tecnologías de memoria no volátil (NVM), ecosistemas de software de HPC y todos los componentes de arquitectura de HPC.

  • Las soluciones de almacenamiento y memoria de HPC Intel®, incluyendo la memoria persistente Intel® Optane™, las unidades de estado sólido (SSD) Intel® Optane™, y las SSD Intel® QLC 3D NAND trabajan juntas para eliminar las barreras entre los datos y el cálculo.

author-image

By

Para satisfacer e incluso superar los análisis de rendimiento actuales más exigentes, los sistemas de HPC deben incorporar una cartera equilibrada de elementos básicos. Debido al reciente crecimiento exponencial en el tamaño de los conjuntos de datos y el número de operaciones de lectura/escritura que deben realizar las aplicaciones de HPC, es con frecuencia el rendimiento del almacenamiento y de la memoria, en lugar de la velocidad del procesador, lo que limita el rendimiento general del sistema.

Las tecnologías actuales de almacenamiento y memoria de HPC más avanzadas existen como parte de un continuo que se extiende desde la DRAM en el nivel más caliente hasta los asequibles medios de almacenamiento a largo plazo en el nivel más frío. Los arquitectos de sistemas deben identificar los productos y capacidades que satisfagan mejor las necesidades individuales de rendimiento de las cargas de trabajo de HPC. Es cada vez más obvio que no se van a encontrar en las soluciones de almacenamiento y de NVM tradicionales.

Retos del almacenamiento y memoria de HPC

Los límites de la HPC se expanden continuamente a medida que los problemas informáticos del mundo real exigen que se recojan, almacenen, accedan y procesen grandes y cada vez mayores volúmenes de datos. El enorme tamaño de estos conjuntos de datos presenta retos de memoria y almacenamiento: en pocas palabras, las capacidades de la DRAM son demasiado pequeñas, y los discos duros son demasiado lentos.

Al confiar en soluciones de almacenamiento y memoria tradicionales, los arquitectos de sistemas de HPC han tenido que hacer difíciles concesiones entre capacidad de almacenamiento, rendimiento y costes. Era todo un reto cerrar las brechas entre los datos calientes localizados cerca de la CPU y la mayor capacidad de almacenamiento no volátil para la gama completa de cargas de trabajo de HPC variadas. En concreto quedaron dos importantes brechas:

  • Entre la DRAM, con su alto coste y baja capacidad, y las SSD basadas en NAND, que ofrecen capacidad más asequible pero presentan problemas de latencia.
  • Entre las SSD NAND y los discos duros tradicionales, que pueden ofrecer almacenamiento masivo a bajo coste pero presentan requisitos de alimentación, refrigeración y espacio físico importantes, plantean retos de fiabilidad y ofrecen una latencia incluso mayor.

Qué es necesario: reducción de la latencia y aumento de la capacidad de almacenamiento

Para muchas cargas de trabajo de HPC, la tasa a la que se pueden llevar los datos al procesador presenta el principal cuello de botella de rendimiento del mundo real. Los arquitectos de soluciones de HPC han intentado superar esta limitación mediante el uso de caché local, así como implementando grupos de DRAM crecientes para mantener más datos cerca de la CPU. La DRAM ofrece un acceso rápido a su contenido pero es cara, está sujeta a restricciones de tamaño que la hacen poco práctica para usar con grandes bases de datos en memoria, y es volátil.

Las soluciones de memoria volátil son inadecuadas para las exigencias de rendimiento extremas a las que se enfrentan los actuales sistemas de HPC. Las consecuencias de la pérdida de datos cuando se produzca un fallo del sistema pueden ser catastróficas, y los tiempos de reinicio largos pueden erosionar seriamente la productividad.

Sin embargo, almacenar mayores volúmenes de datos en medios no volátiles como las SSD NAND o los HDD presenta retos de rendimiento más importantes. Los sistemas de almacenamiento diseñados para medios tradicionales de HDD y capacidades de entrada/salida (E/S) POSIX, simplemente, no pueden mantener el ritmo de los complejos patrones de lectura y escritura aleatoria que generan las cargas de trabajo de análisis y simulación, y tampoco son adecuados para las necesidades de lectura intensiva de las cargas de trabajo de la IA.

De hecho, las demandas de E/S por nodo de cálculo crecen en toda la placa, a exaescala así como para sistemas más pequeños, aumentando las demandas a las soluciones de almacenamiento de HPC a medida que todas las cargas de trabajo se hacen más complejas.

Elegir las mejores soluciones de almacenamiento y memoria de HPC para su carga de trabajo

Clústeres de HPC tradicionales
Para aplicaciones de simulación y modelado de alto rendimiento, como la predicción de dinámica de fluidos, modelado climático y predicción financiera, la computación se distribuye por lo general en varias máquinas configuradas para actuar como un único clúster de HPC. Se necesita almacenamiento y memoria de HPC más rápidos para permitir un modelado más fino, una generación de resultados más rápida y una mayor productividad.

Sistemas de inteligencia artificial (AI)
Las cargas de trabajo de IA están cada vez más extendidas en las aplicaciones de HPC. Estas cargas de trabajo requieren muchas más operaciones de lectura que las cargas de trabajo de HPC tradicionales, y aquellas que interactúan con los clústeres de instrumentos u otros servicios de transmisión de datos en tiempo real exigen una calidad de servicio (QoS) continua más elevada para evitar pérdidas de datos críticas. La intensidad de la escritura también aumenta, al igual que la fase de ingesta de la IA. Estos sistemas requieren comunicaciones de baja latencia y alta tasa de mensaje, idealmente puenteando por completo al sistema operativo para garantizar que los algoritmos de aprendizaje automático y de inferencia funcionan con la precisión y velocidad necesarias.

Análisis de datos de alto rendimiento (HPDA)
Incluso a medida que los volúmenes de datos crecen exponencialmente, también lo hace la necesidad de realizar los análisis rápidamente. Las cargas de trabajo de HPDA no solo tienen mayores demandas de E/S que las típicas cargas de trabajo de “big data”, sino que requieren clústeres de cómputo mayores y redes más eficientes. Las exigencias de memoria y almacenamiento de HPC de las cargas de trabajo de HPDA son también mucho más grandes.

Superordenadores y sistemas de exaescala
Las ventajas de escalabilidad y coste de las modernas soluciones de almacenamiento y memoria de HPC son especialmente importantes para clústeres de superordenadores y sistemas de exaescala. A medida que estas soluciones de HPC se usan cada vez con más frecuencia en empresas y en el ámbito académico, el coste se convierte en un factor a tener en cuenta. Sin embargo, es vital que estas soluciones sigan rompiendo los límites de la capacidad informática conocida, y la única forma de que lo hagan es con soluciones de memoria y almacenamiento de HPC cuyo rendimiento esté en línea con los avances en procesadores, tejido y otros componentes de la HPC.

Productos de almacenamiento y memoria de HPC

Con su completa cartera de soluciones de almacenamiento y memoria de HPC, junto con el almacenamiento de objetos asíncrono distribuido (DAOS), que es la base de la pila de software de la exaescala Intel®, la empresa revoluciona la arquitectura de almacenamiento de HPC. Estas tecnologías están cerrando las brechas entre los datos en memoria y la capacidad de almacenamiento para grandes conjuntos de datos, para admitir proyectos transformadores que requieran rendimiento informático de primera clase.

Memoria persistente Intel® Optane
La memoria persistente Intel® Optane es una nueva clase de solución de memoria de HPC que admite análisis casi en tiempo real de incluso los mayores conjuntos de datos actuales. Intel® Optane ofrece memoria persistente de alta capacidad y alto rendimiento que puede residir en el mismo bus o canales que la DRAM y actuar como lo hace la DRAM almacenando datos volátiles. Intel® Optane también puede operar en modo persistente sin alimentación aplicada, y puede ofrecer mayor capacidad de almacenamiento con un menor coste por GB. Esto permite a los arquitectos de soluciones de HPC usar un nivel de memoria persistente mayor entre la DRAM y las SSD, uno que es a la vez rápido y asequible.

Unidades de estado sólido (SSD) Intel® Optane
Las unidades de estado sólido (SSD) Intel® Optane ofrecen un tipo completamente nuevo de nivel de almacenamiento de datos entre la memoria y las SSD 3D NAND. Las SSD Intel® Optane DC ofrecen alto rendimiento de lectura/escritura aleatoria y baja latencia consistente, lo que los hace ideales para acelerar la caché. La tecnología Intel® Optane también ofrece la calidad y resistencia de servicio que necesitan las cargas de trabajo de HPC para lograr un rendimiento revolucionario.

SSD Intel® QLC 3D NAND
La tecnología SSD Intel® QLC 3D NAND está transformando la economía del almacenamiento actual al ofrecer almacenamiento de alta densidad asequible que presenta una fiable mezcla de rendimiento, capacidad y valor. Basados en una tecnología de puerta flotante vertical probada, pero con mayor densidad de área y una arquitectura de circuitos de apoyo única, las SSD Intel® QLC 3D NAND están diseñadas para ofrecer un rendimiento óptimo para cargas de trabajo de HPC con una mezcla de escritura intensiva y caché extensa, en particular cuando se asocian con las tecnologías Intel® Optane.

Almacenamiento de objetos asíncrono distribuido (DAOS)
Diseñado para la reducción de la latencia en cargas de trabajo de HPC, el almacenamiento de objetos asíncrono distribuido (DAOS) es un ecosistema de software de código abierto completamente optimizado para la memoria persistente Intel® Optane y las SSD Intel® OptaneDC, además de otras soluciones y productos HPC Intel®. DAOS se ha diseñado para hacer uso total de las ventajas de las tecnologías NVM, ofreciendo contenedores de almacenamiento para aplicaciones de HPC de alto ancho de banda, baja latencia y un alto número de operaciones de entrada/salida por segundo (OPS).

Soluciones Intel® Select para la HPC
Es difícil garantizar que todos los componentes del clúster de HPC estén validados para interoperar y satisfacer los requisitos de rendimiento de sus cargas de trabajo en concreto. Las soluciones Intel® Select para HPC ofrecen infraestructuras de HPC fáciles y rápidas de implementar con la combinación adecuada de informática, tejido, memoria, almacenamiento y software para sistemas equilibrados que aceleran el tiempo que se tarda en conseguir información y rendimiento para clústeres de análisis o aplicaciones de HPC concretas.