Twitter Boosts Performance and Cost Efficiency

Twitter increases Hadoop performance and cost efficiency with caching, fast SSDs and more compute.

Executive Overview
Storage I/O can be a significant performance bottleneck for Hadoop* clusters, especially in hyperscale deployments like those at Twitter, where a single cluster can have up to 10,000 nodes and nearly 100 PB of logical storage. The typical Hadoop cluster at Twitter contains over 100,000 hard disk drives (HDDs)—but this configuration was reaching an I/O performance limit because while HDD capacity has increased over time, HDD performance has not significantly changed.2 Therefore, simply adding more, bigger HDDs wasn’t going to solve Twitter’s scaling challenges—in fact, it would make things worse as the I/O per GB decreases. Adding more spindles per node was not feasible due to space and power limitations.

Working in collaboration with an Intel engineering team, Twitter engineers conducted a series of experiments that revealed that storing temporary files managed by YARN* (Yet Another Resource Negotiator*) on a fast SSD enabled significant performance improvements on existing hardware (up to a 50 percent reduction in runtime).3 The team also discovered that removing a storage I/O bottleneck enabled them to use larger hard drives while simultaneously increasing processor utilization, which in turn resulted in the ability to use higher-core-count processors. This positively affected storage performance, and contributed to higher data center density by reducing the number of required HDDs.

Higher density leads to total cost of ownership (TCO) savings through energy efficiency, fewer racks, and a smaller data center footprint. Overall, Twitter expects that caching temporary data and increasing core counts will result in approximately 30 percent lower TCO and over 50 percent faster runtimes, compared to their legacy production cluster configuration.1

Read the white paper - Boosting Hadoop* Performance and Cost Efficiency with Caching, Fast SSDs, and More Compute

Explore Related Products and Solutions

Intel® Xeon® Scalable Processors

Drive actionable insight, count on hardware-based security, and deploy dynamic service delivery with Intel® Xeon® Scalable processors.

Learn more

Intel® SSD DC Series

Intel® SSDs for the data center are optimized for performance, reliability, and endurance.

Learn more

Avisos legales y descargos de responsabilidad

Las características y ventajas de las tecnologías Intel® dependen de la configuración del sistema y puede que requieran de la activación de hardware, software o servicios. El rendimiento variará en función de la configuración del sistema. Ningún sistema informático es absolutamente seguro. Consulte con el vendedor o fabricante de su sistema o acceda a https://www.intel.es para obtener más información. // El software y las cargas de trabajo utilizados para las pruebas de rendimiento pueden haber sido optimizados para el uso con microprocesadores Intel® exclusivamente. Las pruebas de rendimiento, como SYSmark y MobileMark, se han medido utilizando sistemas, componentes, software, operaciones y funciones informáticas específicas. Cualquier cambio realizado en cualquiera de estos factores puede hacer que los resultados varíen. Es conveniente consultar otras fuentes de información y pruebas de rendimiento que le ayudarán a evaluar a fondo sus posibles compras, incluido el rendimiento de un producto concreto en combinación con otros. Para obtener información más detallada, acceda a https://www.intel.es/benchmarks. // Los resultados de rendimiento se basan en pruebas realizadas en la fecha indicada en las configuraciones y es posible que no reflejen todas las actualizaciones de seguridad disponibles. Consulte la publicación de la configuración para obtener más información. Ningún producto o componente es completamente seguro. // Las situaciones de reducción de costes descritas están pensadas como ejemplos de cómo un producto equipado con Intel®, en las circunstancias y configuraciones especificadas, puede afectar a los costes futuros y suponer un ahorro. Las circunstancias variarán. Intel no garantiza ningún coste ni reducción de los costes. // Intel no ejerce control ni inspección algunos sobre los datos de análisis de rendimiento o los sitios web de terceros a los que se hace referencia en este documento. Debe visitar el sitio web referido y confirmar si los datos a los que se hacen referencia son precisos. // En algunos casos de prueba, los resultados se han estimado o simulado mediante un análisis interno de Intel o un modelado o simulación de arquitectura, y se le proporcionan con fines informativos. Cualquier diferencia en el hardware, software o configuración del sistema puede afectar al rendimiento real.

Información sobre productos y rendimiento

1

Referencia: procesador Intel® Xeon® E3-1230 de zócalo único (4 núcleos); 32 a 64 GB de RAM; un disco duro de 1 TB o de 2 TB; disco de arranque Intel S4500 de 240 GB; Ethernet de 1 GbE a 10 GbE; sin almacenamiento en caché. Prueba: procesador de zócalo único Intel® Xeon® Gold 6262 (24 núcleos); 192 GB de RAM; disco de arranque Intel S4500 de 240 GB; 8 discos duros de 6 TB; 1 SSD Intel® DC P4610 de 6,4 TB; Ethernet de 25 GbE; almacenamiento en caché que usa el software Intel® Cache Acceleration Software (Intel® CAS). SO: Derivado de Twitter CentOS* 6, versión de núcleo 2.6.74-t1.el6.x86_64 (basado en el núcleo ascendente 4.14.12), versión de BIOS: D3WWM11,versión de microcódigo: 0xb000021.

2

Backblaze, septiembre de 2018, «Unidad de disco duro (HDD) frente a unidad de estado sólido (SSD): ¿Cuál es la diferencia?» https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/.

3

Referencia: procesador de doble zócalo Intel® Xeon® E5-2630 v4 @ 2,2 GHz (10 núcleos/20 hilos por zócalo); 128 GB de RAM; 12 HDD de 6 TB SATA a 7200 RPM; 1 disco de arranque SSD SATA; Ethernet de 25 GbE; 102 nodos distribuidos en 6 bastidores. Carga de trabajo: Gridmix* y Terasort*. Puntuación de Gridmix: 3309 segundos; puntuación de Terasort: 5504 segundos. Prueba: procesador de doble zócalo Intel® Xeon® E5-2630 v4 @ 2,2 GHz (10 núcleos/20 hilos por zócalo); 128 GB de RAM; 12 HDD de 6 TB SATA a 7200 RPM; 1 disco de arranque SSD SATA; 1 SSD Intel® Optane™ DC P4800X NVMe* de 750 GB; Ethernet de 25 GbE; 102 nodos distribuidos en 6 bastidores. Carga de trabajo: Gridmix y Terasort. Puntuación de Gridmix: 2396 segundos; puntuación de Terasort: 2640 segundos; SO: derivado de Twitter CentOS* 6, núcleo.