Twitter mejora el rendimiento de Hadoop*

Descubra cómo Intel y Twitter han colaborado para aumentar el rendimiento de los clústeres Hadoop de Twitter y, así, optimizar el almacenamiento. Al eliminar los cuellos de botella, Twitter ha podido acortar sus tiempos de ejecución y reducir el espacio de su centro de datos, lo que ha disminuido el coste total de propiedad.

Análisis de datos

El próximo nivel de innovación empresarial requiere análisis acelerados. Empiece con productos y tecnologías Intel®.

Más información

Transcripción:

Cada día se crean cientos de millones de tweets y el centro de datos de Twitter tiene que procesar más de 1 billón de eventos, por lo que Twitter es uno de los mayores usuarios de Hadoop del mundo.

Hadoop ayuda a almacenar los eventos y a realizar la analítica de esos datos. Un clúster típico de Hadoop en Twitter puede tener más de 100 000 unidades de disco duro en uso constante, pero los discos duros no proporcionaban IOPS suficientes para que las aplicaciones pudieran acceder rápidamente a los datos. Los datos HDFS y los datos temporales gestionados por YARN suelen procesarse al mismo tiempo y eso obstaculiza el rendimiento. Algo tenía que cambiar.

Con ayuda de Intel, Twitter desarrolló una nueva solución de Hadoop usando Intel® Cache Acceleration Software (Intel® CAS) para almacenar, de forma selectiva, los archivos YARN temporales en una unidad de estado sólido rápida.

Los dos flujos de datos ya no competían el uno contra el otro, por lo que se utilizaba menos la unidad de disco duro y Hadoop podía ofrecer datos más rápidamente.

Al superar este obstáculo de almacenamiento E/S, Twitter pudo reducir el número total de filas en el clúster y, por tanto, reducir la huella de los centros de datos. El uso de menos discos duros, pero más grandes, redujo un 75 % el número de unidades de disco duro en un clúster sin afectar negativamente al rendimiento.

Ahora, Twitter podría aprovecharse de una mayor potencia de CPU y pasar de procesadores de 4 núcleos a procesadores de 24 núcleos. Al tener menos sistemas, discos duros y filas en los clústeres Hadoop, se redujeron los costes de mantenimiento y la energía necesaria para obtener los mismos resultados.

La optimización del rendimiento de almacenamiento permitió que los tiempos de ejecución fueran mucho más rápidos y redujo el coste total menor de propiedad (CTP). Así que el clúster Hadoop de Twitter puede seguir escalando a medida que sus datos aumentan y, a la vez, seguir ofreciendo una gran experiencia a sus usuarios.