Flujo de trabajo principal de la ciencia de datos

Estas estaciones de trabajo especialmente diseñadas combinan una gran capacidad de memoria, muchas ranuras de expansión para conectar varios dispositivos y CPUS cuidadosamente diseñadas para satisfacer las demandas únicas de los científicos de datos que trabajan en Python y los analistas de datos como usted.

Preguntas frecuentes

Hay dos factores principales a considerar cuando tenga que elegir una estación de trabajo para la ciencia de datos: las herramientas y técnicas que más usa y el tamaño de los conjuntos de datos.

Cuando se trata de marcos para la ciencia de datos, tener un mayor número de núcleos no siempre implica un mejor desempeño. NumPy, SciPy y scikit-learn no se escalan bien cuando superan los 18 núcleos. Por otro lado, HEAVY.AI (anteriormente OmniSci) tomará todos los núcleos que pueda.

Todas las estaciones de trabajo que cuentan con Intel® usan los procesadores escalables Intel® Xeon®, Intel® Xeon® W e Intel® Core™ que sobresalen lidiando con las cargas de trabajo de la ciencia de datos en las pruebas reales. Todos ellos brindarán el mejor desempeño de la familia de procesadores, lo que hace que la capacidad de memoria sea la opción más importante.

Los marcos de la ciencia de datos hacen crecer el volumen de la memoria de 2 a 3 veces. Para saber cuánto necesita de memoria como línea base, examine los conjuntos de datos típicos y multiplíquelos por tres. Si puede trabajar con 512 GB o menos, puede obtener un excelente desempeño en una máquina de desktop. Si los conjuntos de datos suelen ser superiores a 500 GB, necesitará una torre con 1,5 TB de memoria o más.

Los aceleradores de GPU se destacan en el entrenamiento de modelos de aprendizaje profundo y la inferencia de aprendizaje profundo a gran escala. Sin embargo, para la mayor parte del trabajo en la ciencia de datos (preparación de datos, análisis y aprendizaje automático clásico), esas GPUs quedan inactivas porque la mayoría de las bibliotecas de Python para la ciencia de datos se ejecutan de forma nativa en la CPU. Necesita un adaptador de gráficos para manejar las pantallas, pero no un dispositivo de GPU.

La nube no le dará el mejor desempeño a menos que esté ejecutándose en una máquina virtual independiente o un servidor sin software instalado Las instancias de la nube se presentan como un solo nodo, pero en el back-end todo está muy distribuido. La carga de trabajo y los datos se dividen en varios servidores en varias ubicaciones. Esto genera latencias en la memoria y en el procesamiento que degradan el tiempo de ejecución. Además, trabajar con grandes conjuntos de datos y gráficos a través de un escritorio remoto no es una experiencia ideal.

Mantener la carga de trabajo y los datos en una ubicación local, en una sola máquina, puede ofrecer un desempeño mucho mejor y una experiencia de trabajo más fluida y brindarle mayor capacidad de respuesta.

Puede hacerlo, pero desperdiciará una gran cantidad de tiempo mirando cómo los datos van y vienen entre el almacenamiento, la memoria y la CPU. Si está trabajando en un entorno profesional, puede ahorrar tiempo actualizando a un equipo de desktop de rango medio o una laptop de Intel® para la ciencia de datos. Probamos y especificamos intencionalmente las laptops equipadas con Intel® Core™ para la ciencia de datos para que los estudiantes, principiantes y productores de IA puedan tener una opción asequible para desarrollar y experimentar con herramientas de IA de código abierto.

Puede ejecutar herramientas basadas en Python para la ciencia de datos más rápidamente en una PC estándar con distribuciones y bibliotecas optimizadas con Intel®. Todas son parte del kit gratuito de IA Intel®.