Intel® Data Center Diagnostic Tool para procesadores Intel® Xeon®

Documentación

Mantenimiento y rendimiento

000058107

11/18/2021

Introducción

El Intel® Data Center Diagnostic Tool es una herramienta de software de diagnóstico que se puede ejecutar en las plataformas de centros de datos para:

  • Verifique la funcionalidad de todos los núcleos dentro de un procesador Intel® Xeon®.
  • Se debe utilizar como parte de un programa de mantenimiento regular del sistema.

La alta confiabilidad y disponibilidad en el centro de datos requieren las herramientas adecuadas y un compromiso con el mantenimiento. Intel cree que es una mejor práctica de la industria utilizar herramientas de mantenimiento como estas tanto para la implementación inicial como para pruebas periódicas con el fin de ayudar a garantizar la mejor experiencia del sistema.

    Nota
    • La infraestructura informática moderna ofrece una demanda cada vez mayor de potencia de procesamiento combinada con expectativas comerciales de calidad de servicio y alta disponibilidad (y garantiza acuerdos de nivel de servicio [SLA] en general). Estas expectativas hacen énfasis en la necesidad de herramientas de software potentes que puedan ayudar a predecir, identificar y minimizar fallos inesperados del sistema que podrían poner en riesgo la calidad o el tiempo de actividad del servicio. Lea un documento de IDC que cubre la necesidad de herramientas de diagnóstico, entre ellas, la Intel® Data Center Diagnostic Tool.

    Requisitos del sistema

    El Intel Data Center Diagnostic Tool es una aplicación de Linux* que se puede instalar y ejecutar en muchas distribuciones actuales de Linux. No hay ninguna versión de Windows* de esta herramienta.

    Para obtener la mejor cobertura, ejecute la aplicación en el sistema raíz de un servidor. Es posible ejecutarlo dentro de un contenedor o máquina virtual, pero tenga en cuenta que algunas funciones pueden deshabilitarse.

    Procesadores compatibles:

    • Procesadores escalables Intel® Xeon® de 3ª generación (anteriormente Ice Lake y Cooper Lake)
    • Procesadores escalables Intel® Xeon® de 2da Generación (anteriormente Cascade Lake)
    • Procesadores escalables Intel® Xeon® de 1ra Generación (anteriormente Skylake)
    • Familia de procesadores Intel® Xeon® E5 v4 (anteriormente Broadwell)
    • Familia de procesadores Intel® Xeon® E7 v4 (anteriormente Broadwell)
    Nota
    • Para desarrolladores: Intel comenzó el Proyecto de diagnóstico de centros de datos abiertos, que abre el marco de diagnóstico de centros de datos de Intel y proporciona pruebas seleccionadas. Esto ofrece a los desarrolladores un marco de desarrollo de pruebas consistente que invita a la creatividad de la comunidad de código abierto a mejorar la administración de flotas en la nube a través del desarrollo de pantallas de prueba únicas y otras soluciones innovadoras. Para obtener más información y acceso a este marco y pruebas

    Instalación

    Notas
    • Hay detalles adicionales disponibles en el archivo /usr/share/doc/dcdiag/README.rst incluido en la instalación.
    • Le recomendamos que utilice los pasos de las secciones a continuación para vincular al repositorio, lo que garantiza que obtenga la versión más reciente de la Intel® Data Center Diagnostic Tool. Sin embargo, si requiere un archivo binario descargable, utilice un archivo RPM o un archivo DEB.

     

    Debian*/Ubuntu*

    Para instalar los paquetes de software Intel® Data Center Diagnostic Tool en distribuciones basadas en Debian*, añada el repositorio del paquete Intel software e instale los paquetes adecuados.

    Antes de copiar y pegado en la consola, es posible que desee ejecutar sudo ls e ingresar su contraseña para evitar que los comandos se consumen en la solicitud de contraseña sudo:

    Configure la clave para verificar las firmas del paquete

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    Instalar el repositorio

    sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

    Instale el paquete

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    Para instalar los paquetes de software Intel Data Center Diagnostic Tool en una distribución basada en Fedora, añada el repositorio Intel software paquete e instale el paquete.

    La primera vez que se instale, YUM o DNF le solicitará que acepte la clave de firma. Verifique que la huella digital sea la siguiente y, a continuación, aceptéela:
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    Antes de copiar y pegado en la consola, es posible que desee ejecutar sudo ls e ingresar su contraseña para evitar que los comandos se consumen en la solicitud de contraseña sudo:

    Instale el archivo del repositorio

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    Instale el paquete

    sudo yum install dcdiag

    OpenS VENT*/SUSE Linux Enterprise*:

    Instale el archivo del repositorio

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    Instale el paquete

    sudo zypper install dcdiag

    Se mostrará que respond.xml no está firmado. Responda sí para continuar. Se le dará otra oportunidad para verificar la firma del paquete. Verifique que la huella digital sea la siguiente y, a continuación, aceptéela:

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    Cómo probar el procesador Intel Xeon

    Una vez instalado, el Intel Data Center Diagnostic Tool se habilita automáticamente para la ejecución en segundo plano. Puede comprobar que esto se haya realizado correctamente con el siguiente comando:

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    Si se detecta algún error, la herramienta los registrará en el registro del sistema. La herramienta también puede consultar si se detectaron errores en el análisis en segundo plano mediante el argumento --query.

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    Esta herramienta también se puede ejecutar manualmente en el primer plano ejecutando en un indicador de comandos de Linux:

    # dcdiag

    La prueba manual se ejecuta durante unos 45 minutos y tiene una alta utilización de la CPU.

    Cuando se complete el diagnóstico, el sistema devolverá uno de los siguientes mensajes:

    • Prueba completada con éxito. No se detectaron problemas.
       
    • Prueba completada con éxito. Se produjeron uno o más errores de verificación del equipo. Consulte los registros del sistema.
       
    • Esta versión de la herramienta no admite este procesador.

      Consulte el modelo y la versión del procesador del sistema. Este mensaje aparece si el Intel Data Center Diagnostic Tool no detecta una versión de producción de los procesadores compatibles. Esta herramienta no admite muestras de ingeniería.

      Encuentre ayuda para identificar el procesador.
       
    • Prueba completada. Los resultados no son concluyentes debido a una versión desactualizada del microcódigo.

      La versión más reciente del microcódigo aborda los problemas conocidos. Actualice. Las actualizaciones de microcódigo suelen ser entregadas por su proveedor de distribución de Linux junto con correcciones de seguridad y otras actualizaciones de firmware para diversos componentes. Si el sistema no tiene habilitadas estas actualizaciones, le recomendamos que las habilite. El microcódigo se carga automáticamente por el kernel de Linux en cada arranque y se puede volver a cargar en el tiempo de ejecución con el siguiente comando como raíz:

      echo 1 > /sys/devices/system/cpu/microcode
       
    • Prueba completada. Los resultados no son concluyentes debido a que el sistema supera los límites de temperatura

      Esto podría deberse a una variedad de problemas con el sistema que no proporciona suficiente refrigeración para que la CPU funcione dentro de los límites de temperatura requeridos. Le recomendamos que revise el sistema para asegurarse de que la refrigeración requerida funcione correctamente. Esto puede incluir ventiladores defectuosos, flujo de aire incorrecto o algún otro problema ambiental.
       
    • Prueba completada. Los resultados no son concluyentes, se produjeron uno o más errores de verificación del equipo.

      Consulte los registros del sistema.
       
    • Error en la prueba. Póngase en contacto con el fabricante del sistema o con el proveedor del procesador para obtener asistencia.

      Si los resultados de las pruebas muestran fallas, compruebe si los procesadores de su nodo de servidor todavía están bajo garantía:

      • Si tiene un procesador de Intel® Xeon® en caja todavía tiene una garantía de 3 años, comuníquese con Asistencia al cliente Intel para obtener ayuda.
      • Si tiene un procesador en bandeja, póngase en contacto con el proveedor del sistema o del procesador o con el punto de compra para verificar si el procesador aún está bajo garantía.
        NotaLos procesadores en bandeja se venden directamente a los fabricantes de sistemas o a los distribuidores autorizados de Intel. Intel no ofrece garantía directa a los usuarios finales para procesadores en bandeja a menos que hayan sido preinstalados en sistemas de servidor Bloques de centros de datos Intel® (Intel® DCB). A excepción de los sistemas Intel DCB, la garantía del procesador en bandeja es del proveedor o del punto de compra del procesador o del sistema si el procesador tenía preinstalado. Intel recomienda comprar a distribuidores autorizados de Intel, proveedores aprobados de Intel y distribuidores de productos Intel®.
      • Tenga en cuenta que Intel no tiene un programa de sustitución fuera de garantía.
         
    • Error en la prueba.

      Se completó la prueba y se detectó un error en el procesador físico que contiene /sys/devices/system/cpu/cpuXX.

      Póngase en contacto con el fabricante del sistema o con el proveedor del procesador para obtener asistencia.

    • Error en la prueba.

      La prueba no puede determinar qué procesador físico ha causado el fallo.

      Póngase en contacto con el fabricante del sistema o con el proveedor del procesador para obtener asistencia.
       

    Historial de versiones

    FechaVersiónDescripción
    7 de julio de 2021540Versión inicial