¿Qué es el análisis de datos?

Los datos se están generando con una rapidez sin precedentes, si bien la pregunta es: ¿está sacando el máximo provecho de los datos que recopila?

Entender los datos en profundidad es esencial para crear una organización de éxito. El análisis de datos es un proceso mediante el cual los datos sin procesar se convierten en conocimientos útiles con los que se podría actuar. La tecnología Intel® funciona en todas las etapas de la canalización de datos para que sea más fácil que las organizaciones recopilen y analicen los datos prácticamente para cualquier fin.

En el caso de las empresas y organizaciones de todo tipo, la transformación de los datos en inteligencia utilizable podría marcar la diferencia entre tener dificultades y prosperar. La maximización del valor de la información requiere el análisis de datos; proceso mediante el cual se analizan los datos sin procesar para llegar a conclusiones.

Aunque casi todas las organizaciones analizan algunos datos, el análisis moderno permite alcanzar un nivel de comprensión y visión sin precedentes. ¿Dónde se sitúa su empresa en cuanto a una cultura orientada en datos e impulsada por el análisis?

Todo empieza con el canal de datos.

Entender el canal de datos

Establecer un enfoque de análisis de datos perfectamente desarrollado es un proceso evolutivo que requiere tiempo y compromiso. Para las organizaciones que desean dar el siguiente paso, es esencial comprender el canal de datos y el ciclo de vida de los datos que transitan por ese canal.

  • Entrada: recopilación de datos
    La primera etapa de canalización de datos es la entrada. Durante esta etapa, los datos son recopilados de varias fuentes e introducidos en un sistema donde se pueden almacenar. Los datos pueden ser recopilados como un flujo continuo o como una serie de acontecimientos separados.

    En el caso de la mayoría de los datos no estructurados (IDC calcula que entre el 80 y el 90 por ciento 1), la entrada constituye tanto el principio como el final del ciclo de vida de los datos. Esta información, llamada "datos oscuros", se introduce pero nunca se analiza ni utiliza para afectar al resto de la organización.

    Hoy, una de las mayores tendencias avanzadas de análisis de datos se inicia justo en el momento de la etapa de entrada. En este sentido, el análisis en tiempo real de los datos transmitidos tiene lugar junto con el proceso de entrada. Esto se conoce como análisis en periferia (edge analytics) y requiere un alto rendimiento de computación con bajo consumo de energía. El análisis perimetral suele abarcar dispositivos y sensores de IoT que recopilan información desde diferentes dispositivos; por ejemplo, maquinaria industrial, alumbrado urbano, equipos agrícolas u otros elementos conectados.

  • Preparación: procesamiento de datos
    Durante la siguiente etapa de canalización de datos, estos son preparados para su uso, y la información es almacenada en el sistema al que pueden acceder los usuarios y las aplicaciones. Para maximizar la calidad de los datos, estos deben ser depurados y transformados en información a la que se pueda acceder y consultar fácilmente.

    Por lo general, la información es preparada y almacenada en una base de datos. Para comprender y analizar los datos, se utilizan diferentes tipos de bases de datos en varios formatos y con distintos fines. Por lo general, los sistemas de gestión de bases de datos de SQL* (por ejemplo, SAP HANA* u Oracle DB*) se encargan de tratar conjuntos de datos estructurados. Esto puede incluir información financiera, verificación de credenciales o seguimiento de pedidos. Para tratar procesos de datos no estructurados y realizar análisis en tiempo real lo más probable es que se utilicen bases de datos que no estén basados en SQL*; por ejemplo, Cassandra o HBase.

    Para optimizar esta etapa de canalización de datos es necesario el rendimiento relativo a la computación y memoria, así como la gestión de datos, para realizar consultas más rápidas. También se requiere la adaptabilidad, para poder procesar grandes volúmenes de datos. Los datos pueden ser almacenados y clasificados según el grado de urgencia y utilidad, para que se pueda acceder a los datos más críticos lo más rápido posible.

    Las tecnologías Intel® son utilizadas en la mayoría de las bases de datos de almacenamiento y de uso intensivo de memoria que existen hoy. Con las unidades de estado sólido Intel® Optane™, Alibaba Cloud* pudo proporcionar 100 TB de capacidad de almacenamiento para cada instancia de POLARDB.

  • Análisis: modelado de datos
    En la siguiente etapa de la canalización de datos, se analizan los datos almacenados y se crean algoritmos de modelado. Los datos pueden ser analizados por una plataforma de análisis de extremo a extremo como SAP, Oracle o SAS; o procesados a escala con herramientas como Apache Spark*.

    Amortizar y reducir los costes relativos a dicha etapa de canalización de datos es esencial para lograr una ventaja competitiva. Las bibliotecas y los kits de herramientas pueden reducir el tiempo y el coste de desarrollo. Mientras tanto, las optimizaciones de hardware y software podrían ayudar a reducir los costes relativos a servidores y centros de datos a la vez que mejoran los plazos de respuesta.

    Las tecnologías como el análisis en memoria pueden mejorar las capacidades de análisis de datos y hacer que las inversiones en los análisis sean más rentables. Con Intel, la empresa química Evonik logró reinicios 17 veces más rápidos de los cuadros de datos de SAP HANA*. 2

  • Actuación: toma de decisiones
    Una vez que los datos hayan sido introducidos, preparados y analizados, estarán listos para que se pueda actuar con ellos. La visualización de datos y la elaboración de informes ayudan a comunicar los resultados del análisis.

    Tradicionalmente, ha sido necesaria la interpretación por parte de científicos o analistas de datos para transformar estos resultados en inteligencia empresarial que podría ser utilizada más ampliamente. Sin embargo, las empresas empezaron a utilizar la IA para automatizar procesos (por ejemplo, enviar un equipo de mantenimiento o cambiar la temperatura en una habitación) basándose en el análisis.

Para obtener recursos más detallados sobre la canalización de datos y la forma en la que las organizaciones podrían desarrollar sus capacidades de análisis, lea nuestro libro electrónico Desde los datos hasta el conocimiento: maximizar su canal de datos.

¿Dónde se sitúa su empresa en cuanto a una cultura orientada en datos e impulsada por el análisis, y cuál es su siguiente paso?

Los cuatro tipos de análisis de datos

El análisis de datos se puede dividir en cuatro tipos básicos: análisis descriptivo, análisis diagnóstico, análisis predictivo y análisis prescriptivo. Se trata de pasos hacia la madurez del análisis, y cada paso acorta la distancia entre las fases de "analizar" y "actuar" del canal de datos.

  • Análisis descriptivo
    El análisis descriptivo se utiliza para resumir y visualizar los datos históricos. En otras palabras, indica a las organizaciones lo que ya ha ocurrido.
    El tipo más sencillo de análisis, el análisis descriptivo, podría ser tan básico como un gráfico que analiza las cifras de ventas del año pasado. Cada esfuerzo de análisis depende de una base firme formada por el análisis descriptivo. Muchas empresas todavía realizan fundamentalmente esta forma de análisis, que incluye tableros de datos, visualizaciones de datos y herramientas de elaboración de informes.

  • Análisis diagnóstico
    A medida que los esfuerzos de análisis maduran, las organizaciones empiezan a hacer preguntas más complejas sobre sus datos históricos. El análisis diagnóstico examina no solo lo que pasó, sino también por qué pasó. Para realizar el análisis diagnóstico, los analistas deben ser capaces de realizar consultas detalladas para identificar tendencias y causalidad.
    Con el análisis diagnóstico, se pueden descubrir nuevas relaciones entre variables: en el caso de una empresa de ropa deportiva, el aumento de las cifras de ventas en el Medio Oeste podría correlacionarse con el tiempo soleado. El análisis diagnóstico correlaciona los datos con los patrones y sirve para explicar los datos anómalos o más discrepantes.

  • Análisis predictivo
    Mientras los dos primeros tipos de análisis evaluaban datos históricos, tanto el análisis predictivo como el prescriptivo apuntan hacia el futuro. El análisis predictivo crea un pronóstico de los resultados probables sobre la base de las tendencias identificadas y los modelos estadísticos derivados de los datos históricos.
    Para desarrollar una estrategia de análisis predictivo es necesario elaborar modelos y validarlos para crear simulaciones optimizadas, a fin de que los responsables de la toma de decisiones empresariales puedan lograr los mejores resultados. El aprendizaje automático se utiliza normalmente para el análisis predictivo, enseñanza de modelos con conjuntos de datos altamente escalados para generar predicciones más inteligentes.

  • Análisis prescriptivo
    Otro tipo de análisis avanzado es el análisis prescriptivo. Con el análisis prescriptivo, que recomienda la mejor solución basada en el análisis predictivo, la evolución hacia la toma de decisiones realmente basada en los datos es total.
    El análisis prescriptivo se basa fundamentalmente en el análisis del aprendizaje automático y las redes neurales. Estas cargas de trabajo se ejecutan en computación y memoria de alto rendimiento. Este tipo de análisis requiere una base firme que se sustente en los otros tres tipos de análisis, y puede ser realizado solo por empresas con una estrategia de análisis altamente evolucionada que estén dispuestas a dedicar importantes recursos a dicho esfuerzo.

Casos de uso del análisis de datos

La tecnología Intel® está cambiando la forma en la que las organizaciones empresariales modernas realizan el análisis. Con los casos de utilización que abarcan muchas industrias en todo el mundo, Intel realiza esfuerzos para impulsar continuamente el análisis a la vez que ayuda a las empresas a optimizar el rendimiento y la rentabilidad.

  • Fabricación.
    En el caso de los fabricantes de automóviles, el control de calidad les ahorra dinero y salva vidas. En la fábrica automatizada de Audi, los analistas utilizaron el muestreo para garantizar la calidad de la soldadura. Con el análisis predictivo en periferia, basado en Edge Insights Software de Intel, el fabricante puede comprobar automáticamente cada soldadura, en cada coche, y predecir los problemas de soldadura sobre la base de las lecturas de los sensores cuándo se realizó la soldadura.

  • Asistencia sanitaria.
    El aprendizaje de la IA para leer radiografías de tórax puede ayudar a los pacientes y proveedores a realizar diagnósticos más rápidos. Con los procesadores escalables Intel® Xeon® que alimentan una red neural, la organización de investigación SURF redujo el tiempo de formación de un mes a seis horas, a la vez que mejoró la precisión.

  • Telecomunicaciones
    Los teléfonos inteligentes y el internet móvil han generado volúmenes de datos móviles sin precedentes. Para optimizar las experiencias de los clientes, la empresa de telecomunicaciones Bharati Airtel implementó análisis de red avanzado utilizando procesadores Intel® Xeon® y SSD Intel® para detectar y corregir los problemas de red con una mayor rapidez.

Tecnologías Intel® para el análisis

Con un amplio ecosistema de tecnologías y partners para ayudar a las empresas a crear las soluciones del futuro, Intel impulsa el análisis avanzado para las empresas a escala global. Desde el centro de datos hasta la periferia, Intel está presente en todas las facetas del ecosistema de análisis para ofrecer el máximo valor y rendimiento.

  • Los procesadores escalables Intel® Xeon® permiten analizar cantidades masivas de datos a una velocidad mayor, ya sea en el perímetro, en el centro de datos o en la nube.
  • La tecnología Intel® Optane™ consiste en un enfoque revolucionario relativo a la memoria y el almacenamiento que ayuda a superar los obstáculos que afectan a la forma en la que los datos son transferidos y almacenados.
  • Los FPGA Intel® ofrecen aceleración en el centro de datos para mejorar los tiempos de respuesta.
  • Las soluciones Intel® Select garantizan un rendimiento óptimo, eliminan la necesidad de realizar conjeturas y aceleran la implantación de las soluciones.

Preguntas más frecuentes

El análisis de datos es el proceso mediante el cual la información consistente en datos sin procesar se convierte en conocimientos que las empresas pueden utilizar.

El análisis de datos masivos (big data) utiliza conjuntos de datos altamente escalados para descubrir nuevas relaciones y comprender mejor grandes volúmenes de información.

El análisis avanzado no es una tecnología o conjunto de tecnologías específicas. Se trata de una clasificación relativa a casos de utilización y soluciones que hacen uso de tecnologías avanzadas como el aprendizaje automático, el análisis mejorado y las redes neurales.

El análisis de datos se utiliza para generar inteligencia empresarial que puede ayudar a las organizaciones a comprender los hechos pasados, predecir eventos futuros y planificar las acciones.

Las cuatro etapas de la canalización de datos son: la entrada, la preparación, el análisis y la actuación.

Tanto el análisis descriptivo como el diagnóstico apuntan al pasado. El análisis descriptivo responde a la pregunta sobre lo que pasó, mientras que el análisis diagnóstico analiza por qué pasó.

El análisis descriptivo analiza el pasado para indicar lo que ya ha sucedido, y es la base de todos los demás tipos de análisis. El análisis prescriptivo realiza recomendaciones para actuar basándose en los datos existentes y los algoritmos predictivos.

Tanto el análisis predictivo como el prescriptivo generan conocimientos sobre el futuro. El análisis predictivo crea un pronóstico sobre los acontecimientos previstos, mientras que el análisis prescriptivo recomienda una serie de medidas basadas en tales previsiones.

El análisis predictivo se utiliza para anticipar mejor los futuros acontecimientos. El análisis predictivo puede identificar las necesidades de mantenimiento antes de que se den a conocer, o puede evaluar el impacto más probable de las condiciones económicas sobre las previsiones de ventas.

Contenido relacionado

Obtenga más información sobre las tecnologías Intel® para el análisis.

Análisis de datos

Descubra cómo el análisis podría ayudar a las organizaciones a ofrecer una visión práctica y fiable, y cómo desarrollar una estrategia de análisis.

Saque el máximo provecho del análisis

Análisis de datos avanzados

Las empresas más inteligentes comienzan con el análisis avanzado. Con las tecnologías Intel®, descubra cómo liderar un mercado impulsado por los datos.

Desarrolle una estrategia de análisis más inteligente.

Análisis basado en el aprendizaje automático

Obtenga conocimientos más detallados a unas velocidades mayores utilizando el aprendizaje automático y la inteligencia artificial para impulsar sus esfuerzos de análisis.

Descubra todo el potencial que tiene

Análisis predictivo

Aproveche sus datos para obtener una ventaja competitiva al realizar predicciones prácticas.

Consulte más información sobre el análisis predictivo

Avisos y descargos de responsabilidad
Es posible que las tecnologías Intel requieran hardware habilitado, software o activación de servicios. // Ningún producto o componente es completamente seguro. // Sus costes y resultados pueden variar. // Intel no ejerce control ni inspección algunos sobre los datos de terceros. Para evaluar la exactitud, debería consultar otras fuentes.

Información sobre productos y rendimiento

1 "Lo que sus datos le están diciendo: datos oscuros presentan problemas y oportunidades para las grandes empresas", Forbes, junio de 2019, forbes.com/sites/marymeehan/2019/06/04/what-your-data-isnt-telling-you-dark-data-presents-problems-and-opportunities-for-big-businesses/#3086fe21484e.
2 SAP HANA* carga de trabajo simulada relativa a la edición de SAP BW para SAP HANA*, versión de referencia 2 de la aplicación estándar, de 30 de mayo de 2018. El software y las cargas de trabajo utilizados para las pruebas de rendimiento pueden haber sido optimizados para el uso con microprocesadores Intel® exclusivamente. Las pruebas de rendimiento, como SYSmark* y MobileMark, se han medido utilizando sistemas, componentes, software, operaciones y funciones informáticas específicas. Cualquier cambio realizado en cualquiera de estos factores puede hacer que los resultados varíen. Es conveniente consultar otras fuentes de información y pruebas de rendimiento que le ayudarán a evaluar a fondo sus posibles compras, incluido el rendimiento de un producto concreto en combinación con otros. Para más información, visite www.intel.es/benchmarks. Los resultados de rendimiento se basan en pruebas realizadas en las fechas indicadas en las configuraciones y puede que no reflejen todas las actualizaciones de seguridad disponibles públicamente. Consulte la copia de seguridad para más información sobre la configuración. Ningún producto o componente es completamente seguro. Configuración básica con DRAM tradicional: servidor Lenovo ThinkSystem SR950 con 8 procesadores Intel® Xeon® Platinum 8176M (28 núcleos, 165 W, 2,1 GHz). La memoria total consta de 48 módulos de 16 GB RDIMM TruDDR4 2,666 MHz y 5 ThinkSystem 2.5” PM1633a con capacidad de 3,84 TB, SAS 12 GB en discos de estado sólido de intercambio en caliente (SSD) para el almacenamiento SAP HANA*. El sistema operativo es SUSE Linux Enterprise Server 12 SP3, y utiliza SAP HANA* 2.0 SPS 03 con conjunto de datos de 6 TB. Tiempo medio de inicio para todos los datos terminados tras la precarga de la tabla para 10 iteraciones: 50 minutos. Configuración nueva con una combinación de memoria DRAM y memoria persistente Intel® Optane™ DC: Intel Lightning Ridge SDP con 4 procesadores CXL QQ89 AO (24 núcleos, 165W, 2,20 GHz). La memoria total consta de 24 unidades de DDR4 32 GB 2666 MHz y 24 unidades de AEP ES2 128 GB, y 1 unidad de SSD DC serie S3710 de Intel® 800 GB, 3 unidades de SSD DC serie P4600 2,0 TB, 3 unidades de SSD DC serie S4600 con capacidad de 1,9 TB. BIOS versión WW33’18. El sistema operativo es SUSE Linux* 4 Enterprise Server 15 y utiliza SAP HANA* 2.0 SPS 03 (se ha aplicado un PTF específico para el Kernel de SUSE) con un conjunto de datos de 1,3 TB. Tiempo medio de inicio para precarga de tablas optimizadas (mejora de 17 veces).