Diseño de una arquitectura de análisis

Antes de crear un sistema de análisis, los departamentos de TI deben tener en cuenta los siguientes aspectos fundamentales.

Aportes

  • Almacenar datos cerca del procesamiento puede ahorrar tiempo y costes de transmisión.

  • El análisis en tiempo real crea una serie de demandas diferentes que requieren distintas herramientas.

  • Los controles de acceso deberían ajustarse a la sensibilidad de los datos a los que se pretende acceder.

author-image

Por

Los ejecutivos de TI deben decidir hasta dónde deberían llegar los datos antes de ser simplificados y analizados. Las dos opciones más prácticas tienen ventajas e inconvenientes.

Por otra parte, el hecho de tener que analizar datos sin procesar puede ralentizar el análisis y los lagos de datos almacenarán inevitablemente datos que, en última instancia, no serán necesarios.

En opinión de Patricia Florissi, Directora de Tecnología Global de Ventas e ingeniera distinguida de EMC, los pros superan a los contras.

“Debería poder realizar un análisis sin tener que mover los datos”, afirma.

En sus soluciones para lagos de datos, EMC almacena datos sin procesar de diferentes fuentes y en múltiples formatos. Este enfoque significa que el analista tiene acceso a más información y puede descubrir cosas que se podrían perder si se limpian o descartan datos en primer lugar.

Florissi añade que los grandes esfuerzos analíticos podrían requerir varios lagos de datos.

El grupo de comunicación AOL también utiliza lagos de datos, comenta James LaPlaine, Director de Información de la empresa. La empresa gestiona mil millones de transacciones al día y “el problema llega cuando hay que copiar esos enormes conjuntos de datos”, afirma. Dejar los datos en formato nativo y trasladarlos del punto de captura directamente a la nube pública evitaría el coste que conlleva su copia a través de la red interna.

Queremos almacenar todos nuestros datos más importantes en un único lugar para que podamos tener una única fuente de datos de confianza para toda la empresa.

Mike Bojdak, Director superior de tecnología de AOL

Qué tipo de base de datos se debe utilizar

Es importante elegir la base de datos adecuada para un determinado proyecto de análisis, ya que la cantidad, el formato y la latencia de los datos son factores que desempeñan un papel importante.

El proyecto donde Intel cambió las bases de datos incluía una consulta avanzada “que utilizaba los datos de un grupo de fuentes no correlacionadas”, afirma Safa. La consulta se realizó en una base de datos SQL y tardó cuatro horas. En una base de datos en memoria principal, la misma consulta tardó tan solo 10 minutos. Pero añade que la opción de utilizar una base de datos en memoria no siempre es la mejor opción para todas las aplicaciones. Siempre se vuelve a los objetivos empresariales para cumplir la tarea encomendada.

Como punto de partida, comenta Safa, debe tener en cuenta si un proyecto busca patrones o requiere una precisión milimétrica.

Las bases de datos distribuidas como Hadoop, que almacenan datos en diferentes formatos, funcionan bien con proyectos enfocados en la búsqueda de tendencias, afirma. En estos casos, unos puntos de datos imprecisos no cambiarán materialmente el resultado.

“Por otra parte, si intenta determinar en qué fase del proceso de fabricación se encuentran determinados materiales específicos en un momento dado, deberá obtener una precisión del 100% sin latencia”, afirma.

Eso requiere una base de datos con más estructura o controles y mejorada para ofrecer resultados en tiempo real. Dependiendo de sus necesidades específicas, una empresa puede elegir un marco de trabajo de procesamiento de datos en memoria principal o una base de datos NoSQL centrada en el rendimiento. Aunque hay muchos tipos de bases de datos de análisis que tienen prestaciones que se superponen, sus características son sustancialmente distintas.

Aunque la clasificación de los datos es una tarea laboriosa, resulta fundamental para hacer las cosas bien.

James LaPlaine, jefe de información de AOL