Problemas irresolubles

La opinión de Bob Rogers de Intel sobre cómo obtener valor de casi cualquier proyecto de análisis.

Aportes

  • Los científicos de datos suelen enfrentarse a problemas que son (o parecen ser) irresolubles con el big data.

  • Formular las preguntas correctamente y elegir los mejores algoritmos para sus problemas son aspectos fundamentales para que las soluciones de análisis tengan éxito.

  • Las técnicas para solucionar problemas pueden ayudar a los analistas a obtener una respuesta significativa, incluso si responde a una pregunta ligeramente diferente.

author-image

Por

He pasado más de una década realizando previsiones de futuros como gestor de un fondo de cobertura. Teníamos datos de operación por operación desde hace décadas, pero había un enorme componente aleatorio en estos datos que no nos permitía realizar una predicción automatizada con un nivel de precisión más alto que el previamente determinado. Todos los motivos que tiene la gente para comprar y vender en un momento concreto, combinados con la gran cantidad de personas que realizaba actividades comerciales, significaba que, independientemente de lo que hiciéramos, nunca obtendríamos perfectamente señales del ruido de los datos.

En la ciencia de los datos se les denomina problemas irresolubles y, una vez superado un determinado momento, es posible que el análisis y el big data simplemente nunca puedan avanzar.

La buena noticia es que muchos problemas, que en principio parecían irresolubles, se pueden abordar cambiando su enfoque o sus aportaciones.

El hecho de saber cuándo se pueden resolver los problemas que parecen irresolubles con algunos cambios razonables posicionará a la empresa y al patrocinador del proyecto en el camino de un éxito continuo. En cambio, poder reconocer los problemas que se definen en una escala poco realista evitará la pérdida de un tiempo y un dinero que podría aprovechar y destinar a una cuestión más concreta.

A continuación le ofrecemos cuatro métodos de solución de problemas que podrían mejorar sus resultados. Mediante una aplicación repetida de uno o varios de estos métodos, podría pasar de darse cabezazos contra una pared a aumentar las probabilidades de obtener valor de su trabajo de análisis.

1. Plantee una cuestión más concreta

A menudo, el mejor camino a seguir es intentar solucionar alguna parte de su duda inicial y extrapolar las lecciones. Intentar determinar qué probabilidad existe de que un determinado usuario de redes sociales se interese en un modelo de coche que está diseñando es algo difícil de conseguir. Incluso con una gran cantidad de datos fiables, es posible que tenga demasiadas variables como para llegar a un modelo que aporte un valor realmente predictivo.

Algunas veces, cuando añade un nuevo conjunto de datos, ve el cielo abierto y encuentra un nuevo poder de predicción.

Bob Rogers, Científico Jefe de Datos de Intel

2. Mejore su algoritmo

En la ciencia de los datos, los algoritmos no solo definen la secuencia de las operaciones que realizará su sistema de análisis con el conjunto de datos, sino que también reflejan su forma de pensar o “modelar” posibles relaciones con los datos.

En ocasiones, la creación del algoritmo adecuado o la modificación de un algoritmo ya disponible para un nuevo objetivo específico requiere muchas repeticiones. (El aprendizaje automático promete automatizar la mejora de los algoritmos; se trata de una disciplina que puede observarse).

Algunas veces, cuando añade un nuevo conjunto de datos, ve el cielo abierto y encuentra un nuevo poder de predicción.

Una señal de que su algoritmo funciona es cuando ha aumentado su potencia, por ejemplo, en un factor de cinco pero observa una mejora mucho menor en tiempo de procesamiento.

Otra prueba es modificar ligeramente los parámetros de su algoritmo. Unos algoritmos ligeramente diferentes solo deberían producir respuestas ligeramente distintas. Si producen respuestas radicalmente diferentes, lo más probable es que algo se esté quedando fuera y necesite otro algoritmo.

Y quizás haya elegido el tipo de algoritmo totalmente equivocado. La selección del modelo suele basarse en hipótesis sobre los datos, como esperar obtener una progresión lineal entre dos elementos cuando la relación entre ambos podría representarse con más precisión con un árbol de decisiones.

Hay muchas bibliotecas de algoritmos de código abierto disponibles para el público. Casi nunca tendrá que empezar desde cero.

3. Limpie sus datos

Esta tarea es un desafío histórico para el departamento de TI. Hay basura que entra y basura que sale. En el mejor de los casos, esto es algo a lo que se habrá enfrentado antes de comenzar cualquier proyecto de análisis, pero los problemas con los conjuntos de datos no suelen ser evidentes hasta que empieza el análisis.

4. Utilice datos diferentes

Esta es una variación del paso anterior ligeramente más complicada. Para obtener más datos, solo necesitaría actualizar sus metadatos. Puede que tenga que cambiar algunos procesos para recopilar los datos que necesita.

La mayoría de las empresas ya han extraído el máximo valor posible de los datos que almacenan en los almacenes de datos tradicionales. Algunas veces, cuando añade un nuevo conjunto de datos, especialmente datos no estructurados como notas de progreso de texto escritas por doctores o interacciones documentadas entre los empleados de un centro de llamadas y los clientes, ve el cielo abierto y encuentra un nuevo poder de predicción.

Como norma general, más datos deberían ayudar a obtener mejores respuestas. Para probar un proyecto de análisis, añada datos en secuencia para comprobar cómo modifican las respuestas. Siempre que sus respuestas sigan mejorando, lo más probable es que no haya alcanzado el punto de insolubilidad.

Si su progreso es lento, evalúe el coste de los posibles enfoques en comparación con los posibles beneficios. Y no está mal tener presente lo siguiente: intentar predecir el comportamiento humano con demasiada precisión puede ser la raíz de la insolubilidad.