Ping An: La Tecnología de Seguridad Reduce los Silos de Datos

Intel® Software Guard Extensions ayuda a aplicar aprendizaje federado a la colaboración de datos de fuentes múltiples para el entrenamiento de IA.

Resumen:

  • El equipo de tecnología de aprendizaje federado de Ping An Technology está buscando maneras de agregar datos más dimensionales y de mejor calidad de más fuentes para mejorar el entrenamiento de los modelos de IA.

  • Basándose en las características de Intel® SGX, el equipo de aprendizaje federado trabajó en conjunto con Intel para diseñar un enfoque de entrenamiento de modelos de IA con datos de fuentes múltiples 1+N para su solución de aprendizaje federado con el fin de resolver mejor los problemas de seguridad de los datos y de evaluación de los efectos del entrenamiento.

author-image

Por

Contar con una excelente calidad y un gran volumen de datos se ha vuelto crucial para que las empresas puedan desarrollar su competitividad central en cuanto a inteligencia artificial (IA). Y el equipo de tecnología de aprendizaje federado de la empresa china Ping An Technology está buscando maneras de agregar datos más dimensionales y de mejor calidad de más fuentes para mejorar el enfoque de aprendizaje federado de los modelos de IA.

Sin embargo, el intercambio, la transmisión y la agregación de datos de fuentes múltiples también presenta problemas complejos de seguridad de los datos, especialmente, en las industrias y los sectores que manejan datos confidenciales, en los que el riesgo de vulneraciones de datos constituye el centro de atención tanto de las autoridades como del público en general. Esto ha dado lugar a la formulación de una serie de leyes y regulaciones sobre la protección de datos. Sin una solución de colaboración de datos de fuentes múltiples de confianza segura, sería difícil romper estos silos de datos de fuentes múltiples, y el desarrollo y la adopción del aprendizaje federado, sin duda, se vería obstaculizado.

Un enfoque viable para abordar este problema es crear un entorno de ejecución de confianza (TEE) en hardware específico con la ayuda de tecnologías de seguridad mejoradas por hardware para proteger los datos y las aplicaciones confidenciales contra accesos y ataques externos. A través de una estrecha cooperación técnica con Intel, el equipo de aprendizaje federado implementó Intel® Software Guard Extensions (Intel® SGX), un pilar clave de la solución de TEE, a sus soluciones de aprendizaje federado. Con esto, el equipo de aprendizaje federado es el primero en implementar un entrenamiento de IA con una solución de colaboración de datos de fuentes múltiples, lo que le permite lograr resultados notables en áreas como la de seguros, atención médica, voz inteligente e Internet de vehículos (IoV) con comentarios muy positivos de los usuarios.

“La tecnología de aprendizaje federado acelera el avance de la inteligencia artificial al ayudar a garantizar la seguridad de los datos y la protección de la privacidad. Intel® Software Guard Extensions es ideal para crear entornos de ejecución de hardware de confianza en las soluciones de aprendizaje federado. A través de las instrucciones del procesador, crea zonas de confianza en diferentes fuentes de datos para acceder a ellos. Esto nos ayuda a enriquecer el efecto de entrenamiento de los modelos de IA con datos de fuentes múltiples al mejorar aún más la seguridad de los datos”. —Dr. Jianzong Wang, ingeniero jefe adjunto, miembro del consejo de Ping An Technology, presidente de la Asociación de inteligencia artificial y robótica de Guangdong, Wang, Liga de desarrollo de software de código abierto de inteligencia artificial de China.

Las Prácticas de Aprendizaje Federado le Dan Peso a la Evolución del Entrenamiento de IA

Los algoritmos más maduros y la mayor potencia de procesamiento hacen que los datos de alta calidad y gran escala sean un factor importante que afecta el desempeño de la IA. Sin embargo, en varias industrias, la escasez de datos de entrenamiento en el proceso de adopción de IA ha producido resultados deficientes en el entrenamiento de los modelos de IA, ya que las fuentes de datos de diversas empresas y departamentos están separadas entre sí. Tradicionalmente, el sistema debe integrar datos para entrenar los modelos con datos de varias fuentes, pero este enfoque no garantiza la seguridad del intercambio de datos y aumenta el riesgo de pérdida de datos.

A medida que la seguridad y la privacidad de los datos cobran mayor atención, los gobiernos aumentan su protección a través de leyes y regulaciones. Por ejemplo, la “Guía para la protección de la seguridad de la información personal en Internet", publicada oficialmente en China en abril de 2019, cuenta con disposiciones claras con respecto a cómo se debe compartir y transferir la información personal, y fortalece aún más las medidas para proteger la información personal.1. En mayo de 2019, la Administración de Ciberespacio de China, junto con las autoridades pertinentes, elaboró las “Medidas para la gestión de la seguridad de los datos (documento de consulta)”, que establecen dictámenes claros y requisitos para el procesamiento y la utilización de los datos, así como para su supervisión y administración de seguridad.2.

El entrenamiento de IA requiere un método de agregación de datos seguro para mejorar las capacidades de colaboración de datos de fuentes múltiples. Con su sensibilidad al desarrollo de la IA y las tecnologías de macrodatos, el equipo de aprendizaje federado explora de forma proactiva los enfoques de aprendizaje federado cada vez más maduros. A diferencia de los métodos de intercambio de datos tradicionales, en el enfoque de aprendizaje federado, los datos de cada nodo se mantienen en el entorno local para el entrenamiento, por lo tanto, se espera que cada fuente de datos promueva y participe de la optimización del modelo de IA y comparta los resultados de la optimización sobre la base de que se garantice la privacidad de los datos.

Basándose en este concepto, el equipo de aprendizaje federado ha creado una plataforma Hive para el aprendizaje federado con el fin de proporcionarles a los usuarios una solución integral para proteger la privacidad y la seguridad de sus datos. En la creación de la plataforma, la solución debe resolver problemas como cómo mejorar aún más la seguridad de los datos de fuentes múltiples del entorno local, cómo ofrecer una garantía de seguridad más confiable para el proceso provisional de optimización del modelo de IA y cómo evaluar de forma eficaz la contribución de cada fuente de datos al resultado final de la optimización. El equipo de aprendizaje federado e Intel han propocionado una mejor solución para estos problemas con la tecnología Intel SGX.

La Tecnología de Seguridad Mejorada por Hardware Potencian el Aprendizaje Federado

En el proceso de agregar datos de fuentes múltiples para implementar el entrenamiento de los modelosde IA con el método de aprendizaje federado, los modelos de IA o los parámetros del proceso deben transmitirse e intercambiarse en varios nodos de datos a través de la red. Se sabe que, cuanto más mayor es la exposición de los datos, mayores son los riesgos de seguridad a los que se enfrentan. Por lo tanto, independientemente de la infraestructura de hardware o los sistemas operativos de cada nodo, o los dispositivos de red, como enrutadores y puertas de enlace, que se utilicen, se podrían generar riesgos de seguridad, como pérdidas de datos y alteraciones, si se “contaminan”.

Por ejemplo, un hacker puede interceptar los mensajes de datos instalando un analizador de protocolos (sniffer) en un transmisor en la red o utilizando un ataque de arranque en frío para leer la remanencia de datos después del reinicio del servidor e incluso atacar los datos en la memoria directamente mediante métodos de espionaje (snooping) del bus de memoria o manipulación de la memoria. Con una variedad de métodos de ataque, es difícil proteger el sistema y crear un mecanismo de protección y prevención integral que cubra el software y el hardware, así como el sistema operativo. Los esfuerzos para crear un mecanismo de estas características exigen muchos recursos y aumentan el costo total de propiedad sin proporcionar necesariamente resultados satisfactorios en escenarios de protección real.

Crear una solución de TEE para zonas de confianza en hardware es una mejor opción para resolver estos problemas. Como elemento fundamental en la implementación de esta solución, Intel SGX permite la creación de un “enclave” de confianza en hardware específico (como la memoria), con límites de seguridad de datos y aplicaciones restringidos al propio enclave y al procesador como se muestra en la Figura 1. Al mismo tiempo, su funcionamiento no depende de otros componentes de hardware o software, lo que significa que la seguridad y la protección de los datos son independientes del sistema operativo o la configuración de hardware para que, incluso si los controladores de hardware, las máquinas virtuales o el sistema operativo en sí son víctimas de un ataque o se destruyen, se pueda prevenir la pérdida de datos de forma más eficaz.

Figura 1. Intel SGX mejora la seguridad de los datos con “enclaves” de confianza

Basándose en las características de Intel® SGX, el equipo de aprendizaje federado trabajó en conjunto con Intel para diseñar un enfoque de entrenamiento de modelos de IA con datos de fuentes múltiples de 1+N para su solución de aprendizaje federado con el fin de resolver mejor los problemas de seguridad de los datos y de evaluación de los efectos del entrenamiento.

La nueva arquitectura de la solución 1+N se muestra en la Figura 2. En ella, un agregador “enclave” ubicado en el centro y N “enclaves” del perímetro implementados en otros lugares comprenden una red. Los enclaves del agregador y los sistemas de fuentes de datos son zonas de confianza que se crean en la memoria a través de las instrucciones del procesador que proporciona Intel® SGX.

Figura 2. Solución de aprendizaje federado con Intel® SGX

En la solución de 1+N, lo que se debe transmitir en un canal cifrado es el modelo de IA que se debe entrenar y optimizar y los parámetros intermedios relacionados, mientras que los datos del entrenamiento, el modelo de IA no cifrado y el algoritmo de IA se mantienen en el nodo en el que se encuentra cada fuente de datos. En el proceso de inicialización, los enclaves generan pares de claves públicas y privadas en los que la clave pública se registra en el agregador y la clave privada se almacena en sus propios enclaves. Cuando el entrenamiento comienza, primero, el agregador establece una conexión cifrada con el enclave objetivo. La clave cifrada simétrica para esta conexión se proporciona a través de una negociación con el algoritmo asimétrico de los pares de claves públicas y privadas, lo que ayuda a prevenir ataques de tipo “Man in the middle”. Una vez que se establece la conexión, el agregador cifra la IA que se va a entrenar y la lleva a cada enclave y, luego, cada enclave descifra el modelo y lo transmite al entorno de entrenamiento de IA local para entrenar los datos locales. Después del entrenamiento, el entorno de entrenamiento de IA local devuelve los parámetros intermedios del entrenamiento al enclave local.

Para responder a las necesidades empresariales, el equipo innovó el aprendizaje federado: todos los enclaves de cada entorno local son agentes de confianza para la federación, y como el algoritmo aplicado en etapas posteriores puede ejecutar el enclave directamente, los agentes de confianza pueden hacer cada vez más en el entorno local. Luego, el enclave cifra los parámetros intermedios en la conexión cifrada y los vuelve a transmitir al enclave del agregador, que incorpora rápidamente los parámetros intermedios que recibe y optimiza y ajusta el modelo de IA de acuerdo con los resultados antes de proceder con la siguiente iteración.

Como los procesos mencionados se implementan en los enclaves, tanto el modelo de IA como los parámetros intermedios se transmiten e intercambian en los canales cifrados y los enclaves sin ningún contacto con hardware o software externos a través de bucles e iteraciones de la solución, lo que da como resultado un “bucle interno” más seguro y de confianza. Los procesadores con arquitectura Intel® ofrecen un soporte informático potente para la construcción de los enclaves, la disposición de los canales cifrados y el intercambio y la agregación de parámetros internos.

Para evaluar la contribución de cada nodo al efecto del entrenamiento, en la solución 1+N, todos los nodos se pueden entrenar primero para obtener el efecto del entrenamiento del volumen total cuando se tiene N fuentes de datos. Posteriormente, los nodos N-1 distintos al nodo que se va a evaluar se entrenan por separado (por ejemplo, cuando se evalúa el nodo 1, se entrenan los nodos 2 a N) y, después de obtener modelos con diferentes efectos de entrenamiento, el sistema calcula el “coeficiente de contribución” de cada nodo de datos en el aprendizaje federado para obtener una evaluación más precisa de la contribución de cada nodo de datos en el entrenamiento conjunto de IA y ajustar la solución correspondientemente. Estos algoritmos y programaciones pueden afectar el desempeño del aprendizaje federado y todavía debe probarse si funcionan en la práctica. En cuanto a cómo aprovechar aún más el enclave construido con tecnología Intel®, sin duda, hay mucho por explorar y descubrir.

Resultados de las Principales Prácticas de Aprendizaje Federado

Tomemos la aplicación del aprendizaje federado en la industria de seguros como ejemplo. Antes del aprendizaje federado, los vendedores debían determinar el importe de las primas de las pólizas basándose únicamente en información básica, como la edad y el género de los clientes. Sin embargo, con el desarrollo continuo de la sociedad de la información, la cantidad y las características de los datos de los usuarios han aumentado considerablemente. Por ejemplo, en términos de seguros médicos, la precisión de la evaluación de riesgos de salud de los asegurados mejoraría si el sistema empresarial pudiera hacer predicciones con tecnología de IA utilizando grandes cantidades de datos, por ejemplo, de historias clínicas y antecedentes familiares, para poder categorizar la evaluación de salud de forma más precisa.

Sin embargo, las historias clínicas y los antecedentes médicos son un tipo de datos que se exige que las instituciones de atención médica mantengan absolutamente privados. No solo es imposible revelar estos datos, sino que el nivel de seguridad para protegerlos se debería mejorar. Ahora, con la introducción de una solución de aprendizaje federado, las aseguradoras pueden entrenar la IA sobre los modelos de precios de los seguros sin tocar los datos de los usuarios. Según los comentarios de primera línea de algunos proyectos iniciales relacionados, la solución de aprendizaje federado 1+N puede mejorar considerablemente el efecto de la fijación de precios de seguros personalizada.

Outlook

Debido a la falta de una protección efectiva de los datos y al aumento de su valor, en algunas industrias, el fenómeno de los silos de datos se está convirtiendo cada vez más en un problema. En respuesta a algunos de estos desafíos de datos en el desarrollo de la IA, el Dr. Jianzong Wang, un pionero del aprendizaje federado en China y jefe del equipo de tecnología de aprendizaje federado de Ping An Technology, ha estado liderando a su equipo para explorar activamente la seguridad de los datos y las colaboraciones de confianza en los entornos de fuentes de múltiples datos. El equipo utiliza métodos de aprendizaje federado avanzados para abordar los desafíos de los datos y ha acumulado mucha experiencia para hacer avances en este campo. Han alcanzado muchos logros que proporcionan una referencia útil para la aplicación del aprendizaje federado en diferentes sectores industriales.

Actualmente, el equipo está utilizando el método de aprendizaje federado para desarrollar un modelo de aprendizaje polimorfo y multitarea para la industria financiera, que recibe una fuerte supervisión de los datos. Este modelo está desarrollado para satisfacer las necesidades de los bancos y las instituciones financieras en varios escenarios de aplicación, por ejemplo, para la evaluación de riesgos, la lucha contra el blanqueo de dinero, el asesoramiento en materia de inversiones, la investigación sobre inversiones, créditos, seguros y supervisión. Con el desarrollo de este modelo, el equipo pretende ayudar a los usuarios a aprovechar las capacidades de la IA para crear un control de riesgos y modelos de marketing más efectivos, así como para identificar posibles riesgos financieros, como el fraude de tarjetas de crédito y el vencimiento de préstamos, entre otros, con el fin de reducir los riesgos operativos de las empresas financieras. El método de aprendizaje federado también puede ayudar a los usuarios a utilizar datos horizontales para crear perfiles de usuarios, ampliar los canales de ventas y optimizar las estrategias de marketing con el fin de proporcionar un motor inteligente para mejorar las capacidades de venta.

En el futuro, el equipo de aprendizaje federado desarrollará aún más la cooperación tecnológica con Intel para impulsar la operación segura y la transformación eficiente de los recursos de datos en el aprendizaje federado con un número creciente de tecnologías avanzadas. También colaborará con más empresas e instituciones para eliminar las barreras de los datos y promover el desarrollo y la aplicación rápidos del aprendizaje federado en todos los ámbitos de la vida.

Beneficios de la Solución del Equipo de Aprendizaje Federado:

  • A través de las instrucciones del procesador, Intel® SGX crea “enclaves” de memoria que garantizan mejor la seguridad de los datos en cada nodo de aprendizaje federado para el intercambio y la transmisión de los parámetros internos, lo que ayuda a prevenir tanto ataques internos como externos y a proporcionar una seguridad más confiable para la implementación y la exploración del aprendizaje federado en un entorno de datos de fuentes múltiples.
  • La solución de aprendizaje federado 1+N que integra Intel® SGX ayuda a evaluar de forma precisa la contribución de los datos en cada nodo del entrenamiento del modelo de IA y facilita la capacidad de ajuste a los usuarios.

Descargar documento PDF ›