Elaborado por Materia para OpenMind Recomendado por Materia
4
Inicio El reto de entrenar una inteligencia artificial en la era de la privacidad
03 octubre 2019

El reto de entrenar una inteligencia artificial en la era de la privacidad

Tiempo estimado de lectura Tiempo 4 de lectura

Son tiempos revueltos para el programador de inteligencia artificial: nunca ha habido tanto potencial al alcance del aprendizaje automático, que se alimenta de los datos generados por los usuarios, pero nunca habíamos tenido tanto recelo a este uso ni tanta legislación para proteger nuestra privacidad de los malos actores en el sector tecnológico.

El escándalo del uso político de los datos de 87 millones de usuarios de Facebook lo cambió todo en 2018, y las constantes noticias de brechas de seguridad —en redes sociales, en sistemas operativos y en la nube— despiertan nuevas desconfianzas en los usuarios. Ahora se conoce, por ejemplo, que los trabajadores de Google escuchan fragmentos de las conversaciones que sus clientes mantienen con los altavoces inteligentes para hacerlos más sabios. Nuevos caminos tecnológicos, como el del aprendizaje federado, surgen ante el reto de entrenar a los algoritmos respetando nuestra privacidad: ¿es una utopía?

BBVA-OpenMind-Materia-Aprendizaje federado 2-El reto de entrenar una inteligencia artificial en la era de la privacidad-El escándalo de Cambridge Analytica reveló que los datos de millones de usuarios de Facebook se habían empleado sin su consentimiento en campaña política. Crédito: Pixabay
El escándalo de Cambridge Analytica reveló que los datos de millones de usuarios de Facebook se habían empleado sin su consentimiento en campaña política. Crédito: Pixabay

‘Inteligente’ no es solo el dispositivo dotado de instrucciones para afrontar ciertas tareas, sino el que está programado para aprender a resolverlas. El aprendizaje automático (machine learning), de hecho, permite al ordenador tomar una decisión sin saber por qué la toma; meramente infiere la respuesta más probable de ser correcta en base a cientos, miles o millones de precedentes que ha observado. El algoritmo más ‘sabio’ es el que ha madurado contemplando más decisiones, normalmente tomadas por humanos dotados de intuición e ingenio. Pero el tamaño de la muestra de aprendizaje no es lo único que importa; también es relevante su contexto.

“Podríamos entrenar un modelo de lenguaje para Gboard —el teclado predictivo de los teléfonos Android— con datos de Wikipedia”, sugiere Brendan McMahan, investigador de Google AI, la división de inteligencia artificial de la empresa. “Pero sería terrible porque la gente no escribe mensajes de texto de la misma forma que escribe artículos en Wikipedia”, añade. Es por esto que las aplicaciones de aprendizaje automático tienen un apetito voraz por los datos de los usuarios a los que pretenden servir.

Hasta hace unos años, los consumidores ofrecían esta información sin muchas contemplaciones. Era antes del escándalo de Cambridge Analytica, de la comparecencia de Mark Zuckerberg ante el Congreso de Estados Unidos en un interrogatorio sobre privacidad digital y, en Europa, antes del Reglamento General de Protección de Datos (RGPD). Ahora, una gran parte del público reconoce que los datos personales son la moneda de cambio con la que se adquieren servicios informáticos previamente considerados gratuitos. La divertida aplicación de móvil que envejece los retratos, FaceApp, suscitó en julio una polémica mundial cuando se sospechó que robaba todas las imágenes del móvil. Resultó ser una falsa alarma, pero la cobertura mediática sobre su ambigua política de privacidad  —similar a la de páginas populares como Twitter— sirvió para remover conciencias.

La criptografía y el aprendizaje federado

¿Cómo entrenar un algoritmo en era de la privacidad? Una opción es el cifrado homomórfico, una técnica que permite realizar computaciones con datos encriptados. De esta manera el servidor central trabaja con la información de los usuarios, pero en un formato que es ininteligible para cualquier persona que supervise el proceso. Sin embargo, la técnica criptográfica es “increíblemente lenta para funciones complejas” como el entrenamiento de una inteligencia artificial, según explica el experto en privacidad digital Andrew Trask, de la Universidad de Oxford (Reino Unido).

BBVA-OpenMind-MAteria-Aprendizaje federado 3-El reto de entrenar una inteligencia artificial en la era de la privacidad-Los empleados de Google escuchan fragmentos de las conversaciones grabadas por su altavoz inteligente. Credito: John Tekeridis
Los empleados de Google escuchan fragmentos de las conversaciones grabadas por su altavoz inteligente. Crédito: John Tekeridis

El equipo que lidera McMahan en Google AI tiene otra propuesta: el aprendizaje federado, un modelo descentralizado mediante el cual los algoritmos se entrenan directamente en los dispositivos de los usuarios. “No es una panacea. No es aplicable a todos los problemas, ni mucho menos soluciona todos ellos”, explicaba recientemente el programador en un congreso mundial de inteligencia artificial. Pero sí es una opción viable y atractiva que desde 2016 ha demostrado su potencial.

Bajo este modelo, no es necesario recoger información privada en un servidor central para entrenar a la inteligencia artificial. De hecho, los datos generados por cada usuario nunca abandonan su dispositivo, sino que el programa acude a ellos. El equipo de Google AI lleva varios años mejorando su teclado predictivo, Gboard, así. Primero, se distribuye a los usuarios el último modelo del programa en una actualización de sistema, luego ese modelo se entrena en cada smartphone observando cómo tecela mensajes privados su propietario. Finalmente, el resultado de cada sesión de aprendizaje se resume en una pequeña actualización del software que se devuelve al servidor central de Google —sin rastro de los textos analizados—. Allí se realiza una puesta en común para la siguiente actualización con todo lo aprendido en cada móvil.

BBVA-OpenMind-Materia-Aprendizaje federado 4-El reto de entrenar una inteligencia artificial en la era de la privacidad-El teclado de los teléfonos Android, Gboard, entrena su función predictiva por aprendizaje federado para proteger la privacidad de los usuarios. Crédito: Roman Pohorecki
El teclado de los teléfonos Android, Gboard, entrena su función predictiva por aprendizaje federado para proteger la privacidad de los usuarios. Crédito: Roman Pohorecki

Desde la empresa aseguran que las sesiones de descarga, entrenamiento y subida al servidor no drenan la batería ni ralentizan el teléfono porque solo se llevan a cabo en aquellos móviles que estén en reposo, cargando y conectados a una red WiFi. Cabe dudar, sin embargo, cómo se gestionaría este proceso en el creciente número de dispositivos conectados, la mayoría dotados con menos capacidad de computación que un smartphone.

Más allá del teléfono móvil

El Internet de las cosas cada día está poblado por más artilugios ‘inteligentes’: relojes, altavoces, electrodomésticos, incluso ropa. Además, se suman a los objetos de consumo los innovadores dispositivos neurotecnológicos: prototipos de interfaces cerebro-máquina que se conectan al sistema nervioso humano y que también recogen y envían datos personales —los pensamientos, o mejor dicho los impulsos eléctricos que los codifican— a un servidor centralizado. ¿Podría el aprendizaje federado proteger esta delicada información fisiológica?

“Con los procesadores pequeños y desplegables que ya se están fabricando, no creo que el hardware sea un factor limitante. Es un reto, pero no es insuperable”, opina Trask, quien en 2017 fundó Open Minded, un proyecto para fomentar el aprendizaje automático descentralizado. “Lo que será mucho más complicado y difícil de actualizar es la infraestructura de la red que hace falta para distribuir los modelos [de aprendizaje automático] a lugares remotos”, advierte. La llegada del 5G es el fenómeno “al que prestar atención” en este sentido, según el informático.

BBVA-OpenMind-Materia-Aprendizaje federado 5-El reto de entrenar una inteligencia artificial en la era de la privacidad-El Internet de las cosas está poblado cada día por más artilugios ‘inteligentes’. Crédito: Tumisu
El Internet de las cosas está poblado cada día por más artilugios ‘inteligentes’. Crédito: Tumisu

Sin embargo, Morten Dahl, experto en privacidad aplicada al aprendizaje automático en Dropout Labs (París, Francia), señala que el aprendizaje federado por sí solo no garantiza el anonimato. A menudo es necesario otro sistema de protección, llamado protocolo seguro o protocolo de confidencialidad, que evita identificar quién entrenó a cada versión del modelo agregada por el servidor. Esta técnica criptográfica se emplea, por ejemplo, al fusionar bases de datos financieras de distintos bancos, o historiales médicos de muchos pacientes. Google AI la emplea en la última fase del entrenamiento federado de Gboard.

Convendría añadir un último nivel de seguridad llamado privacidad diferencial, que impide deducir los datos originales partiendo del modelo ya entrenado, según explica Dahl. Tanto él como Trask opinan que las tres técnicas juntas —aprendizaje federado, protocolo seguro y privacidad diferencial— serán cruciales para el desarrollo de las inteligencias artificiales. “El aprendizaje federado dominará el mercado primero porque es sencillo”, asegura Trask. “Junto con los otros dos métodos, forma la opción más rápida, más segura y más fácil de distribuir”.

Bruno Martín

@TurbanMinor

Comentarios sobre esta publicación

El nombre no debe estar vacío
Escribe un comentario aquí…* (Máximo de 500 palabras)
El comentario no puede estar vacío
*Tu comentario será revisado antes de ser publicado
La comprobación captcha debe estar aprobada