En un mundo guiado por algoritmos donde los datos son el rey, un traspié puede llevar a un verdadero desastre. Netflix descubrió esto en 2009 cuando liberó reseñas anónimas de películas escritas por los suscriptores. Al comparar esos fragmentos con las reseñas de otro sitio web, los investigadores de datos revelaron que podían identificar a los suscriptores individuales y lo que habían estado viendo. Un cliente gay demandó por violación de la privacidad; Netflix llegó a un acuerdo.
- Te recomendamos Inteligencia artificial anticipó la aparición del coronavirus Europa
Ese episodio todavía lo citan actualmente los académicos que buscan formas de separar información útil de los datos sin exponer a las personas que los proporcionan. Donde la anonimización fracasó, los datos sintéticos aún podrían tener éxito.
Como su nombre indica, se genera artificialmente. Con mayor frecuencia se crea canalizando datos del mundo real a través de un algoritmo de adición de ruido para construir un nuevo conjunto de datos. El conjunto de datos resultante captura las características estadísticas de la información original sin ser una réplica que revele cosas de manera involuntaria. Su utilidad se basa en un principio conocido como privacidad diferencial: que cualquier persona que extraiga datos sintéticos podría hacer las mismas inferencias estadísticas que haría con los datos verdaderos, sin poder identificar contribuciones individuales.
Emiliano De Cristofaro, del University College de Londres, está entusiasmado por su potencial para extraer información útil de bases de datos muy controladas. Descubrir el fraude, por ejemplo, puede ser un reto porque las regulaciones restringen cómo se puede compartir la información, incluso dentro de los bancos. Los datos sintéticos pueden ayudar a revelar patrones útiles, mientras ocultan incidentes individuales.
“Si tratas de entrenar un algoritmo para detectar fraudes, no te importan las transacciones específicas y quién las realizó”, dice. “Te interesan las estadísticas, si las cantidades están justo por debajo del límite necesario para activar una auditoría, o si suelen ocurrir cerca del final del trimestre”. Ese tipo de números se pueden sacar de los datos sintéticos, así como de los originales.
El año pasado, un informe de la Oficina de Estadísticas Nacionales de Reino Unido dijo que ofrecía una “forma más segura, fácil y rápida de compartir datos entre el gobierno, el sector académico y el sector privado”.
Los datos no tienen que tener sus raíces en el mundo real para tener valor: se pueden fabricar y colocar donde falta algo o es difícil de conseguir. Investigadores ingeniosos llevan a cabo pruebas de software del coche de autoconducción en las carreteras virtuales creadas para videojuegos.
Los datos sintéticos podrían, por supuesto, enmarcarse como datos falsos, pero en algunas circunstancias eso es una ventaja. La inteligencia artificial que se entrena con información de la vida real ostenta un sesgo incorporado: la toma de decisiones algorítmicas en campos como la justicia penal y la calificación crediticia demuestra que existe discriminación racial. El fenómeno está documentado en libros como Race after Technology (La carrera después de la tecnología) de Ruha Benjamin, que compara esta intolerancia codificada con las leyes de Jim Crow que permitieron la segregación en el sur de EU.
Ese tipo de discriminación no es algo que la inteligencia artificial deba perpetuar, de acuerdo con el científico de datos de la Universidad de Washington Bill Howe, quien cree que los datos sintéticos podrían ayudar a abordar problemas sociales complejos como la pobreza: “Podríamos modificar ese sesgo. Las personas podrían publicar datos sintéticos que reflejen el mundo que nos gustaría tener. ¿Por qué no usarlos como conjuntos de entrenamiento para la inteligencia artificial?”, dice.
Es una visión sorprendentemente utópica: datos que no son falsos sino idealizados, que se utilizan para perfeccionar algoritmos totalmente imparciales y justos en un paraíso digital donde los datos siguen siendo el rey, pero gobiernan como un monarca benevolente en lugar de un patriarca prejuicioso.
Y ADEMÁS
EN OBSERVACIÓN
La idea de los datos sintéticos surgió por primera vez en la década de 1990, pero el ascenso en el aprendizaje automático y la potencia de computación, junto con regulaciones más estrictas en torno a la gestión de datos, ahora la convierte en una tecnología a observar. Hazy, una empresa que surgió de UCL, obtuvo el premio de inversión Microsoft Innovate.AI de 1 millón de dólares en 2018; ese año, el Instituto Nacional de Estándares y Tecnología de EU convirtió la privacidad diferencial y los datos sintéticos en el foco de un reto abierto.