La seguridad de los modelos de inteligencia artificial sanitaria no es igual para todos, según un estudio publicado en Nature. Los autores identifican colectivos especialmente vulnerables cuando sus datos se utilizan para entrenar estos sistemas y proponen medidas para proteger a los pacientes con mayor riesgo.

El informe advierte de que algunos grupos de pacientes pueden correr mayores riesgos para la privacidad cuando su información clínica es empleada en el desarrollo de algoritmos médicos. Específicamente, pacientes con enfermedades raras y otros grupos infrarrepresentados son más propensos a que su información quede comprometida.

Un equipo de investigadores de la Universidad Técnica de Múnich, el Imperial College de Londres y otras instituciones realizaron una auditoría de privacidad centrada en el riesgo individual de los pacientes. Para ello, analizaron siete grandes conjuntos de datos clínicos reales que incluían imágenes médicas, electrocardiogramas e historiales electrónicos de salud.

Los resultados muestran que algunos participantes pueden ser identificados con una precisión cercana al 100 %, incluso cuando las métricas globales sugieren que el riesgo es bajo. Esta conclusión inicialmente sorprendió a los investigadores, quienes no encontraron un patrón claro en los casos de mayor riesgo.

Los autores identificaron entre los grupos más vulnerables a personas con enfermedades raras, pacientes de minorías raciales, colectivos socioeconómicos menos representados o personas pertenecientes al sexo menos frecuente dentro de determinados conjuntos de datos. Según el estudio, la información más distintiva en sus registros clínicos facilita que los modelos de IA los distingan del resto de participantes y aumenta el riesgo de que su participación en estas bases de datos pueda ser descubierta.

Estos hallazgos tienen implicaciones sociales, ya que si las personas pertenecientes a grupos infrarrepresentados perciben que los modelos funcionan peor para ellos y que sus datos están más expuestos, podrían mostrar menos disposición a participar en futuras bases de datos médicas. Esto podría perpetuar desigualdades sanitarias.

El estudio también destaca que los riesgos de estos ataques se vuelven más graves cuanto más específica es la cohorte utilizada para entrenar el modelo. Los modelos de mayor tamaño y capacidad presentan riesgos más elevados, lo cual resulta especialmente relevante en un momento en que gran parte del desarrollo de la IA se basa precisamente en entrenar sistemas cada vez más grandes y potentes.

El trabajo también evalúa escenarios de ciberseguridad donde un atacante dispone de recursos computacionales limitados y acceso restringido a los modelos. Los investigadores demuestran que estos ataques pueden ejecutarse con éxito utilizando pequeñas cantidades de recursos computacionales.

Ante este escenario, los expertos proponen medidas de protección como la privacidad diferencial, una técnica matemática diseñada para limitar la información que puede extraerse sobre cada participante. También sugieren controles más estrictos sobre el acceso a los modelos y la evaluación cuidadosa de cada caso concreto.

Según Moritz Knolle, autor principal del estudio, las instituciones sanitarias deberían evaluar cada situación en particular para determinar qué información confidencial podría obtener un atacante si lograra realizar una intrusiones exitosa. Si se detectan riesgos relevantes, se deben adoptar medidas adicionales como restringir el acceso a los modelos o aplicar mecanismos de privacidad diferencial a nivel de paciente.