¿Es posible hacer que un LLM (Large Language Model) «olvide» algo que no debería haber aprendido?
Al manejar datos sensibles, ¿te has preguntado qué tan seguro es un modelo de lenguaje? ¿O si alguna vez podrás borrar por completo información peligrosa que un LLM ha aprendido?
La era de la inteligencia artificial que vivimos ahora, en ciertos ámbitos, se le puede llamar por antonomasia la era de los LLM. Estos modelos son entrenados con vastas cantidades de información, lo cual vemos reflejado en su manera de generar texto, las respuestas a nuestras preguntas e, incluso, en tener conversaciones fluidas.
Visto de otro modo, los LLM han democratizado el acceso a la información, optimizado procesos en educación, atención al cliente, desarrollo de software y más. Aunque esta innovación también trae consigo desafíos de ciberseguridad. No solo generan contenido útil, también pueden memorizar datos sensibles o reproducir información dañina. Aquí es donde surge una preocupación clave: ¿cómo aseguramos que un LLM «olvide» lo que no debería saber?
En terrenos legales encontramos una garantía llamada el derecho al olvido, la cual permite a las personas exigir la eliminación de su información personal de los sistemas digitales. El hecho de que un robot haya aprendido nuestra información personal no es lo único que nos va a perjudicar (como veremos más adelante), pero está claro que debe de existir una solución que la inteligencia artificial tenga bajo la manga.
El Machine Unlearning es un área de estudio relativamente nueva, con objetivos complementarios al Reinforcement Learning. El Machine Unlearning (MU) implica eliminar datos específicos del modelo sin necesidad de reentrenarlo desde cero.
Tecnicismos aparte, es un hecho que implementar MU es complejo porque no solo hablamos de eliminar datos, hablamos de eliminar conocimiento generado de esos datos y sin afectar la funcionalidad.
Materializa un desafío muy importante asegurarse de que un LLM ha olvidado lo necesario mediante pruebas rigurosas para detectar vulnerabilidades y validar el funcionamiento del MU.
¿Red Teaming en LLM?
En este ámbito de la ciberseguridad, el concepto de Red Teaming es bien conocido: consiste en un grupo de expertos que simulan ataques reales para descubrir vulnerabilidades en los sistemas informáticos de una organización. Pero, ¿cómo se aplica a los LLM? La respuesta está en evaluar la solidez de estos modelos frente a posibles usos maliciosos o comportamientos no deseados.
Un Red Team en el contexto de la inteligencia artificial prueba los límites del modelo, identificando cómo puede ser manipulado o explotado. Ya sea la evaluación de sesgos del modelo o su respuesta ante preguntas o comandos que provocan mostrar un comportamiento inadecuado, respuestas dañinas o información sensible. En el artículo de Liu[i] se hace referencia a cómo un Red Team podría intentar «jailbreakear» un LLM para que proporcione instrucciones para realizar un ataque cibernético. Si el modelo entrega esta información, se convierte en una vulnerabilidad crítica que debe abordarse mediante técnicas como el Machine Unlearning.
Cobra relevancia recordar que Red Teaming, además de descubrir vulnerabilidades, informa sobre datos que deben ser olvidados, lo que implica que su papel se vuelva cada vez más crucial en un campo que a menudo involucra una prueba de caja negra con muchísimos parámetros para probar y que es una tecnología en constante cambio.
Aplicaciones y desafíos de la seguridad en IA
Un desafío conocido por la cultura de la ciberseguridad que toma un ángulo nuevo en la era de la inteligencia artificial es la protección de la privacidad. Los LLM pueden retener información sensible, ya sean nombres, direcciones o detalles confidenciales, especialmente si han sido entrenados con datos no filtrados. Como decíamos anteriormente, hay regulaciones de privacidad en las cuales los individuos tienen derecho a solicitar la eliminación de su información, una diligencia que el Machine Unlearning puede cumplir.
De igual manera, los LLM pueden aprender inadvertidamente a generar contenido peligroso, como la fabricación de armas químicas o lanzamiento de ataques cibernéticos. Li en su artículo sobre el Benchmark WMDP[ii], mide conocimientos peligrosos en ciberseguridad, entre otras ramas del conocimiento, y demuestra que los LLM pueden proporcionar información crítica y maliciosa.
El caso de mantener el equilibrio entre eliminar contenido dañino y conservar la utilidad del modelo o la aplicación del MU a gran escala en modelos cerrados, o servicios de API mientras se conservan las prioridades de la ciberseguridad, son claros ejemplos de la relevancia del Machine Unlearning, tanto como innovación como necesidad crítica. Su desarrollo definirá la manera en la que las organizaciones enfrentan las crecientes demandas de privacidad, seguridad y cumplimiento normativo.
[i] https://doi.org/10.48550/arXiv.2402.08787
[ii] https://doi.org/10.48550/arXiv.2403.03218
Deja tu comentario