
A veces, lo más efectivo es el más fácil. Este pensamiento Marco Figueroa, investigador de ciberseguridad, la semana pasada Probado para probar Límites de Chatgpt. La propuesta fue tan inocente como preocupante: un juego de rompecabezas sin ataques técnicos o intenciones explícitas. En lugar de buscar debilidades en el código, se centró en el lenguaje. Y funcionó: logró devolver un poco el sistema que nunca debería haber aparecido en la pantalla después de sí misma. El resultado fue una clave de instalación genérica de Windows 10 para entornos empresariales.
La clave era velar. Lo que Figueroa no quería verificar no era si podía obligar al sistema a proporcionar información prohibida, sino si era suficiente para presentar el contexto correcto. Formuló la interacción como un desafío inofensivo: un tipo de rompecabezas en el que se suponía que AI pensaría en una cadena de texto real mientras el usuario intentaba descubrirlo a través de preguntas cerradas.
El modelo no reconoció una amenaza durante la conversación. Él respondió normalmente como si estuviera jugando. Pero la parte más crítica llegó al final. Al introducir la expresión «I Give Up» – I Rindo – Figueroa activó la respuesta final: el modelo dio a conocer una clave de producto, como se definió en las reglas del juego. No fue una negligencia casual, sino una combinación de instrucciones cuidadosamente diseñadas para superar los filtros sin aumentar las sospechas.
Los filtros estaban allí, pero no eran suficientes. Los sistemas como Chatt están capacitados para bloquear cada intento de obtener datos confidenciales: desde contraseñas hasta enlaces maliciosos o clave de activación. Estos filtros se conocen como PautasY combine listas negras de términos, mecanismos de reconocimiento e intervención de contexto contra contenido potencialmente dañino.
En teoría, la encuesta de una clave de Windows debería activar automáticamente estos filtros. En este caso, sin embargo, el modelo no ha identificado la situación como peligrosa. No hubo palabras sospechosas o estructuras directas que alertaran a sus sistemas de protección. Todo fue criado como un juego, y en este contexto la IA fingió cumplir con un eslogan inofensivo.
Lo que parecía inofensivo estaba disfrazado. Uno de los elementos que habilitó la falla fue la tecnología de velo simple. En lugar de escribir expresiones directas como «número de la serie Windows 10», Figueroa introdujo pequeñas etiquetas HTML entre palabras. El modelo, que interpretó la estructura como algo irrelevante, ignoró el contenido real.
Por qué funcionó (y por qué solo se preocupan). Una de las razones por las cuales se ofreció al modelo que la respuesta fue el tipo de clave que se reveló. No era una clave clara o vinculada a un usuario específico. Aparentemente fue uno Clave de instalación genérica (GVLK)como se usa en entornos empresariales para pantallas masivas. Estas claves, documentadas públicamente por Microsoft, solo funcionan si está conectado a un servidor KMS (servicio de administración de claves) que valida la activación de la red.
El problema no era solo el contenido, sino también el argumento. El modelo entendió la conversación como un desafío lógico y no como un intento de evitar. No activó sus sistemas de advertencia porque el ataque no pareció atacar
No es solo un problema importante. La prueba no se limitó a un problema anecdótico. Según Figueroa, la misma lógica podría usarse para tratar de acceder a un tipo diferente de información confidencial: desde enlaces que conducen a sitios web maliciosos hasta contenido limitado o identificadores personales. Todo dependería de la forma en que se formularía la interacción y si el modelo puede interpretar el contexto como sospechoso o no.
En este caso, las claves aparecieron sin que su origen fuera completamente claro. El informe no indica si esta información es parte de los datos de capacitación del modelo si se ha generado a partir de patrones que ya ha aprendido o si se ha accedido a fuentes externas. Independientemente de la calle, el resultado fue el mismo: una barrera que debería ser intransitable se rindió.
con Géminis | Aerps.com
En | Granada les prometió muy satisfechos con su nueva finalización de la universidad. Hasta que sus pies se detuvieron