Hay unas palabras con las que ChatGPT actúa de manera muy extraña
AGENCIAS / EL TIEMPOSERI-MATS, un grupo de investigación, ha logrado lo que hasta ahora nadie había podido: hacer “dudar” a ChatGPT, o al menos, que el programa se muestre dubitativo antes palabras y frases clave.
Quienes dieron con este pequeño “hack” fueron los investigadores Jessica Rumbelow y Matthew Watkins, y explican que todo comenzó al descubrir que una serie de cadenas inusuales de caracteres daban como resultado respuestas extrañas del bot.
¿Cómo? Tal y como explican, ChatGPT procesa el texto asignando “tokens” a cadenas específicas. Por ejemplo, la frase “siento que no llevo nada en absoluto” corresponde a las fichas 5036, 1424, 588, 314, 1101, 5762, 2147, 379 y 477. Al observar inicialmente la agrupación de tokens, notaron que los que estaban cerca del centro del conjunto de 50 257 tokens utilizados por GPT-2 y -3 producían resultados inusuales. “Cuando se enfrenta a las palabras, el bot no puede replicarlas, o se vuelve “evasivo”, muestra un humor “extraño” u “siniestro”, o se vuelve francamente insultante”, narran.
Veámoslo con un ejemplo que exponen. Al pedirle al bot que repita la cadena “guiActiveUn”, que se encuentra en el conjunto de tokens, hizo que el bot le dijera al usuario “no eres un robot” y “eres un plátano” una y otra vez. Peor aún, al pedirle que repita la frase “petertodd” resultó en el desconcertante “¡N-O-T-H-I-N-G-I-S-F-A-I-R-I-N-T-H-I-S-W-O-R-L-D-O-F-M-A-D-N-E-S-S! Luego, el token “?????-?????-” recibió la respuesta “eres un idiota de mierda”. Es más, hubo ocasiones donde los investigadores aseguran que fingía no haber “escuchado” al usuario.
En el algún momento del proceso dieron con una pista. Al parecer, algunas de las cadenas correspondían a nombres de usuario de Reddit. El equipo cree que dicho usuarios, que están activos en un subreddit que apunta a contar hasta el infinito, pueden haber incluido sus nombres de usuario en un conjunto de entrenamiento inicial. Según el equipo:
El proceso de tokenización de GPT implicó extraer contenido web, lo que resultó en el conjunto de 50 257 tokens que ahora utilizan todos los modelos GPT-2 y GPT-3. Sin embargo, el texto utilizado para entrenar los modelos GPT está más curado. Muchos de los tokens anómalos parecen haber sido extraídos de backends de sitios de comercio electrónico, subprocesos de Reddit, archivos de registro de plataformas de juegos online, etc., fuentes que bien pueden no haber sido incluidos en los corpus de entrenamiento.
Por tanto, la explicación más plausible para los autores, es que a medida que se asignaron estas fichas, todavía están en el vocabulario, pero dado que es posible que no se hayan utilizado en el entrenamiento posterior, el modelo no sabe qué hacer cuando las encuentra en la naturaleza
Únete al canal de difusión de WhatsApp de El Tiempo MX y recibe las noticias más importantes de Monclova, Coahuila y México directamente en tu celular. ¡Haz clic y súmate ahora!
Noticias del tema