Google presenta RT-2, un nuevo modelo de visión, lenguaje y acción para robots

Redacción/ El Tiempo Monclova

⌛️ lunes 4 de septiembre de 2023

La capacidad del RT-2 para convertir la información en acciones es prometedora para que los robots se adapten más rápidamente a situaciones y entornos nuevos.

Robotics Transformer 2, o RT-2, es el primer modelo de visión, lenguaje y acción (VLA) de su tipo. RT-2, un modelo basado en Transformer entrenado con texto e imágenes de la web, puede generar acciones robóticas directamente. Así como los modelos de lenguaje se entrenan con texto de la web para aprender ideas y conceptos generales, RT-2 transfiere conocimientos de datos web para informar el comportamiento del robot.

Los desafíos del mundo real del aprendizaje de robots

La búsqueda de robots útiles siempre ha sido un esfuerzo hercúleo, porque un robot capaz de realizar tareas generales en el mundo necesita poder manejar tareas complejas y abstractas en entornos muy variables, especialmente aquellos que nunca antes se han visto.

A diferencia de los chatbots, los robots necesitan “conexión a tierra” en el mundo real y sus habilidades. Su formación no se trata sólo de, digamos, aprender todo lo que hay que saber sobre una manzana: cómo crece, sus propiedades físicas o incluso qué supuestamente aterrizó en la cabeza de Sir Isaac Newton. Un robot debe poder reconocer una manzana en contexto, distinguirla de una bola roja, comprender su apariencia y, lo más importante, saber cómo levantarla.

Históricamente, eso ha requerido entrenar robots en miles de millones de puntos de datos, de primera mano, en cada objeto, entorno, tarea y situación en el mundo físico, una perspectiva que consume tanto tiempo y es tan costosa que la hace poco práctica para los innovadores. El aprendizaje es una tarea desafiante, y más aún para los robots.

Un nuevo enfoque con RT-2

Trabajos recientes han mejorado la capacidad de razonar de los robots, permitiéndoles incluso utilizar indicaciones de cadena de pensamiento, una forma de analizar problemas de varios pasos. La introducción de modelos de visión, como PaLM-E, ayudó a los robots a comprender mejor su entorno. Y RT-1 demostró que los Transformers, conocidos por su capacidad para generalizar información entre sistemas, podrían incluso ayudar a diferentes tipos de robots a aprender unos de otros.

Pero hasta ahora, los robots funcionaban con complejos conjuntos de sistemas, con un razonamiento de alto nivel y sistemas de manipulación de bajo nivel que desempeñaban un imperfecto juego de teléfono para operar el robot. Imagínese pensar en lo que quiere hacer y luego tener que decirle esas acciones al resto de su cuerpo para que se mueva. RT-2 elimina esa complejidad y permite que un solo modelo no solo realice el razonamiento complejo que se ve en los modelos básicos, sino que también genere acciones del robot. Lo más importante es que muestra que con una pequeña cantidad de datos de entrenamiento del robot, el sistema es capaz de transferir conceptos integrados en su lenguaje y datos de entrenamiento de la visión para dirigir acciones del robot, incluso para tareas para las que nunca ha sido entrenado.

Por ejemplo, si quisiera que los sistemas anteriores pudieran tirar un trozo de basura, tendría que entrenarlos explícitamente para que pudieran identificar la basura, así como recogerla y tirarla. Dado que RT-2 es capaz de transferir conocimientos de un gran corpus de datos web, ya tiene una idea de qué es la basura y puede identificarla sin una formación explícita. Incluso tiene una idea de cómo tirar la basura, aunque nunca ha sido entrenado para realizar esa acción. Y piense en la naturaleza abstracta de la basura: lo que era una bolsa de patatas fritas o una cáscara de plátano se convierte en basura después de comerlas. RT-2 es capaz de entender esto a partir de sus datos de entrenamiento de visión y lenguaje y hacer el trabajo.

Un futuro mejor para la robótica

La capacidad del RT-2 para transferir información a acciones es prometedora para que los robots se adapten más rápidamente a situaciones y entornos novedosos. Al probar los modelos RT-2 en más de 6.000 pruebas robóticas, el equipo descubrió que RT-2 funcionaba tan bien como nuestro modelo anterior, RT-1, en tareas en sus datos de entrenamiento, o tareas "vistas". Y casi duplicó su rendimiento en escenarios novedosos e invisibles al 62% desde el 32% del RT-1.

En otras palabras, con RT-2, los robots pueden aprender más como lo hacemos nosotros: transfiriendo conceptos aprendidos a situaciones nuevas.

RT-2 no sólo muestra cómo los avances en IA están llegando rápidamente a la robótica, sino que también muestra una enorme promesa para robots de uso más general. Si bien todavía queda una enorme cantidad de trabajo por hacer para habilitar robots útiles en entornos centrados en el ser humano, RT-2 nos muestra un futuro emocionante para la robótica que está a nuestro alcance.

Únete al canal de difusión de WhatsApp de El Tiempo MX y recibe las noticias más importantes de Monclova, Coahuila y México directamente en tu celular. ¡Haz clic y súmate ahora!

Noticias del tema