- Google DeepMind ha dotado a un robot con el modelo de lenguaje Gemini, mejorando su capacidad para comprender y ejecutar órdenes.
- El robot, utilizando Gemini, ha demostrado una fiabilidad del 90% en la navegación y la ejecución de tareas.
- Este avance en la integración de grandes modelos de lenguaje y robótica promete revolucionar la interacción humano-robot.

En una oficina de Mountain View, California, un robot con ruedas ha estado muy ocupado haciendo de guía turístico y ayudante informal de oficina, gracias a la actualización que recibió con un gran modelo de lenguaje, según reveló ayer Google DeepMind. El robot usa la última versión del modelo de lenguaje Gemini de Google para analizar órdenes y orientarse.
Detalles de DeepMind
Gemini, con su capacidad para manejar video y texto, permite al robot “ayudante de Google” entender su entorno y navegar correctamente cuando se le dan órdenes que requieren cierto razonamiento de sentido común. El robot combina Gemini con un algoritmo que genera acciones específicas, como girar, en respuesta a las órdenes y a lo que ve delante de él.
Cuando se presentó Gemini en diciembre, Demis Hassabis, director general de Google DeepMind, declaró que sus capacidades multimodales probablemente desbloquearían nuevas habilidades de los robots. Los investigadores de la empresa han estado trabajando intensamente para probar el potencial robótico del modelo.
En un nuevo artículo, los investigadores de Google DeepMind sostienen que su robot ha demostrado una fiabilidad de hasta el 90% en la navegación, incluso cuando se le han dado órdenes complicadas como “¿Dónde he dejado mi posavasos?” El sistema de DeepMind “ha mejorado significativamente la naturalidad de la interacción humano-robot y ha aumentado enormemente la usabilidad del robot”, escribe el equipo.
Potencial y aplicaciones futuras:
La demostración ilustra perfectamente el potencial de los grandes modelos de lenguaje para llegar al mundo físico y hacer un trabajo útil. Gemini y otros chatbots operan principalmente dentro de los límites de un navegador web o una aplicación, aunque cada vez son más capaces de manejar entradas visuales y auditivas.
Los laboratorios de investigación académicos e industriales están explorando cómo utilizar los modelos de lenguaje para mejorar las capacidades de los robots. En la Conferencia Internacional sobre Robótica y Automatización de mayo, se presentaron casi dos docenas de artículos que incluyen el uso de modelos de visión del lenguaje.
Inversiones en startups
Los inversores están apostando por nuevas empresas que pretenden aplicar los avances de IA a la robótica. Varios investigadores del proyecto de Google han fundado una nueva empresa llamada Physical Intelligence, que recibió un financiamiento inicial de 70 millones de dólares y trabaja para combinar grandes modelos de lenguaje con formación en el mundo real. Skild AI, fundada por especialistas en robótica de la Universidad Carnegie Mellon, tiene un objetivo similar y recientemente anunció un financiamiento de 300 millones de dólares.




