O Google divulgou recentemente novos métodos para treinar robôs utilizando vídeos, visando aprimorar o entendimento dessas máquinas.
A equipe de pesquisadores do Google DeepMind Robotics tem explorado o potencial dessa abordagem, que combina inteligência artificial generativa com modelos de base ampla.
Em um post de blog, eles destacam as pesquisas em andamento para que os robôs compreendam melhor o que os seres humanos esperam deles.
Tradicionalmente, os robôs são projetados para executar uma única tarefa repetidamente ao longo de sua vida útil. Embora sejam eficientes nessa função específica, eles enfrentam dificuldades quando ocorrem mudanças ou erros não intencionais.
O novo método chamado AutoRT utiliza modelos de base ampla para diversos fins. Em um exemplo dado pela equipe do DeepMind, o sistema utiliza um Modelo de Linguagem Visual (VLM) para uma melhor percepção da situação.
O AutoRT é capaz de gerenciar um grupo de robôs que trabalham em conjunto, equipados com câmeras para obter uma visão do ambiente e dos objetos presentes nele.
Além disso, um grande modelo de linguagem (LLM, na sigla em inglês) sugere tarefas que podem ser realizadas pelo hardware, incluindo o efetuador final do robô.
Os LLMs são considerados essenciais para que os robôs compreendam com eficácia comandos em linguagem natural, reduzindo a necessidade de programação rígida.
O sistema AutoRT já passou por extensos testes nos últimos meses. Ele é capaz de coordenar até 20 robôs simultaneamente, com um total de 52 dispositivos diferentes. Ao todo, o DeepMind coletou mais de 77.000 experimentos, abrangendo mais de 6.000 tarefas.
Outra novidade apresentada pela equipe é o RT-Trajectory, que utiliza vídeos como entrada para o aprendizado dos robôs.
Muitas equipes estão explorando o uso de vídeos do YouTube para treinar robôs em grande escala, mas o RT-Trajectory adiciona uma camada interessante, sobrepondo um esboço bidimensional do movimento do braço sobre o vídeo.
A equipe afirma que o treinamento com o RT-Trajectory teve o dobro de taxa de sucesso em comparação com o treinamento RT-2, atingindo 63% em 41 tarefas.
Esses avanços não apenas contribuem para o desenvolvimento de robôs capazes de se mover com precisão e eficiência em situações novas, mas também possibilitam aproveitar o conhecimento de conjuntos de dados existentes.