domingo, 1 de fevereiro de 2026
InícioDestaquesGoogle DeepMind lança modelos de IA que capacitam robôs para tarefas complexas...

Google DeepMind lança modelos de IA que capacitam robôs para tarefas complexas e pesquisa autônoma na web

Gemini Robotics 1.5 e Gemini Robotics-ER 1.5 permitem que máquinas executem missões com múltiplas etapas e compartilhem aprendizados entre diferentes plataformas robóticas

O Google DeepMind anunciou uma atualização significativa de seus modelos de inteligência artificial voltados para robótica, permitindo que robôs executem tarefas complexas com múltiplas etapas e busquem informações na internet para auxiliar em suas atividades. Os sistemas Gemini Robotics 1.5 e Gemini Robotics-ER 1.5, lançados originalmente em março deste ano, agora demonstram capacidades expandidas que vão muito além das operações singulares anteriormente possíveis.

Segundo Carolina Parada, chefe de robótica do DeepMind, os modelos trabalham em conjunto para dar aos robôs a habilidade de pensar vários passos à frente antes de iniciar ações. As versões iniciais conseguiam executar instruções isoladas de forma generalizada, mas a atualização representa uma mudança de paradigma ao possibilitar compreensão genuína e resolução de problemas para tarefas físicas. Os dois modelos atuam em tandem, transformando informação visual e instruções em comandos motores enquanto raciocinam sobre o ambiente físico.

As novas capacidades permitem aplicações práticas significativas. Os robôs agora conseguem separar roupas em cestos de lavanderia por cores claras e escuras, e podem preparar uma mala de viagem selecionando roupas adequadas às condições climáticas previstas em destinos como Londres ou Nova York. Para esta última tarefa, o sistema acessa a internet para consultar previsões meteorológicas atualizadas. A ferramenta também pode pesquisar informações necessárias para outras atividades, como classificar materiais recicláveis em uma lixeira seguindo diretrizes específicas da localização.

O funcionamento técnico envolve uma arquitetura de dois modelos complementares conhecidos como VLA (vision-language-action). O Gemini Robotics 1.5 transforma informações visuais e instruções em comandos motores que habilitam robôs a realizar tarefas, pensando antes de agir e exibindo seu processo de raciocínio para avaliar e completar trabalhos complexos da maneira mais eficiente. O Gemini Robotics-ER 1.5, por sua vez, raciocina sobre o ambiente físico em que opera, utiliza ferramentas digitais como navegadores web e cria planos detalhados com múltiplas etapas para cumprir missões específicas, passando então o planejamento para o primeiro modelo executar.

Um aspecto inovador da tecnologia é a capacidade de transferência de aprendizado entre diferentes plataformas robóticas. Em testes realizados pelo DeepMind, tarefas atribuídas exclusivamente ao robô ALOHA2, que possui dois braços mecânicos, puderam posteriormente ser executadas com igual competência pelo robô bi-braço Franka e pelo robô humanoide Apollo da Apptronik. Essa característica permite controlar robôs muito diferentes com um único modelo e transferir habilidades aprendidas de uma máquina para outra.

O Google disponibilizou o Gemini Robotics-ER 1.5 para qualquer desenvolvedor interessado em experimentar através da interface de programação de aplicações Gemini no Google AI Studio, plataforma dedicada à construção e ajuste fino de modelos de IA e sua integração com aplicações. O Gemini Robotics 1.5, no entanto, está sendo disponibilizado apenas para parceiros selecionados neste momento. A empresa espera que os modelos auxiliem desenvolvedores a construir robôs mais capazes e versáteis que compreendam ativamente seus ambientes operacionais.

Fonte: SiliconANGLE

ARTIGOS RELACIONADOS
- Publicidade -
Google search engine

Mais populares

Comentários recentes