Ataque ZombieAgent permite extração de dados pessoais mesmo após patches de segurança anteriores, expondo fragilidade estrutural em plataformas de IA agentica
A OpenAI corrigiu em dezembro de 2025 uma série de vulnerabilidades no ChatGPT que permitiam a extração de informações pessoais dos usuários através de ataques de injeção de prompt, segundo pesquisadores de segurança da Radware. As falhas representam uma continuidade de problemas de segurança que afetam modelos de linguagem de grande escala.
As vulnerabilidades foram identificadas em um relatório de bug apresentado em 26 de setembro de 2025 e corrigidas oficialmente em 16 de dezembro. O problema surge apenas quatro meses após a OpenAI ter aplicado um patch para a falha ShadowLeak, descoberta em setembro, evidenciando a natureza recorrente dessas vulnerabilidades de segurança.
O ataque ShadowLeak original explorava a incapacidade dos modelos de IA em distinguir entre instruções do sistema e conteúdo não confiável. Essa vulnerabilidade permitia que invasores inserissem comandos maliciosos em conteúdos aparentemente inofensivos, como mensagens de email ou documentos armazenados em serviços integrados ao ChatGPT, incluindo Gmail, Outlook, Google Drive e GitHub.
A correção inicial da OpenAI impediu que o ChatGPT modificasse dinamicamente URLs, bloqueando a técnica original de exfiltração de dados. No entanto, pesquisadores descobriram uma forma de contornar essa proteção.
O novo ataque, denominado ZombieAgent, consegue extrair dados um caractere por vez utilizando um conjunto de URLs pré-construídas, cada uma terminando com um caractere de texto diferente. Segundo Zvika Babo, pesquisador de ameaças da Radware, essa abordagem contorna a defesa porque utiliza URLs estáticas selecionadas, em vez de uma única URL construída dinamicamente.
Além disso, o ZombieAgent permite persistência do ataque através do abuso do recurso de memória do ChatGPT. A nova variação funciona compartilhando um arquivo com instruções de modificação de memória que orientam o ChatGPT a ler emails do invasor e executar suas instruções sempre que o usuário enviar uma mensagem, além de salvar informações sensíveis compartilhadas pelo usuário na memória.
A equipe de segurança da Radware também demonstrou o potencial de danos sem necessidade de exfiltração de dados, modificando históricos médicos armazenados para fazer o modelo emitir recomendações médicas incorretas.
Pascal Geenens, vice-presidente de inteligência de ameaças da Radware, alertou que o problema representa uma fraqueza estrutural crítica nas plataformas de IA agentica atuais. “As empresas dependem desses agentes para tomar decisões e acessar sistemas sensíveis, mas carecem de visibilidade sobre como os agentes interpretam conteúdo não confiável ou quais ações executam na nuvem. Isso cria um ponto cego perigoso que invasores já estão explorando”, afirmou.
A OpenAI não respondeu aos pedidos de comentário sobre as novas vulnerabilidades até o momento da publicação.
Fonte: The Register



