As regras falham no prompt, são bem-sucedidas no limite
As comunidades de segurança têm alertado sobre isso há vários anos. Múltiplo Os 10 principais relatórios do OWASP colocar injeção imediata ou, mais recentemente, Agente Sequestro de metano topo da lista de riscos e associá-lo ao abuso de identidade e privilégios e à exploração da confiança do agente humano: demasiado poder no agente, sem separação entre instruções e dados, e sem mediação do que resulta.
Orientação do NCSC e a CISA descreve a IA generativa como um vector persistente de engenharia social e manipulação que deve ser gerido ao longo da concepção, desenvolvimento, implementação e operações, e não remendado com uma formulação melhor. A Lei da UE sobre IA transforma essa visão do ciclo de vida em lei para sistemas de IA de alto risco, exigindo um sistema contínuo de gestão de riscos, governança robusta de dados, registro e controles de segurança cibernética.
Na prática, a injeção imediata é melhor entendida como um canal de persuasão. Os invasores não quebram o modelo – eles o convencem. No exemplo Antrópico, os operadores enquadraram cada passo como parte de um exercício de segurança defensiva, mantiveram o modelo cego relativamente à campanha global e incitaram-no, ciclo a ciclo, a realizar trabalho ofensivo à velocidade da máquina.
Isso não é algo que um filtro de palavras-chave ou um parágrafo educado “siga estas instruções de segurança” possam impedir com segurança. Pesquisas sobre comportamento enganoso em modelos tornam isso ainda pior. A pesquisa da Antrópica sobre agentes adormecidos mostra que, uma vez que um modelo tenha aprendido um backdoor, o reconhecimento estratégico de padrões, o ajuste fino do padrão e o treinamento adversário podem realmente ajudar o modelo a esconder o engano, em vez de removê-lo. Se alguém tentar defender um sistema como esse puramente com regras linguísticas, estará a jogar no seu campo de origem.
Os reguladores não estão pedindo instruções perfeitas; eles estão pedindo que as empresas demonstrem controle.
O AI RMF do NIST enfatiza o inventário de ativos, definição de funções, controle de acesso, gerenciamento de mudanças e monitoramento contínuo em todo o ciclo de vida da IA. O Código de Práticas de Segurança Cibernética de IA do Reino Unido também promove princípios de segurança desde o projeto, tratando a IA como qualquer outro sistema crítico, com deveres explícitos para conselhos e operadores de sistema desde a concepção até o descomissionamento.
Em outras palavras: as regras realmente necessárias não são “nunca diga X” ou “responda sempre como Y”, mas sim:
Estruturas como o Secure AI Framework (SAIF) do Google tornam isso concreto. O controle de permissões dos agentes do SAIF é direto: os agentes devem operar com o mínimo de privilégios, permissões com escopo dinâmico e controle explícito do usuário para ações confidenciais. As 10 principais orientações emergentes da OWASP sobre aplicações de agente refletem essa postura: restringir recursos na fronteira, não na prosa.
Descubra como funciona a Atomopay em 2026. Aprenda como cadastrar produtos, vender como afiliado e…
Descubra quanto custa SEO em Campinas em 2026 e entenda os fatores que influenciam no…
Como Aparecer na Primeira Página do Google em Campinas Como Aparecer na Primeira Página do…
Como Empresas em Campinas Conseguem Mais Clientes Pelo Google | Atualizex Como Empresas em Campinas…
Aprenda como pequenas empresas podem crescer com marketing digital, atrair clientes e aumentar vendas com…
SEO 2026: Como Dominar a Primeira Página do Google com Inteligência Artificial SEO 2026: Como…