As regras falham no prompt, são bem-sucedidas no limite

A injeção imediata é persuasão, não um bug

As comunidades de segurança têm alertado sobre isso há vários anos. Múltiplo Os 10 principais relatórios do OWASP colocar injeção imediata ou, mais recentemente, Agente Sequestro de metano topo da lista de riscos e associá-lo ao abuso de identidade e privilégios e à exploração da confiança do agente humano: demasiado poder no agente, sem separação entre instruções e dados, e sem mediação do que resulta.

Orientação do NCSC e a CISA descreve a IA generativa como um vector persistente de engenharia social e manipulação que deve ser gerido ao longo da concepção, desenvolvimento, implementação e operações, e não remendado com uma formulação melhor. A Lei da UE sobre IA transforma essa visão do ciclo de vida em lei para sistemas de IA de alto risco, exigindo um sistema contínuo de gestão de riscos, governança robusta de dados, registro e controles de segurança cibernética.

Na prática, a injeção imediata é melhor entendida como um canal de persuasão. Os invasores não quebram o modelo – eles o convencem. No exemplo Antrópico, os operadores enquadraram cada passo como parte de um exercício de segurança defensiva, mantiveram o modelo cego relativamente à campanha global e incitaram-no, ciclo a ciclo, a realizar trabalho ofensivo à velocidade da máquina.

Isso não é algo que um filtro de palavras-chave ou um parágrafo educado “siga estas instruções de segurança” possam impedir com segurança. Pesquisas sobre comportamento enganoso em modelos tornam isso ainda pior. A pesquisa da Antrópica sobre agentes adormecidos mostra que, uma vez que um modelo tenha aprendido um backdoor, o reconhecimento estratégico de padrões, o ajuste fino do padrão e o treinamento adversário podem realmente ajudar o modelo a esconder o engano, em vez de removê-lo. Se alguém tentar defender um sistema como esse puramente com regras linguísticas, estará a jogar no seu campo de origem.

Por que isso é um problema de governança, não uma vibração codificação problema

Os reguladores não estão pedindo instruções perfeitas; eles estão pedindo que as empresas demonstrem controle.

O AI RMF do NIST enfatiza o inventário de ativos, definição de funções, controle de acesso, gerenciamento de mudanças e monitoramento contínuo em todo o ciclo de vida da IA. O Código de Práticas de Segurança Cibernética de IA do Reino Unido também promove princípios de segurança desde o projeto, tratando a IA como qualquer outro sistema crítico, com deveres explícitos para conselhos e operadores de sistema desde a concepção até o descomissionamento.

Em outras palavras: as regras realmente necessárias não são “nunca diga X” ou “responda sempre como Y”, mas sim:

Como esse agente está agindo?
Quais ferramentas e dados ele pode tocar?
Quais ações requerem aprovação humana?
Como os resultados de alto impacto são moderados, registrados e auditados?

Estruturas como o Secure AI Framework (SAIF) do Google tornam isso concreto. O controle de permissões dos agentes do SAIF é direto: os agentes devem operar com o mínimo de privilégios, permissões com escopo dinâmico e controle explícito do usuário para ações confidenciais. As 10 principais orientações emergentes da OWASP sobre aplicações de agente refletem essa postura: restringir recursos na fronteira, não na prosa.

Fonte

Cleiton

Next WTF é codificação de vibração? - Digidia »

Previous « Por dentro da ascensão da Rocket a melhor pequena agência - The CMA