É possível um assistente de IA seguro?

Stephanie Arnett/MIT Technology Review | Adobe Stock, Envato

É importante notar aqui que a injeção imediata ainda não causou nenhuma catástrofe, ou pelo menos nenhuma que tenha sido relatada publicamente. Mas agora que provavelmente existem centenas de milhares de agentes OpenClaw circulando pela Internet, a injeção imediata pode começar a parecer uma estratégia muito mais atraente para os cibercriminosos. “Ferramentas como essa estão incentivando atores mal-intencionados a atacar uma população muito mais ampla”, diz Papernot.

Construindo guarda-corpos

O termo “injeção imediata” foi cunhado pelo popular blogueiro LLM Simon Willison em 2022, alguns meses antes do lançamento do ChatGPT. Mesmo naquela época, era possível perceber que os LLMs introduziriam um tipo completamente novo de vulnerabilidade de segurança quando se tornassem amplamente utilizados. Os LLMs não conseguem distinguir as instruções que recebem dos usuários e os dados que usam para executar essas instruções, como e-mails e resultados de pesquisa na web – para um LLM, são todos apenas texto. Portanto, se um invasor incorporar algumas frases em um e-mail e o LLM as confundir com uma instrução de seu usuário, o invasor poderá fazer com que o LLM faça o que quiser.

A injeção imediata é um problema difícil e não parece desaparecer tão cedo. “Não temos realmente uma defesa mágica neste momento”, diz Dawn Song, professora de ciência da computação na UC Berkeley. Mas há uma comunidade acadêmica robusta trabalhando no problema, e eles criaram estratégias que poderiam eventualmente tornar os assistentes pessoais de IA seguros.

Tecnicamente falando, é possível usar o OpenClaw hoje sem correr o risco de injeção imediata: basta não conectá-lo à internet. Mas restringir o OpenClaw de ler seus e-mails, gerenciar seu calendário e fazer pesquisas online anula grande parte do propósito de usar um assistente de IA. O truque para se proteger contra a injeção imediata é evitar que o LLM responda às tentativas de sequestro e, ao mesmo tempo, dar-lhe espaço para realizar seu trabalho.

Uma estratégia é treinar o LLM para ignorar injeções imediatas. Uma parte importante do processo de desenvolvimento do LLM, chamado pós-treinamento, envolve pegar um modelo que sabe como produzir texto realista e transformá-lo em um assistente útil, “recompensando-o” por responder às perguntas de forma adequada e “punindo-o” quando ele não o faz. Estas recompensas e punições são metafóricas, mas o LLM aprende com elas como um animal faria. Usando esse processo, é possível treinar um LLM para não responder a exemplos específicos de injeção imediata.

Mas há um equilíbrio: treine um LLM para rejeitar comandos injetados com muito entusiasmo e ele também poderá começar a rejeitar solicitações legítimas do usuário. E como há um elemento fundamental de aleatoriedade no comportamento do LLM, mesmo um LLM que tenha sido treinado de forma muito eficaz para resistir à injeção imediata provavelmente ainda cometerá erros de vez em quando.

Outra abordagem envolve interromper o ataque de injeção imediata antes que ele chegue ao LLM. Normalmente, isso envolve o uso de um detector LLM especializado para determinar se os dados enviados ao LLM original contêm ou não injeções de alerta. Em um estudo recenteno entanto, mesmo o detector de melhor desempenho falhou completamente em detectar certas categorias de ataque de injeção imediata.

A terceira estratégia é mais complicada. Em vez de controlar as entradas de um LLM, detectando se contêm ou não uma injeção imediata, o objetivo é formular uma política que oriente os resultados do LLM – ou seja, os seus comportamentos – e impeça-o de fazer algo prejudicial. Algumas defesas nesse sentido são bastante simples: se um LLM tiver permissão para enviar e-mail apenas para alguns endereços pré-aprovados, por exemplo, ele definitivamente não enviará as informações do cartão de crédito de seu usuário a um invasor. Mas tal política impediria o LLM de realizar muitas tarefas úteis, tais como pesquisar e contactar potenciais contactos profissionais em nome do seu utilizador.

Fonte

Cleiton

Next Ouvido no evento Digiday AI Marketing Strategies »

Previous « Membro do CMA comemora 5 anos de crescimento — The CMA