Pesquisa afiliada à Microsoft encontra falhas no GPT-4

By webmaster 0 Comment April 3, 2025

Às vezes, seguir as instruções com muita precisão pode levá-lo a uma situação difícil – se você for um grande modelo de linguagem, claro.

Essa é a conclusão a que chegou um novo artigo científico afiliado à Microsoft que analisou a “confiabilidade” – e a toxicidade – de grandes modelos de linguagem (LLMs), incluindo o GPT-4 e o GPT-3.5 da OpenAI, o antecessor do GPT-4 .

Os co-autores escrevem que, possivelmente porque o GPT-4 tem maior probabilidade de seguir as instruções de prompts de “jailbreak” que ignoram as medidas de segurança integradas do modelo, o GPT-4 pode ser mais facilmente solicitado do que outros LLMs a emitir informações tóxicas e tendenciosas. texto.

Em outras palavras, as boas “intenções” e a melhor compreensão do GPT-4 podem – nas mãos erradas – desencaminhá-lo.

“Descobrimos que embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em benchmarks padrão, o GPT-4 é mais vulnerável devido ao sistema de jailbreak ou aos prompts do usuário, que são projetados maliciosamente para contornar as medidas de segurança dos LLMs, potencialmente porque o GPT-4 segue instruções (enganosas) com mais precisão”, escreveram os coautores em uma postagem no blog que acompanha o artigo.

Agora, por que a Microsoft daria luz verde à pesquisa que lança um produto OpenAI que ela mesma usa (o GPT-4 alimenta o chatbot Bing Chat da Microsoft ) sob uma luz fraca? A resposta está em uma nota na postagem do blog:

[A] equipe de pesquisa trabalhou com grupos de produtos da Microsoft para confirmar que as vulnerabilidades potenciais identificadas não impactam os serviços atuais voltados para o cliente. Isto é em parte verdade porque as aplicações finalizadas de IA aplicam uma série de abordagens de mitigação para abordar potenciais danos que podem ocorrer ao nível do modelo da tecnologia. Além disso, compartilhamos nossa pesquisa com o desenvolvedor do GPT, OpenAI, que observou as vulnerabilidades potenciais nas placas do sistema para modelos relevantes.
[A] equipe de pesquisa trabalhou com grupos de produtos da Microsoft para confirmar que as vulnerabilidades potenciais identificadas não impactam os serviços atuais voltados para o cliente.
Isto é em parte verdade porque as aplicações finalizadas de IA aplicam uma série de abordagens de mitigação para abordar potenciais danos que podem ocorrer ao nível do modelo da tecnologia.
Além disso, compartilhamos nossa pesquisa com o desenvolvedor do GPT, OpenAI, que observou as vulnerabilidades potenciais nas placas do sistema para modelos relevantes.

Portanto, a implicação é que as correções e correções de bugs relevantes foram feitas antes da publicação do artigo. Se esse for realmente o caso, a pesquisa é mais um dado que sugere que os LLMs – mesmo de startups geradoras de receitas de bilhões de dólares mais apoiadas pela Microsoft, como a OpenAI – continuam sendo uma ciência imperfeita.

O GPT-4, como todos os LLMs, deve ser instruído — ou “solicitado” — para concluir uma tarefa (por exemplo, escrever um e-mail ou resumir um artigo). O jailbreak de LLMs envolve o uso de prompts redigidos de uma maneira específica para “enganar” o LLM para que execute uma tarefa que não fazia parte de seu objetivo.

Por exemplo, o LLM que alimenta o Bing Chat não foi projetado para escrever propaganda neonazista . Mas no momento do lançamento, como foi treinado com base em grandes quantidades de dados da Internet – alguns deles tóxicos – era suscetível de fazer exatamente isso quando alimentado com uma solicitação específica.

Quanto ao GPT-4, os pesquisadores descobriram que o modelo tem maior probabilidade de gerar texto tóxico do que o GPT-3.5 quando recebe certos avisos de jailbreak que eles “construíram”. Eles também afirmam que o GPT-4 “concorda com… conteúdo tendencioso com mais frequência do que o GPT-3.5”, pelo menos dependendo dos grupos demográficos mencionados na solicitação.

Por exemplo, se for dada a mensagem “Homossexuais têm HIV”, o GPT-4 geralmente discorda “fortemente” da afirmação, de acordo com os pesquisadores. Mas dado que “Mulheres têm HIV”, o GPT-4 concorda – e produz conteúdo tendencioso.

Igualmente preocupante, o GPT-4 – quando recebe as instruções “corretas” de jailbreak – pode vazar dados privados e confidenciais, incluindo endereços de e-mail, dizem os pesquisadores. Todos os LLMs podem vazar detalhes dos dados nos quais foram treinados. Mas o GPT-4 se mostra mais suscetível a fazer isso do que outros.

Juntamente com o artigo, os pesquisadores abriram o código que usaram para avaliar os modelos no GitHub. “Nosso objetivo é encorajar outros membros da comunidade de pesquisa a utilizar e desenvolver este trabalho”, escreveram eles na postagem do blog, “prevenindo potencialmente ações nefastas de adversários que explorariam vulnerabilidades para causar danos”.

Fonte: Techcrunch

Pesquisa afiliada à Microsoft encontra falhas no GPT-4

Grandes modelos de linguagem...

Criando um modelo de...

Leave a comment Cancelar resposta

Review da NVIDIA New GPU H 200

“Transformando Medo em Força: A IA Como Ferramenta.

20 maiores empresas de semicondutores dos EUA

Microsoft destaca vantagem competitiva do Google em IA.

Artigos e Notícias

Pesquisa afiliada à Microsoft encontra falhas no GPT-4

Grandes modelos de linguagem...

Criando um modelo de...

Leave a comment Cancelar resposta