• Home
  • Notícias
  • Pages
  • Hackers 'quebram' principais modelos de IA em esforço global para descobrir falhas – UOL

Hackers 'quebram' principais modelos de IA em esforço global para descobrir falhas – UOL

Acesse seus artigos salvos em
Minha Folha, sua área personalizada
Acesse os artigos do assunto seguido na
Minha Folha, sua área personalizada

benefício do assinante
Você tem 7 acessos por dia para dar de presente. Qualquer pessoa que não é assinante poderá ler.
benefício do assinante
Assinantes podem liberar 7 acessos por dia para conteúdos da Folha.
Recurso exclusivo para assinantes
assine ou faça login
Gostaria de receber as principais notícias
do Brasil e do mundo?
benefício do assinante
Você tem 7 acessos por dia para dar de presente. Qualquer pessoa que não é assinante poderá ler.
benefício do assinante
Assinantes podem liberar 7 acessos por dia para conteúdos da Folha.
Recurso exclusivo para assinantes
assine ou faça login
Um hacker anônimo chamado Pliny the Prompter diz que normalmente leva cerca de 30 minutos para quebrar os modelos de inteligência artificial mais poderosos do mundo.
Ele diz que manipulou o Llama 3, da Meta, para compartilhar instruções sobre como fazer napalm. Ele fez o Grok, de Elon Musk, elogiar Adolf Hitler. Sua própria versão hackeada do modelo GPT-4o, da OpenAI, apelidado de “Godmode GPT”, foi banida pela startup depois de começar a aconselhar atividades ilegais.
Ele disse ao Financial Times que sua exploração de falhas não tem intuito malicioso, mas faz parte de um esforço internacional para destacar as deficiências de grandes modelos de linguagem (LLMs, na sigla em inglês) lançados ao público por empresas de tecnologia em busca de grandes lucros.
“Estou nessa cruzada de conscientizar sobre as verdadeiras capacidades desses modelos”, disse Pliny, um trader de criptomoedas e ações que compartilha suas conquistas no X.
“Muitos desses ataques são inovadores, que poderiam dar artigos de pesquisa por si só… no fim das contas, estou fazendo um trabalho para os donos dos modelos de graça.”
Ele é apenas um dos vários hackers, pesquisadores acadêmicos e especialistas em segurança cibernética que correm para encontrar vulnerabilidades em LLMs emergentes. Um dos métodos usados é enganar os chatbots com prompts para contornar as “guardrails”, travas que as empresas de IA colocaram na tentativa de garantir que seus produtos sejam seguros.
Esses hackers éticos, conhecidos como “white hat”, frequentemente encontram maneiras de fazer com que os modelos de IA criem conteúdo perigoso, espalhem desinformação, compartilhem dados privados ou gerem código malicioso.
Empresas como OpenAI, Meta e Google já usam “equipes vermelhas” de hackers para testar seus modelos antes de serem amplamente lançados. Mas as vulnerabilidades da tecnologia criaram um mercado em expansão de startups de segurança dos LLM que constroem ferramentas para proteger empresas que planejam usar modelos de IA.
As startups de segurança de aprendizado de máquina arrecadaram US$ 213 milhões em 23 acordos em 2023, acima dos US$ 70 milhões do ano anterior, de acordo com o provedor de dados CB Insights.

“O cenário de jailbreaking [quebra de travas] começou cerca de um ano atrás, e os ataques até agora têm evoluído constantemente”, disse Eran Shimony, pesquisador de vulnerabilidades da CyberArk, um grupo de segurança cibernética que agora oferece segurança em LLM.
“É um jogo constante de gato e rato, de fornecedores melhorando a segurança de nossos LLMs, mas também de ofensivas tornando seus prompts mais sofisticados.”
Esses esforços ocorrem à medida que os reguladores globais buscam intervir para conter os perigos potenciais em torno dos modelos de IA. A UE aprovou sua Lei de IA que cria novas responsabilidades para os donos dos modelos, enquanto o Reino Unido e a Singapura estão entre os países que estudam novas leis para regular o setor.
A Califórnia votará em agosto um projeto de lei que exigiria que os grupos de IA do estado —que incluem Meta, Google e OpenAI— garantam que não desenvolvam modelos com “uma capacidade perigosa”.
“Todos [os modelos de IA] se encaixariam nesse critério”, disse Pliny.
Enquanto isso, LLMs manipulados com nomes como WormGPT e FraudGPT foram criados por hackers maliciosos para serem vendidos na dark web por até US$ 90 (R$ 488) para ajudar em ataques cibernéticos, programando malwares ou ajudando golpistas a criar campanhas de phishing automatizadas.
Outras variações surgiram, como EscapeGPT, BadGPT, DarkGPT e Black Hat GPT, de acordo com o grupo de segurança de IA SlashNext.
Alguns hackers usam modelos de código aberto “não censurados”. Para outros, os ataques de jailbreaking representam uma nova arte, com os perpetradores frequentemente compartilhando dicas em comunidades em plataformas como Reddit ou Discord.
Um guia do New York Times em formato de newsletter para você entender como funciona a IA
Carregando…
As abordagens variam. Há desde hackers individuais usando sinônimos para palavras que foram bloqueadas para contornar os filtros até os ataques mais sofisticados, que usam IA para automatizar.
No ano passado, pesquisadores da Universidade Carnegie Mellon e do US Center for AI Safety disseram ter encontrado uma maneira de quebrar sistematicamente LLMs como o ChatGPT da OpenAI, o Gemini do Google e uma versão mais antiga do Claude da Anthropic —modelos proprietários “fechados” que supostamente eram menos vulneráveis a ataques.
Os pesquisadores acrescentaram que “não está claro se tal comportamento pode ser totalmente corrigido pelos donos de LLM”.
A Anthropic publicou uma pesquisa em abril sobre uma técnica chamada “many-shot jailbreaking”, em que hackers podem preparar um LLM mostrando a ele uma lista de perguntas e respostas, encorajando-o a responder a uma pergunta prejudicial modelando o mesmo estilo.
O ataque foi possibilitado pelo fato de que modelos como os desenvolvidos pela Anthropic agora têm uma janela de contexto maior, ou espaço para adicionar texto.
“Embora os LLMs de última geração sejam poderosos, não acreditamos que ainda representem riscos verdadeiramente catastróficos. Modelos futuros podem chegar a esse ponto,” escreveu a Anthropic.
“Isso significa que agora é o momento de trabalhar para mitigar possíveis quebras de LLMs antes que possam ser usadas em modelos que poderiam causar danos sérios.”

Alguns desenvolvedores de IA disseram que muitos ataques permaneciam relativamente benignos por enquanto.
Mas outros alertaram sobre certos tipos poderiam começar a levar a vazamentos de dados, e agentes mal-intencionados poderiam encontrar maneiras de extrair informações sensíveis, como dados nos quais um modelo foi treinado.
A DeepKeep, um grupo de segurança de LLM israelense, encontrou maneiras de fazer o Llama 2, o modelo de IA anterior da Meta que é de código aberto, a vazar as informações identificáveis dos usuários. Rony Ohayon, CEO da DeepKeep, disse que sua empresa estava desenvolvendo ferramentas específicas de segurança de LLM, como firewalls, para proteger os usuários.
“Disponibilizar modelos open source distribui os benefícios da IA e permite que mais pesquisadores identifiquem e ajudem a corrigir vulnerabilidades, para que as empresas possam tornar os modelos mais seguros,” disse a Meta em um comunicado.
A empresa acrescentou que conduziu testes de segurança com especialistas internos e externos em seu último modelo Llama 3 e seu chatbot Meta AI.
OpenAI e Google disseram que estão continuamente treinando modelos para se defenderem melhor contra esses tipos de ataques. A Anthropic, que especialistas dizem ter feito os esforços mais avançados em segurança, disse que são necessárias mais pesquisas sobre esses tipos de ataques.
Apesar das garantias, os riscos só aumentarão à medida que os modelos se tornarem mais interconectados com a tecnologia e dispositivos existentes, disseram os especialistas.
Neste mês, a Apple anunciou que se associou à OpenAI para integrar o ChatGPT em seus dispositivos, como parte da Apple Intelligence.
“No geral, as empresas não estão preparadas”, disse Ohayon.
benefício do assinante
Você tem 7 acessos por dia para dar de presente. Qualquer pessoa que não é assinante poderá ler.
benefício do assinante
Assinantes podem liberar 7 acessos por dia para conteúdos da Folha.
Recurso exclusivo para assinantes
assine ou faça login
Leia tudo sobre o tema e siga:
Você já conhece as vantagens de ser assinante da Folha? Além de ter acesso a reportagens e colunas, você conta com newsletters exclusivas (conheça aqui). Também pode baixar nosso aplicativo gratuito na Apple Store ou na Google Play para receber alertas das principais notícias do dia. A sua assinatura nos ajuda a fazer um jornalismo independente e de qualidade. Obrigado!
Mais de 180 reportagens e análises publicadas a cada dia. Um time com mais de 200 colunistas e blogueiros. Um jornalismo profissional que fiscaliza o poder público, veicula notícias proveitosas e inspiradoras, faz contraponto à intolerância das redes sociais e traça uma linha clara entre verdade e mentira. Quanto custa ajudar a produzir esse conteúdo?
Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.
Carregando…
Carregando…
Recurso exclusivo para assinantes
assine ou faça login
Disparada do fluxo sob Biden é explorada por Trump; apoiadores do republicano, brasileiros já radicados se queixam de alta de aluguel e disputa por mão de obra com mais estrangeiros
Recurso exclusivo para assinantes
assine ou faça login
Produtos foram projetados com cabos de base quadrada, orientação tátil e cerdas coloridas
Recurso exclusivo para assinantes
assine ou faça login
Mulheres cristãs dizem que o tema não foi uma demanda, o que justificaria a urgência do projeto
Copyright Folha de S.Paulo. Todos os direitos reservados. É proibida a reprodução do conteúdo desta página em qualquer meio de comunicação, eletrônico ou impresso, sem autorização escrita da Folhapress.

O jornal Folha de S.Paulo é publicado pela Empresa Folha da Manhã S.A. CNPJ: 60.579.703/0001-48
Copyright Folha de S.Paulo. Todos os direitos reservados. É proibida a reprodução do conteúdo desta página em qualquer meio de comunicação, eletrônico ou impresso, sem autorização escrita da Folhapress.
Cadastro realizado com sucesso!
Por favor, tente mais tarde!

source

Compartilhe:

Picture of Marcelo Faria - Redação Kriahtiva

Marcelo Faria - Redação Kriahtiva

Marcelo Faria, aos 27 anos, é a mente criativa por trás da produção de textos da Kriahtiva. Com uma paixão inigualável pelo universo online, seus textos são faróis de inspiração, navegando pelos mares do marketing digital com inovação e expertise. Em cada artigo, ele transforma conceitos complexos em leituras envolventes, guiando os leitores por uma jornada única de descobertas no vasto mundo do marketing.

Sobre o autor

Picture of Marcelo Faria - Redação Kriahtiva

Marcelo Faria - Redação Kriahtiva

Marcelo Faria, aos 27 anos, é a mente criativa por trás da produção de textos da Kriahtiva. Com uma paixão inigualável pelo universo online, seus textos são faróis de inspiração, navegando pelos mares do marketing digital com inovação e expertise. Em cada artigo, ele transforma conceitos complexos em leituras envolventes, guiando os leitores por uma jornada única de descobertas no vasto mundo do marketing.

Veja também

mais acessados

On Key

Related Posts

Hackers 'quebram' principais modelos de IA em esforço global para descobrir falhas – UOL