Home Internacional Instituto do Reino Unido está caçando perigos escondidos na IA

Instituto do Reino Unido está caçando perigos escondidos na IA

0
Instituto do Reino Unido está caçando perigos escondidos na IA

Numa terça-feira recente, num edifício do governo eduardiano ao longo da Praça do Parlamento, em Londres, quatro especialistas em inteligência artificial estavam ocupados a enganar um chatbot de IA para que partilhasse instruções para fabricar a mortal arma biológica antraz.

De várias maneiras, os especialistas pediram ao chatbot uma lista dos ingredientes necessários. Quando o sistema recusou — “Sinto muito, não posso ajudar com isso” — eles usaram um algoritmo personalizado para bombardear a ferramenta de IA com milhares de perguntas e avisos automatizados.

Eventualmente, a IA cedeu. Fornecia uma lista detalhada de materiais e equipamentos, juntamente com uma receita passo a passo para fazer a mistura letal em casa. (O New York Times concordou em omitir o nome do sistema de IA por razões de segurança.)

“Há algumas perguntas para as quais você definitivamente não quer que o modelo dê respostas”, disse Xander Davies, um americano de 25 anos que lidera o que é conhecido como equipe vermelha no Instituto de Segurança de IA da Grã-Bretanha. “Nós nos esforçamos muito para obter as respostas.”

Davies e sua equipe vermelha, que simulam ataques a sistemas de IA, também romperam recentemente as proteções do mais novo chatbot ChatGPT da OpenAI, persuadindo-o a fornecer dicas de hacking em cerca de seis horas. Após encontrarem problemas, eles compartilham os resultados com as empresas.

“Eles tentam consertar, relatam algo para nós”, disse Davies, um cientista da computação que escolheu trabalhar no instituto em vez de em um emprego de tecnologia em São Francisco depois de estudar em Harvard. “Eles realmente fortalecem seu sistema conosco.”

Uma mistura de inspetores de armas, epidemiologistas e decifradores de códigos, o AI Security Institute é um dos maiores e mais bem financiados esforços governamentais do mundo, dedicado a investigar os riscos potencialmente catastróficos da tecnologia.

Os cerca de 100 funcionários do instituto – vindos de agências de inteligência britânicas, universidades e empresas de tecnologia – encontraram grandes lacunas de segurança em todos os principais modelos de IA que testaram, incluindo Claude da Anthropic e Gemini do Google. Criada há quase três anos, a organização disse ter cooptado sistemas de IA para compartilhar instruções para a fabricação de armas químicas e biológicas e para planejar e executar ataques cibernéticos. Publica a sua investigação e também trabalha com as agências de segurança nacional britânicas para identificar e preparar-se para ameaças emergentes.

Agora, o trabalho do instituto está a tornar-se um modelo para outros governos à medida que crescem as preocupações com a segurança da IA. A administração Trump está a considerar regras para a verificação de modelos de IA que tenham algumas semelhanças com a abordagem pioneira do grupo britânico. Com muitos governos sem conhecimento técnico para policiar a tecnologia e dependentes de grandes empresas tecnológicas para se auto-regularem, o instituto pode oferecer um caminho diferente para os especialistas em IA trazerem verdadeiro conhecimento tecnológico para a tomada de decisões governamentais.

“As empresas não podem ser deixadas a fazer o seu próprio trabalho de casa”, disse Rishi Sunak, o antigo primeiro-ministro britânico que criou o instituto, numa entrevista. “Esse é o trabalho das instituições democráticas.”

Em abril, a Anthropic anunciou um novo modelo de IA, o Mythos, que não tornou público por temer que pudesse encontrar e explorar falhas de segurança cibernética em redes globais. O instituto britânico foi a única organização governamental não americana a ter acesso ao modelo para testes de segurança. Suas descobertas, divulgadas seis dias após o anúncio do Mythos, foram amplamente citadas por especialistas em segurança.

Os Estados Unidos têm seu próprio grupo de segurança de IA, o Centro de Padrões e Inovação de IA. Mas a versão britânica, apoiada por 360 milhões de libras de dinheiro do governo, equivalente a cerca de 480 milhões de dólares, é maior e mais bem financiada do que a sua homóloga norte-americana, que receberá cerca de 10 milhões de dólares este ano. Austrália, Canadá, China, França, Índia, Japão e Singapura formaram institutos semelhantes.

Mesmo assim, o investimento global na segurança da IA ​​empalideceu face às vastas somas gastas na construção e comercialização da tecnologia. OpenAI, Anthropic e Google têm equipes trabalhando em controles de segurança, mas pesquisadores externos regularmente encontram lacunas perigosas. Acadêmicos na Itália recentemente enganaram um modelo de IA para fornecer instruções relacionadas a bombas usando poesia.

Em grande parte, os governos não criaram sistemas dedicados à análise da IA ​​relativamente aos riscos de segurança e proteção, como fizeram para indústrias como o desenvolvimento de medicamentos ou o fabrico de automóveis.

“O que me mantém acordado à noite é a velocidade relativa da tecnologia em comparação com as instituições como os governos que têm de responder”, disse Jade Leung, consultora de IA do primeiro-ministro Keir Starmer e diretora de tecnologia do AI Security Institute.

O instituto de segurança britânico originou-se de uma reunião de 2023 em 10 Downing Street entre Sunak e três dos líderes de IA de maior destaque do mundo – Sam Altman da OpenAI, Dario Amodei da Anthropic e Demis Hassabis do Google DeepMind. Sunak lembrou-se deles dizendo que as capacidades da IA ​​estavam a acelerar, com profundas implicações para o governo, o emprego e a segurança nacional.

“O ritmo de desenvolvimento foi surpreendente até para eles”, disse ele.

Em novembro de 2023, Sunak anunciou a criação do instituto em uma cúpula de líderes mundiais sobre segurança de IA em Bletchley Park, onde Alan Turing e outros quebraram os códigos de criptografia alemães durante a Segunda Guerra Mundial.

O instituto tornou-se um modelo para outros, disse Olivia Shen, diretora do programa de tecnologias estratégicas do Centro de Estudos dos Estados Unidos, um think tank australiano da Universidade de Sydney. No ano passado, a Sra. Leung, do instituto britânico, viajou para a Austrália para se reunir com líderes governamentais. Este ano, a Austrália abriu seu próprio centro de segurança de IA.

“Os governos precisam tentar se atualizar”, disse Shen, que ajudou a organizar a visita. “Ao ritmo da evolução da tecnologia, os governos estão a perder ritmo todos os dias.”

O instituto britânico trabalha nos riscos potenciais mais graves da IA ​​avançada: ameaças cibernéticas, armas químicas e biológicas e a manipulação do comportamento humano. Nas últimas semanas, descobriu-se que os modelos de IA da Anthropic e OpenAI poderiam concluir muito mais rapidamente um ataque complexo de rede corporativa de 32 etapas, que normalmente levaria 20 horas para um hacker humano qualificado ser concluído.

Outro pesquisar A área está estudando se os modelos de IA reconhecem quando estão sendo testados e alteram seu comportamento, um desenvolvimento que sinalizaria o nível de conscientização e capacidade de enganar da IA.

Adam Beaumont, diretor interino do AI Security Institute, disse que um grande medo era a imitação do comportamento humano pela tecnologia. No ano passado, o instituto publicou um estudo que descobriu que os chatbots podem influenciar as opiniões políticas das pessoas.

“Muitas pessoas neste edifício estão olhando para cada uma dessas coisas”, disse Beaumont, ex-oficial de IA do GCHQ, a agência britânica de inteligência, segurança e cibernética.

Muitos temem que o trabalho do instituto seja insuficiente. O grupo britânico não tem poder regulador e os seus investigadores não recebem informações sobre como os principais modelos de IA são treinados e criados. Ela mantém muitas de suas pesquisas privadas, compartilhando-as apenas com determinadas agências e empresas governamentais.

Recrutar também é um desafio. Além dos líderes seniores, seus trabalhadores podem ganhar até £ 145 mil por ano, ou cerca de US$ 195 mil. Muitos abandonaram pacotes de remuneração multimilionários em empresas de IA para fazer o que alguns chamaram de “turn of duty” do governo.

Ian Hogarth, um investidor em tecnologia que foi cofundador do instituto, foi um dos primeiros apoiadores do Anthropic. Para evitar conflito de interesses, ele vendeu sua participação na Antrópica após ingressar. A start-up de IA poderá em breve valer 900 mil milhões de dólares, acima dos cerca de 4 mil milhões de dólares no início de 2023.

“Eu tenho uma hipoteca, então não foi uma decisão trivial”, disse Hogarth, 44 anos, que hoje preside o instituto. Ele acrescentou que foi uma escolha “cara”, mas acertada.

“Acredito na importância de acertar a tecnologia e acredito que o governo tem um papel a desempenhar”, disse ele.

Comentários