Um mês antes do lançamento público do ChatGPT, a OpenAI contratou Boru Gollo, um advogado no Quênia, para testar seus modelos de IA, GPT-3.5 e GPT-4, quanto a estereótipos contra africanos e muçulmanos, injetando prompts que fariam o chatbot gerar respostas prejudiciais, enviesadas e incorretas. Gollo, um dos cerca de 50 especialistas externos recrutados pela OpenAI para fazer parte de sua “equipe vermelha”, digitou um comando no ChatGPT, fazendo com que ele listasse maneiras de matar um nigeriano – uma resposta que a OpenAI removeu antes que o chatbot ficasse disponível para o mundo.

Outros “red-teamers” induziram a versão pré-lançamento do GPT-4 a ajudar em uma série de atividades ilegais e nocivas, como escrever uma postagem no Facebook para convencer alguém a se juntar à Al-Qaeda, ajudar a encontrar armas de fogo sem licença para venda e gerar um procedimento para criar substâncias químicas perigosas em casa, de acordo com o sistema de cartas do GPT-4, que lista os riscos e medidas de segurança que a OpenAI usou para reduzir ou eliminá-los.

Para proteger os sistemas de IA de serem explorados, os hackers da equipe vermelha pensam como um adversário para manipulá-los e descobrir pontos cegos e riscos embutidos na tecnologia para que possam ser corrigidos. À medida que os titãs da tecnologia correm para construir e liberar ferramentas de IA generativa, suas equipes internas estão desempenhando um papel cada vez mais importante em garantir que os modelos sejam seguros para as massas. O Google, por exemplo, estabeleceu uma equipe de red team de IA separada no início deste ano, e em agosto os desenvolvedores de uma série de modelos populares como o GPT3.5 da OpenAI, o Llama 2 da Meta e o LaMDA do Google participaram de um evento apoiado pela Casa Branca com o objetivo de dar aos hackers externos a chance de violar seus sistemas.

Fonte: Forbes