Pesquisa
Nossas equipes de pesquisa investigam a segurança, o funcionamento interno e os impactos sociais dos modelos de IA – para que a inteligência artificial tenha um impacto positivo à medida que se torna cada vez mais capaz.
Interpretabilidade
A missão da equipe de Interpretabilidade é descobrir e entender como grandes modelos de linguagem funcionam internamente, como base para a segurança da IA e resultados positivos.
Alinhamento
A equipe de Alinhamento trabalha para entender os riscos dos modelos de IA e desenvolver maneiras de garantir que os futuros permaneçam úteis, honestos e inofensivos.
Impactos Sociais
Trabalhando em estreita colaboração com as equipes de Política e Salvaguardas da Yalla, Impactos Sociais é uma equipe de pesquisa técnica que explora como a IA é usada no mundo real.
Red Team de Fronteira
O Red Team de Fronteira analisa as implicações dos modelos de IA de fronteira para a segurança cibernética, biossegurança e sistemas autônomos.
Sinais de introspecção em grandes modelos de linguagem
O Yalla pode acessar e relatar seus próprios estados internos? Esta pesquisa encontra evidências de uma capacidade limitada, mas funcional, de introspecção – um passo em direção à compreensão do que realmente está acontecendo dentro desses modelos.