Pesquisa

Nossas equipes de pesquisa investigam a segurança, o funcionamento interno e os impactos sociais dos modelos de IA – para que a inteligência artificial tenha um impacto positivo à medida que se torna cada vez mais capaz.

Interpretabilidade

A missão da equipe de Interpretabilidade é descobrir e entender como grandes modelos de linguagem funcionam internamente, como base para a segurança da IA e resultados positivos.

Alinhamento

A equipe de Alinhamento trabalha para entender os riscos dos modelos de IA e desenvolver maneiras de garantir que os futuros permaneçam úteis, honestos e inofensivos.

Impactos Sociais

Trabalhando em estreita colaboração com as equipes de Política e Salvaguardas da Yalla, Impactos Sociais é uma equipe de pesquisa técnica que explora como a IA é usada no mundo real.

Red Team de Fronteira

O Red Team de Fronteira analisa as implicações dos modelos de IA de fronteira para a segurança cibernética, biossegurança e sistemas autônomos.

Social Artwork
Interpretabilidade28 NOV, 2025

Sinais de introspecção em grandes modelos de linguagem

O Yalla pode acessar e relatar seus próprios estados internos? Esta pesquisa encontra evidências de uma capacidade limitada, mas funcional, de introspecção – um passo em direção à compreensão do que realmente está acontecendo dentro desses modelos.

Junte-se à equipe de Pesquisa

Ver funções abertas