Já faz alguns meses que tento sistematizar uma reflexão que nasceu na palestra do professor David Chalmers, da Universidade de Nova Iorque, na 39ª edição da AAAI, na Pensilvânia, este ano, da qual tive o prazer de estar presente. Vi muita coisa interessante nesse congresso, mas esta palestra, talvez escolhida propositalmente para o encerramento, foi de longe a que mais gostei e a que mais me trouxe insights. Talvez pelo pragmatismo e pela concretude ao tratar de um tema difícil e multidisciplinar, a interpretabilidade de modelos de IA. É difícil porque uma boa discussão exige compreender, ao mesmo tempo, tópicos complexos de linguagem e o modo como modelos matemáticos e computacionais simulam aspectos do comportamento humano. De todo modo, como talvez um dos mais brilhantes seres humanos vivos, o professor Chalmers faz isso muito bem.
Na graduação, tive algum contato com modelos teóricos sobre linguagem, em especial a RFT (Relational Frame Theory), enxerguei várias sobreposições, e como sou bem nerd, isso me empolgou bastante. Minha motivação para escrever sobre o tema é justamente encontrar e trocar com outros profissionais, cientistas da computação, psicólogos contextuais e áreas afins, que percebam a janela de oportunidade que temos para avançar na compreensão sobre psicologia, linguagem e, em última instância, até sobre consciência, mas isso fica para outro texto… O que quero trazer aqui é uma reflexão direta sobre como a RFT e o desenvolvimento de modelos de linguagem pode estar conectados.
Voltando a palestra do professor Chalmers, as provocações que ouvi me lembraram imediatamente a RFT. Minha hipótese é que o esforço e as discussões para tornar LLMs mais interpretáveis pode iluminar pesquisas em RFT, e teorias vizinhas sobre linguagem e cognição, e o inverso também é verdadeiro ( e talvez até mais). Já explico o porquê, antes, um resumo da proposta do professor.
No evento, ele apresentou o que entende por interpretabilidade proposicional, explicar o comportamento de um sistema em termos de atitudes proposicionais, crenças, hipóteses, desejos, dúvidas, a mesma gramática explicativa que usamos para pessoas. Daí surge uma ideia forte, o thought logging, criar um diário interno do modelo que registre, ao longo do processamento, quais proposições ele parece assumir, atualizar e descartar. Não é antropomorfismo, é rastreabilidade. Se quero auditar raciocínios, erros e decisões, preciso de marcas observáveis no caminho.
Os métodos atuais ( que derivam quase todos da computação) são úteis, mas não responde a complexidade que as atuais aplicações exigem. O que hoje chamam de Probing (https://h2o.ai/wiki/probing-classifiers/) revela correlações internas sem dizer o que conta como crença, sparse e auto-encoders deixam representações mais legíveis, mas não as traduzem em proposições, chain-of-thought verbalizam passos, porém não garante que o texto reflita processos internos. Por trás disso correm linhas clássicas, psicossemântica e teoremas de representação, lembrando que interpretar não é só abrir a caixa-preta, é dizer o que aqueles estados significam.
E onde entra a RFT? Entre as teorias psicológicas da linguagem, ela é uma das propostas mais recentes e tem servido de base para o que psicólogos chamam de terapias de terceira onda, como a ACT. O que importa aqui é a base funcional, a RFT trata a linguagem como padrões de relações arbitrárias que aprendemos a estabelecer e derivar, igual e diferente, maior e menor, parte e todo, classe e membro, antes e depois, causa e efeito, e os quadros deícticos, eu e tu, aqui e lá, agora e depois, fundamentais para perspectiva. Em vez de supor significados internos estáticos, a RFT foca as funções que eventos adquirem pelo quadro em que são colocados. Três propriedades tornam isso mensurável,
- entailment mútuo, se A = B, então B = A,
- entailment combinatório, se A > B e B > C, então A > C, sem treino direto,
- transformação de funções do estímulo, se X é enquadrado como mais arriscado que Y, X passa a evocar evitamento em novos contextos.
Com essa base, dá para desenhar experimentos, auditar consistência e intervir, não é só descrever linguagem, é prever como relações aprendidas reorganizam comportamento. Parêntese útil, em IA, RFT também aparece como Reinforcement Fine-Tuning, um procedimento de ajuste de LLMs por reforço, trabalhos como Trinity-RFT e VideoRFT usam essa sigla para outra coisa, mesma sigla, conceitos diferentes.
Do lado dos modelos, LLMs são treinados para predizer a próxima palavra, mas, por razões estatísticas, exibem padrões que se parecem com quadros relacionais, comparam, hierarquizam, derivam relações ausentes, como inferir A > C a partir de A > B e B > C, constroem analogias e, até certo ponto, simulam perspectiva. O mecanismo é diferente do humano, aprendemos relações por história de reforço em ambientes sociais, modelos aproximam regularidades a partir de grandes corpora, e é justamente por isso que a lente da RFT é pragmática aqui. Em vez de perguntar só acertou?, perguntamos quais relações o modelo domina, com que estabilidade e sob quais condições. Isso aponta para uma explicabilidade comportamental, mapear quadros, comparação, oposição, parte e todo, causalidade, deícticos, medir consistência e generalização derivada, e projetar interações que explicitam relações.
Alguns exemplos deixam claro o tipo de evidência que importa, depois de A > B, B > C, o modelo deriva A > C de modo consistente e justifica? Se enuncio X é mais arriscado que Y e, mais adiante, peço, priorize a opção mais segura, o modelo desfavorece X sem que eu repita a regra, sinal de transformação de função? Em diálogo, mantém coerência de eu e tu, aqui e lá, agora e depois, sem deslizes de perspectiva? Essas mesmas perguntas orientam prompts, dados de ajuste, variando sistematicamente quadros, e baterias de avaliação que fogem do tudo ou nada e testam capacidades relacionais específicas.
No fundo, quero aproximar dois esforços que caminham em paralelo, a interpretabilidade técnica, que mapeia estruturas internas, e a interpretabilidade filosófica (não sei se é exatamente este o termo), que pergunta o que elas significam. A RFT oferece uma ponte concreta entre essas frentes, ao transformar entender o modelo em avaliar relações que podemos observar, manipular e comparar ao longo do tempo. E é nessa ponte que a colaboração se torna inevitável, psicólogos e linguistas trazem teorias e métricas robustas, matemáticos e cientistas da computação oferecem instrumentação e escala, pesquisadores de IA implementam protocolos e operacionalizam thought logging com critérios claros, times de produto e educação traduzem tudo isso em usos responsáveis. Essa integração é mutuamente benéfica, a psicologia ganha um laboratório vivo em larga escala para testar hipóteses sobre linguagem e cognição, a IA desenvolve LLMs melhores, mais legíveis para humanos, mais seguros no uso e mais úteis para ensino e tomada de decisão, porque passamos a projetá-los e avaliá-los no nível certo, o das relações que reorganizam comportamento. Acredito pessoalmente que a integração entre estes temas, já no curto prazo, transformará diretamente a forma como entendemos e fazemos pesquisas não só em IA, mas neste caso para ciências como a psicologia e a linguística.

