top of page
Buscar

Caros colegas, há evoluções à caminho - Arquitetura dos Titans como potencial alternativa evolutiva aos Transformers

  • Foto do escritor: Lipie Souza
    Lipie Souza
  • 21 de jan.
  • 3 min de leitura

Atualizado: 22 de jan.

E se?
E se?

Muito se discute até que ponto os modelos de linguagem baseados na estrutura de Transformers com seus modernos mecanismos de atenção, serão capazes de progredir em suas “capacidades cognitivas”. Testes automatizados de capacidades de raciocínio matemático, de codificação e de conhecimento factual, dentre outros, parecem tender para uma estagnação. Algumas hipóteses giram em torno de que as características atuais desta tecnologia poderiam ser limitadas por alguns fatores, uma delas seria a quantidade de dados utilizados para treinamento, outros apostam que a quantidade de parâmetros da rede neural poderia ser um fator limitante, e, a outra, que é minha hipótese favorita, a arquitetura de treinamento destes modelos intrinsecamente é limitada por perdas de aprendizado.. Já elaboro melhor!


Para minimizarmos os impactos das duas primeiras hipóteses:


1. Existem modelos que utilizam um dataset menor em comparação a outros, e ainda assim performam melhor em diversas avaliações cognitivas. Este raciocínio me faz pensar que talvez a quantidade de dados utilizada para treinamento não seja o fator limitante, talvez a qualidade e a variedade impactem mais. Ademais, a própria disponibilidade de dados públicos será um fator limitante (embora vá crescendo com o tempo):

2. Existem modelos aos quais a quantidade de parâmetros de sua rede neural é menor em comparação a outros modelos e ainda assim performam próximo dos grandes modelos. Dá para se afirmar portanto que não há uma correlação linear, embora possa ser sim uma vantagem. Assim como aprendemos lá faculdade (para a galera da computação), talvez seja apenas “força bruta".
MMLU vs Parameter dos principais modelos construídos antes de 2025.
MMLU vs Parameter dos principais modelos construídos antes de 2025.

Agora voltemos à minha hipótese predileta (minha e de muita gente né), de que a arquitetura dos Transformers é o que limita de fato o rolê: os Transformers aprendem mal! Eles possuem memória, mas esta é de curto prazo, muito se perde entre as primeiras “Épocas” de aprendizado e as últimas. E o resultado é um modelo demasiado generalista. Estatisticamente coeso, porém meio “burro” ao realizar associações entre suas rodadas de aprendizado.


A estrutura dos Transformers utiliza o conceito de memória por meio de iterações com diferentes conjuntos de dados, atualizando os pesos para respeitar o contexto presente e passado. No entanto, esse método tende a produzir um resultado que, simplificando, representa uma média entre as iterações. Assim, a memória resultante é de curta duração.

Na estrutura dos Titans são propostas alguns dispositivos nomeados como “Memory as a Gate (MAG)” ou “Memory as a Context (MAC)” ou “Memory as Layer (MAL)”, que utilizam uma memória de longo prazo como contexto situacional/referência para qualquer iteração (Época) futura, em tempo de teste, no MAG:

“Memory as a Gate (MAG)” - dispositivo proposto na estrutura dos Titans.
“Memory as a Gate (MAG)” - dispositivo proposto na estrutura dos Titans.

O grande "AHA" dessa proposta é que ao se lembrar bem do que se aprendeu lá atrás, estes modelos aprendem melhor. AAH, e eles se esquecem bem daquilo que é generalista demais! E os resultados são de ganhos modestos mas promissores, pois demonstraram a diminuição da perplexidade, que é a capacidade de um modelo treinado sem supervisão, generalizar a previsão das próximas sequências de tokens, dada uma string/informação utilizada em seu treinamento. E houve também melhoria da acurácia quando utilizado um dataset a parte para garantir coesão supervisionada. O artigo completo publicado pela equipe da Google Research, está aqui.  Abaixo alguns dos resultados desta pesquisa:

Titans vs Tranformer e demais arquiteturas de aprendizado de linguagem.
Titans vs Tranformer e demais arquiteturas de aprendizado de linguagem.

Há uma expectativa de muitos pesquisadores de que a estrutura dos Titans portanto poderia ser a próxima aposta como framework de treinamento dos LLMs, e talvez seja um misto de evolução dos três pilares apresentados neste post que irá nos levar a IAs cada vez mais “cognitivamente inteligentes”, mas aposto enormemente que, será a estrutura de aprendizado que fará a maior diferença. Nesta pesquisa inclusive, os três autores fazem alusões constantes à forma como nós humanos aprendemos, com inúmeras citações a estudos da área da psicologia, pois ainda é a grande inspiração de como aprimorar a forma como estas coisas aprendem. Seremos superados, pelo menos matematicamente. Já “perdemos” a nível de neurônios e acesso à informação! Cabe a nós nos reinventarmos, poeticamente, musicalmente, artisticamente, e deixarmos essas coisas realizarem o seu trabalho lógico. Não há negação ou ilusão que nos afaste da realidade de que na vida sempre perdemos, em algum momento isso acontece. Mas depois ganhamos de novo.. Quem nos destrói não são as nossas próprias criaturas, mas quando somos incapazes de reinventar as coisas! Caros colegas, “The future is awesome”. Reinvente-se 💣💥🏋





 
 
 

1 Comment

Rated 0 out of 5 stars.
No ratings yet

Add a rating
Guest
Jan 21
Rated 5 out of 5 stars.

Boa, Lipie.

Like
bottom of page