Tecnologia - Desenvolvimento - Programação

Quanto caminhamos para chegar até o Chat GPT?

Parece que todo o campo da inteligência artificial deu um salto gigantesco desde 20 de novembro de 2022, quando a OpenAI decidiu lançar seu principal produto, o Chat GTP.

Saímos de conversas mecanizadas com chats de atendimento em sites ou bots no Whatsapp para conversas mais complexas, que envolvem conhecimentos específicos e habilidades difíceis de serem executadas, como a elaboração de artigos, roteiros ou poemas.

Vendo todo o potencial da nova tecnologia, fui tentar entender como chegamos até aqui em apenas alguns meses. E a resposta, é claro, foi que o processo todo não aconteceu em “apenas alguns meses”. Se você está interessado em aprender mais sobre inteligência artificial e como ela está mudando o mundo ao nosso redor, continue lendo!

Inteligência Artificial: evolução e desafios até o Chat GPT

O desenvolvimento de uma inteligência artificial capaz de realizar uma conversa natural com um ser humano começa nos anos 1950 e, em 1966, conseguimos construir o primeiro modelo NLP (do inglês, processamento de linguagem natural) chamado ELIZA, capaz de perceber padrões na linguagem e responder conversas com pacientes psiquiátricos como se fosse um psiquiatra.

O trabalho desempenhado para criar estes modelos é muito mais complexo do que o trabalho para desenvolver um software comum. Isso porque não estamos falando de uma programação convencional realizada com condicionais simples mas, sim, de um sistema capaz de perceber padrões na linguagem para oferecer uma resposta que seja razoável para alguém que compreenda a língua utilizada pelo modelo.

Pare por um minuto e reflita sobre a variedade de significados que uma mesma palavra pode ter em diferentes contextos. Agora, considere que intenções, como sarcasmo ou sátira, por exemplo, podem alterar completamente o significado de uma sentença!

Seria impossível programar um modelo que atendesse a todos estes requisitos com uma linguagem de programação comum. E é por isso que a história dos modelos de processamento de linguagem natural anda em paralelo com a história das redes neurais.

Redes o que? Entenda o que são redes neurais

Na década de 90 assistimos a um novo capítulo no desenvolvimento do aprendizado de máquinas em NLP: o desenvolvimento das redes neurais.

Uma rede neural é um modelo computacional inspirado nas conexões que temos entre neurônios no nosso cérebro. Isso mesmo! De forma simples, podemos dizer que este modelo cria uma rede artificial de “neurônios” em que cada unidade de processamento está conectado com a entrada ou saída do modelo ou com outra unidade dentro da rede.

No contexto da programação, podemos chamar cada parte de uma rede neural de unidade de processamento.

Cada vez que o modelo recebe um dado de entrada, uma pequena parte é ativada e realiza alguma operação matemática de probabilidade que passa o resultado para outra camada que, então, realiza outra operação, seguindo assim até a saída de uma resposta do sistema.

Então, foi assim que nasceu o Chat GPT?

Sim e não.

Não se desespere, vou explicar. Para conseguir chegar nos modelos de linguagem em larga escala (LLM) precisamos voltar em 2017, quando um artigo do Google chamado “Attention is All You Need” apresentou o modelo de rede neural Transformer.

O que ele apresentava de novo é que, se em modelos mais simples de rede neural as unidades de processamento se comunicam diretamente umas com as outras numa mesma direção, no modelo Transformer as camadas de entrada podem capturar a relação entre cada elemento da sequência de entrada. Em português simples, isso significa que a conexão entre as unidades de processamentos podem ir e voltar na rede para se ter um panorama geral antes de oferecer o resultado de cada unidade.

O resultado disso são melhores resultados para processar diferentes tipos de entrada - utilizados até hoje para tradução automática, resumo de textos e outras tarefas que envolvam linguagem.

O GPT-3 é o modelo neural que o chat GPT usa para executar todas as suas atividades e ele tem, em seu nome, a arquitetura que acabamos de descrever acima: Generative Pre-Trained Transformer. Este modelo neural é bastante utilizado em vários serviços que utilizamos, como as assistentes virtuais Cortana e Alexa, por exemplo.

Mas, se o chat GPT utiliza a mesma arquitetura de diversos outros modelos que já utilizamos, o que é que o torna tão único?

O diferencial do Chat GPT

De início, o maior diferencial do GPT é a escala. Quanto maior, melhor! Nesse sentido, confira o vigor da sua estrutura:

Ele é alimentado por um banco de dados de 45 terabytes de texto - um número considerável quando consideramos o pequeno espaço ocupado por arquivos texto;
É uma arquitetura neural robusta com 176 bilhões de parâmetros, contra 1,5 bilhão da versão antiga ou contra, apenas, 340 milhões do BERT (Bidirectional Encoder Representations from Transformers) desenvolvido pelo Google;
E, por fim, o GPT possui 570 GB dos seus dados já com treinamento, enquanto o GTP-2 possui apenas 40 GB.

Toda esta estrutura torna o GPT-3 capaz de utilizar técnicas que mitigam a necessidade de um treinamento específico. O modelo foi capaz de realizar treinamento não supervisionado por um ano com uma base de textos da internet até 2021 e, depois, recebeu por mais seis meses aprendizado supervisionado.

A resposta de humanos aos resultados oferecidos pelos modelos neurais é de suma importância para produzir resultados com assertividade.

No caso do GTP-3, o grande diferencial é conseguir oferecer bons resultados com pouca ou nenhuma supervisão, por isso ele consegue entregar resultados nos mais variados campos do conhecimento.

Foram utilizadas duas técnicas de treinamento:

1. Não supervisionado, em que a auto-alimentação do sistema oferece resultados consideráveis;

2. Zero ou one shot learning, em que o modelo se torna capaz de generalizar resultados obtidos a partir de supervisão de um tema determinado para outro tema sem a necessidade de confirmações realizadas por humanos.

Mas esse é um processo em andamento que tende a melhorar todos os dias! Como todo modelo neural, o GPT-3 ainda passará por processo de refinamento através do sistema de recompensas para que ele consiga reavaliar como responder a determinadas buscas.

Limitações do ChatGPT, Gilberto Gil e a finitude da vida

É possível que o modelo ofereça respostas erradas, prejudicando pessoas que não possuem proficiência em algum assunto para saber diferenciar uma mensagem falsa de uma informação correta. Por isso, o professor Josh Bersin é crítico à ideia de construir modelos com base em uma quantidade muito grande de dados.

Segundo ele, como nunca podemos prever como as redes neurais responderão a uma pergunta, é importante “alimentar” o sistema priorizando informações que sejam relevantes frente a conteúdos não averiguados da internet.

Precisamos ponderar, ainda, que os modelos neurais são modelos probabilísticos. Isso quer dizer que a arquitetura Transformer nada mais faz do que descobrir padrões da linguagem e executá-los. Logo, o modelo não é capaz de entender o real significado das palavras e nem sabe reconhecer se está oferecendo uma resposta correta para a pergunta realizada.

Tudo que o modelo faz é entender os padrões esperados para uma determinada pergunta e oferecer uma resposta a partir desta análise. O modo como funcionam os modelos de linguagem em larga escala (LLM) pode oferecer excelentes respostas quando queremos entender algum conceito ou buscamos um conhecimento mais enciclopédico, mas pode nos frustrar por oferecer respostas previsíveis e genéricas em outros contextos.

Um exemplo que me chamou muita atenção, justamente por expor a limitação de uma resposta dada por um modelo de rede neural, aconteceu em um vídeo do canal do YouTube do professor Leandro Karnal. No vídeo, Karnal compara respostas que obteve em seu no programa de entrevistas com respostas que o Chat GPT deu ao realizar a mesma pergunta. Segue um trecho da resposta:

Karnal

Há beleza na condição velha de existir?

ChatGPT

Sim, há beleza na condição velha de existir. A velhice é uma fase da vida que pode trazer muitas experiências enriquecedoras e uma nova perspectiva sobre o mundo. Ao longo dos anos, a pessoa acumula conhecimento, sabedoria e aprende a apreciar as coisas simples da vida…

Em seguida, Karnal apresenta um trecho da entrevista com Gilberto Gil respondendo à mesma pergunta. O cantor começa reconhecendo que acredita, sim, que exista beleza na velhice - até pelo fato de ele ter agora 80 anos. E segue, afirmando que se reconhecer como velho deu a ele urgência de viver, pois também reconhece que está mais próximo da morte.

Enquanto o Chat GPT, com os seus dois anos e meio de idade, oferece uma resposta que é resultado do padrão de uma coleção de textos sobre a velhice colhidos da internet, Gilberto Gil consegue entender e pensar sobre o significado da questão no contexto de sua própria vida e percebe a ligação entre velhice e finitude da sua existência. É um significado que é formado a partir da vivência e dos sentimentos do cantor. Algo que ainda está longe de ser simulado por modelos complexos de rede neurais.

A Monocard traz uma forma inovadora de conectar pessoas. Transformamos possibilidades em realidade, e trazemos a praticidade do mundo digital para o físico.

Geral

Empresarial

Contatos

Ajuda
Horário de atendimento: 08:00 às 18:00 – Seg à Sex
+55 31 9500-5105
[email protected]
Endereço: R. Abel Araujo, 192 - São Bento, Belo Horizonte - MG