Última atualização em 6 de fevereiro de 2023

Seja você um engenheiro de aprendizado de máquina experiente ou apenas curioso, você pode estar se perguntando: como o Chat GPT é treinado?

O modelo de linguagem AI, desenvolvido pela OpenAI, tornou-se extremamente popular em um curto período desde o seu lançamento. Tanto é assim que o site frequentemente apresenta problemas de capacidade do servidor, bloqueando o acesso dos usuários ao site.

O modelo on-line tem a capacidade de realizar várias tarefas, gerando respostas para praticamente qualquer solicitação que você der. Mas, como ele foi criado?

Em primeiro lugar, o Chat GPT foi criado com base no GPT-3.5 da OpenAI. Outro modelo de linguagem mais avançado que foi construído em um enorme conjunto de dados, normalmente contendo informações da internet.

GPT-3.5 foi ajustado para que pudesse interagir com seus usuários em um formato de conversação. Vamos explorar como era esse ajuste fino!

De acordo com a OpenAI, o Chat GPT foi treinado usando “Aprendizado por Reforço de Humano Feedback” (RLHF). Inicialmente, o modelo passou por um processo chamado de ajuste fino supervisionado, onde os treinadores da OpenAI desempenhavam o papel tanto de um usuário humano quanto de um bot de IA.

Através disso, os treinadores criaram uma sequência de diálogo para emular como os humanos se comunicam, que foi adicionado ao conjunto de dados do modelo para ajustá-lo para usos de conversação.

O Chat GPT foi posteriormente aprimorado com a criação de um modelo de recompensa para ser usado na próxima etapa – reforço do aprendizado. Isso envolveu treinadores de IA interagindo com a ferramenta para gerar respostas. Em seguida, classificando-os do melhor ao pior, com base na qualidade.

Com esta informação, a OpenAI poderia ajustar ainda mais o modelo usando sua própria técnica chamada Otimização de Política Proximal . Se você está procurando detalhes sobre este processo, o OpenAI o cobre em seu blog.

Que tipo de aprendizado de máquina é o Chat GPT?

O Chat GPT da OpenAI é um modelo de linguagem grande. Como o nome sugere, esses modelos são enormes e são construídos usando bilhões de parâmetros. Eles são um tipo de algoritmo de aprendizado profundo que pode entender e gerar texto, de acordo com os dados nos quais foi treinado.

Esses tipos de modelos têm uma ampla gama de usos desde a criação de chatbots, atuando como pesquisa engines e gerando conteúdo criativo, como letras e histórias.

Considerações finais

Entender o processo de treinamento de modelos de linguagem de IA, como o ChatGPT, pode ser muito desconcertante. Esperamos que este artigo tenha lhe dado uma ideia de como o OpenAI criou esse infame modelo de linguagem. Se você estiver interessado em outros recursos do Chat GPT, por que não ler o Chat GPT Plus – o que você precisa saber a seguir?

By Henry Taylor

Eu trabalho como desenvolvedor back-end. Alguns de vocês devem ter me visto na conferência de desenvolvedores. Ultimamente tenho trabalhado em um projeto de código aberto.