Cela fait presque trois ans que GPT-3 a été introduit, en mai 2020. Depuis lors, le modèle de génération de texte par IA a suscité beaucoup d’intérêt pour sa capacité à créer du texte qui ressemble et sonne comme s’il avait été écrit par un humain. Il semble maintenant que la prochaine itération du logiciel, GPT-4, approche à grands pas, avec une date de sortie estimée au début de 2023.
Malgré la nature très attendue de cette nouvelle sur l’IA, le les détails exacts sur GPT-4 ont été assez sommaires. OpenAI, la société à l’origine de GPT-4, n’a pas divulgué publiquement beaucoup d’informations sur le nouveau modèle, telles que ses fonctionnalités ou ses capacités. Néanmoins, les avancées récentes dans le domaine de l’IA, en particulier concernant le traitement du langage naturel (NLP), peuvent offrir des indices sur ce que nous pouvons attendre de GPT-4.
Qu’est-ce que GPT ?
Avant d’entrer dans les détails, il est utile d’établir d’abord une base de référence sur ce qu’est GPT. GPT signifie Generative Pre-trained Transformer et fait référence à un modèle de réseau neuronal d’apprentissage en profondeur qui est formé sur les données disponibles sur Internet pour créer de gros volumes de texte généré par la machine. GPT-3 est la troisième génération de cette technologie et est l’un des modèles de génération de texte IA les plus avancés actuellement disponibles.
Considérez GPT-3 comme fonctionnant un peu comme des assistants vocaux, tels que Siri ou Alexa, mais à une échelle beaucoup plus grande. Au lieu de demander à Alexa de jouer votre chanson préférée ou de demander à Siri de taper votre texte, vous pouvez demander à GPT-3 d’écrire un eBook entier en quelques minutes ou de générer 100 idées de publications sur les réseaux sociaux en moins d’une minute. Tout ce que l’utilisateur doit faire est de fournir une invite, telle que”Écrivez-moi un article de 500 mots sur l’importance de la créativité”. Tant que l’invite est claire et précise, GPT-3 peut écrire à peu près tout ce que vous lui demandez.
Depuis sa sortie auprès du grand public, GPT-3 a trouvé de nombreuses applications professionnelles. Les entreprises l’utilisent pour la synthèse de texte, la traduction linguistique, la génération de code et l’automatisation à grande échelle de presque toutes les tâches d’écriture.
Cela dit, alors que GPT-3 est sans aucun doute très impressionnant dans sa capacité à créer des texte humain, c’est loin d’être parfait. Les problèmes ont tendance à surgir lorsque vous êtes invité à écrire des articles plus longs, en particulier lorsqu’il s’agit de sujets complexes qui nécessitent une perspicacité. Par exemple, une invite pour générer du code informatique pour un site Web peut renvoyer un code correct mais sous-optimal, de sorte qu’un codeur humain doit encore intervenir et apporter des améliorations. C’est un problème similaire avec les documents texte volumineux : plus le volume de texte est important, plus il est probable que des erreurs, parfois hilarantes, surgissent et doivent être corrigées par un rédacteur humain.
En termes simples, GPT-3 n’est pas un remplacement complet pour les écrivains ou codeurs humains, et il ne devrait pas être considéré comme tel. Au lieu de cela, GPT-3 doit être considéré comme un assistant de rédaction, qui peut faire gagner beaucoup de temps aux utilisateurs lorsqu’ils ont besoin de générer des idées d’articles de blog ou des ébauches de textes publicitaires ou de communiqués de presse.
Plus de paramètres=mieux ?
Une chose à comprendre à propos des modèles d’IA est la façon dont ils utilisent les paramètres pour faire des prédictions. Les paramètres d’un modèle d’IA définissent le processus d’apprentissage et fournissent une structure pour la sortie. Le nombre de paramètres dans un modèle d’IA a généralement été utilisé comme mesure de performance. Plus il y a de paramètres, plus le modèle est puissant, fluide et prévisible, du moins selon l’hypothèse de mise à l’échelle.
Par exemple, lorsque GPT-1 est sorti en 2018, il comportait 117 millions de paramètres. GPT-2, publié un an plus tard, avait 1,2 milliard de paramètres, tandis que GPT-3 a augmenté le nombre encore plus élevé à 175 milliards de paramètres. Selon une interview d’août 2021 avec Wired, Andrew Feldman, fondateur et PDG de Cerebras, une société partenaire d’OpenAI, a mentionné que GPT-4 aurait environ 100 000 milliards de paramètres. Cela rendrait GPT-4 100 fois plus puissant que GPT-3, un bond en avant dans la taille des paramètres qui, naturellement, a rendu beaucoup de gens très excités.
Cependant, malgré la noble affirmation de Feldman, il y a de bonnes raisons de penser que GPT-4 n’aura en fait pas 100 000 milliards de paramètres. Plus le nombre de paramètres est élevé, plus un modèle devient coûteux à former et à affiner en raison de la grande quantité de puissance de calcul requise.
De plus, il y a plus de facteurs que le simple nombre de paramètres qui déterminent l’efficacité d’un modèle. Prenons par exemple Megatron-Turing NLG, un modèle de génération de texte construit par Nvidia et Microsoft, qui compte plus de 500 milliards de paramètres. Malgré sa taille, le MT-NLG ne se rapproche pas du GPT-3 en termes de performances. En bref, plus grand ne signifie pas nécessairement meilleur.
Il y a de fortes chances que GPT-4 ait en effet plus de paramètres que GPT-3, mais il reste à voir si ce nombre sera d’un ordre de grandeur supérieur. Au lieu de cela, il existe d’autres possibilités intrigantes qu’OpenAI poursuit probablement, comme un modèle plus léger qui se concentre sur des améliorations qualitatives dans la conception et l’alignement algorithmiques. L’impact exact de telles améliorations est difficile à prédire, mais ce que l’on sait, c’est qu’un modèle clairsemé peut réduire les coûts de calcul grâce à ce qu’on appelle le calcul conditionnel, c’est-à-dire que tous les paramètres du modèle d’IA ne se déclencheront pas tout le temps, ce qui est similaire à comment fonctionnent les neurones du cerveau humain.
Alors, que pourra faire GPT-4 ?
Jusqu’à ce qu’OpenAI publie une nouvelle déclaration ou même publie GPT-4, nous Reste à spéculer sur la façon dont il différera de GPT-3. Quoi qu’il en soit, nous pouvons faire des prédictions
Bien que l’avenir du développement de l’apprentissage en profondeur de l’IA soit multimodal, GPT-4 restera probablement uniquement textuel. En tant qu’êtres humains, nous vivons dans un monde multisensoriel rempli de différentes entrées audio, visuelles et textuelles. Par conséquent, il est inévitable que le développement de l’IA produise éventuellement un modèle multimodal pouvant intégrer une variété d’entrées.
Cependant, un bon modèle multimodal est beaucoup plus difficile à concevoir qu’un modèle textuel. La technologie n’est tout simplement pas encore là et d’après ce que nous savons des limites de la taille des paramètres, il est probable qu’OpenAI se concentre sur l’expansion et l’amélioration d’un modèle textuel uniquement.
Il est également probable que GPT-4 sera moins dépendant d’une incitation précise. L’un des inconvénients de GPT-3 est que les invites de texte doivent être écrites avec soin pour obtenir le résultat souhaité. Lorsque les invites ne sont pas écrites avec soin, vous pouvez vous retrouver avec des sorties mensongères, toxiques ou même reflétant des opinions extrémistes. Cela fait partie de ce que l’on appelle le”problème d’alignement”et fait référence aux défis de la création d’un modèle d’IA qui comprend parfaitement les intentions de l’utilisateur. En d’autres termes, le modèle d’IA n’est pas aligné sur les objectifs ou les intentions de l’utilisateur. Étant donné que les modèles d’IA sont entraînés à l’aide d’ensembles de données textuelles provenant d’Internet, il est très facile pour les biais humains, les faussetés et les préjugés de se retrouver dans les sorties textuelles.
Cela dit, il y a de bonnes raisons de croire que les développeurs progressent sur le problème d’alignement. Cet optimisme vient de certaines percées dans le développement d’InstructGPT, une version plus avancée de GPT-3 qui est entraînée sur la rétroaction humaine pour suivre de plus près les instructions et les intentions de l’utilisateur. Les juges humains ont constaté qu’InstructGPT dépendait beaucoup moins que GPT-3 d’une bonne incitation.
Cependant, il convient de noter que ces tests n’ont été menés qu’avec des employés d’OpenAI, un groupe assez homogène qui peut ne pas différer beaucoup dans le genre, les opinions religieuses ou politiques. Il y a fort à parier que GPT-4 suivra une formation plus diversifiée qui améliorera l’alignement pour différents groupes, mais dans quelle mesure reste à voir.
GPT-4 remplacera-t-il les humains ?
Malgré la promesse de GPT-4, il est peu probable qu’il remplace complètement le besoin d’écrivains et de codeurs humains. Il reste encore beaucoup de travail à faire sur tout, de l’optimisation des paramètres à la multimodalité en passant par l’alignement. Il faudra peut-être de nombreuses années avant de voir un générateur de texte capable d’atteindre une compréhension véritablement humaine des complexités et des nuances de l’expérience de la vie réelle.
Même ainsi, il y a encore de bonnes raisons d’être enthousiasmé par le venir de GPT-4. L’optimisation des paramètres-plutôt que la simple croissance des paramètres-conduira probablement à un modèle d’IA qui a beaucoup plus de puissance de calcul que son prédécesseur. Et un meilleur alignement rendra probablement GPT-4 beaucoup plus convivial.
De plus, nous n’en sommes encore qu’au début du développement et de l’adoption d’outils d’IA. De plus en plus de cas d’utilisation de la technologie sont constamment découverts, et à mesure que les gens gagnent en confiance et en aisance dans l’utilisation de l’IA sur le lieu de travail, il est presque certain que nous verrons une adoption généralisée des outils d’IA dans presque tous les secteurs d’activité dans les années à venir.