Zuletzt aktualisiert am 13. März 2023
Die Veröffentlichung des großen Sprachmodells von OpenAI, GPT-4, steht vor der Tür. Wenn Sie erwarten, welche neuen Funktionen dieses Modell haben könnte, fragen Sie sich vielleicht – Ist GPT-4 multimodal?
Laut verschiedenen Online-Quellen scheint es, dass GPT-4 multimodal sein wird. Eine Ankündigung ihres Großinvestors Microsoft bestätigt dies möglicherweise.
Bei der Offenlegung von Details über GPT-4 , ihr deutscher CTO, Andreas Braun, erklärte, dass das Unternehmen „ haben multimodale Modelle, die völlig unterschiedliche Möglichkeiten bieten“.
Einige behaupten jedoch immer noch, dass GPT-4 GPT-3 ähnlicher sein wird, als wir erwarten. Leute wie Datacamp behaupten sogar, dass GPT-4 ein Nur-Text-Modell sein wird.
In Anbetracht der Informationen direkt von Microsoft kann man davon ausgehen, dass GPT-4 in der Lage sein wird, verschiedene Medien wie Video, Bilder und Audio zu verarbeiten und auszugeben. Bis zur offiziellen Veröffentlichung von OpenAI in dieser Woche können wir uns jedoch nicht ganz sicher sein.
Was ist ein multimodales Modell?
Also, was ist überhaupt ein multimodales Modell? Wenn ein Modell multimodal ist, bezieht sich dies auf seine Fähigkeit, mit mehreren Medien zu arbeiten, die Video, Bilder oder Audio umfassen können.
Zum Beispiel kann das neueste Modell von Microsoft, Kosmos-1, Berichten zufolge eine visuelle Texterkennung durchführen, bestimmte Inhalte aus Bildern finden und sogar visuelle Rätsel lösen. Die Tatsache, dass dieses Modell Informationen in Form von Bildern aufnehmen und in einem anderen eine Antwort ausgeben kann, macht es multimodal.
OpenAI hat bereits ein eigenes multimodales Modell, DALL-E, entwickelt. Dieses revolutionäre KI-Tool kann Bilder auf der Grundlage von Texten erstellen, die von Menschen geschrieben wurden.
DALL-E ist ein raffinierter Künstler und hat gezeigt, dass er mit nur wenigen Eingabeaufforderungen einige äußerst auffällige Bilder produziert.
Abschließende Gedanken
Das gilt auch für GPT-4 multimodal? Nun, es scheint, als ob es so sein wird. Obwohl wir uns nicht ganz sicher sein können. OpenAI hat viele Details über ihre bevorstehende Veröffentlichung streng unter Verschluss gehalten.
Also, selbst wenn sich GPT-4 als multimodal erweisen sollte, ist nicht ganz klar, wie das aussehen wird. Wenn Sie diesen Artikel interessant fanden, warum lesen Sie nicht das Veröffentlichungsdatum von GPT-4: wann kommt das nächste neue Modell?