ChatGPT versteht jetzt auch Bilder und Sprachbefehle
Der ChatGPT-Chatbot wird von OpenAI ständig verbessert. Mit der neuen Version können Benutzer ChatGPT auch mit Sprache und Bildern aktivieren, was neue Fragen und Bedenken aufwirft. Was bringt die neue Version und wann?
Die meisten Änderungen, die OpenAI an ChatGPT vornimmt, beziehen sich darauf, was der KI-gestützte Bot tun kann: welche Fragen er beantworten kann, auf welche Informationen er zugreifen kann und so weiter. Dieses Mal ändert sich jedoch auch die Art und Weise, wie Sie ChatGPT selbst nutzen können. Das Unternehmen stellt eine neue Version des Dienstes vor, die es Ihnen ermöglicht, mit einem künstlich intelligenten KI-Bot zu interagieren, indem Sie nicht nur Sätze in ein Textfeld schreiben, sondern auch mit ihm sprechen oder einfach ein Bild hochladen. Die neuen Funktionen werden denjenigen, die das Plus-Abonnement bezahlen, in den kommenden Wochen zur Verfügung stehen, während andere die neuen Funktionen „bald danach“ erhalten werden.
Der Sprachteil ist nichts weltbewegend Neues: Sie tippen auf eine Schaltfläche und sagen Ihre Frage, ChatGPT wandelt sie in Text um und übergibt ihn an ein großes Sprachmodell, ruft die Antwort ab, wandelt sie wieder in Sprache um und antwortet Ihnen per Stimme. Es sollte sich anfühlen, als würde man mit Alexa oder dem Google Assistant sprechen, nur dass die Antworten – so hofft OpenAI – aufgrund der verbesserten zugrunde liegenden Technologie besser sein werden. Die meisten virtuellen Assistenten scheinen sich neu zu erfinden und große Sprachmodelle zu integrieren – und OpenAI ist ihnen allen derzeit einen Schritt voraus.
Das hervorragende Whisper-Modell von OpenAI übernimmt einen Großteil der Sprache-in-Text-Konvertierung, und das Unternehmen führt außerdem ein neues Text-in-Sprache-Modell ein, das in der Lage sein soll, „menschenähnliches Audio aus nur Text und ein paar Sekunden davon“ zu erzeugen Beispielrede. Sie können aus fünf Optionen eine Stimme für ChatGPT auswählen, aber OpenAI scheint zu glauben, dass das Modell viel mehr Potenzial hat. OpenAI arbeitet beispielsweise mit Spotify zusammen, um Podcasts in andere Sprachen zu übersetzen und dabei den Klang der Stimme der Person zu bewahren, die den Podcast moderiert. Es gibt viele interessante Einsatzmöglichkeiten für synthetische Stimmen und OpenAI könnte ein wichtiger Teil dieser Branche sein.
Unabhängig davon öffnet die Tatsache, dass Sie mit nur wenigen Sekunden Audio eine anständige Synth-Stimme erstellen können, die Tür zu allen möglichen potenziell problematischen Anwendungsfällen. „Diese Funktionen stellen neue Bedrohungen dar, beispielsweise die Möglichkeit, dass böswillige Akteure sich als Persönlichkeiten des öffentlichen Lebens ausgeben und Ähnliches“, heißt es im Blog des Unternehmens, in dem die neuen Funktionen angekündigt werden. Aus genau diesem Grund steht das Modell nicht für eine breitere Nutzung zur Verfügung und wird viel stärker kontrolliert und auf bestimmte Anwendungsfälle und Partnerschaften beschränkt sein.
Die Bildsuchfunktion ähnelt in gewisser Weise der von Google Lens. Sie machen ein Foto und ChatGPT versucht zu verstehen, was Sie fragen, und reagiert entsprechend. Sie können auch das Zeichentool in der App verwenden, um die Frage so klar wie möglich zu formulieren, oder Fragen zum Bild sprechen oder eingeben. Hier kommt die Natur von ChatGPT besonders zum Tragen: Anstatt eine Suche durchzuführen, die falsche Antwort zu erhalten und dann eine neue Suche durchzuführen, können Sie den Bot anstoßen und die Antwort während des Vorgangs verfeinern. Dies ist sehr ähnlich zu dem, was Google mit der multimodalen Suche macht.
Natürlich hat das Einbinden von Bildern in ChatGPT auch Nachteile. Eine davon ist, wenn Sie ChatGPT „persönlich“ verwenden: OpenAI sagt, es habe „die Fähigkeit von ChatGPT, Personen zu analysieren und direkte Aussagen über sie zu treffen“, bewusst eingeschränkt. Sowohl aus Gründen der Genauigkeit als auch des Datenschutzes. Das bedeutet, dass eine der Science-Fiction-Visionen künstlicher Intelligenz – die Fähigkeit, jemanden anzusehen und zu sagen, wer er ist – in absehbarer Zeit nicht wahr werden wird. Was wahrscheinlich eine gute Sache ist.
Fast ein Jahr nach der Blütezeit von ChatGPT versucht OpenAI offenbar immer noch herauszufinden, wie es seinem Modell mehr Funktionen und Fähigkeiten verleihen kann, ohne neue Probleme und Nachteile zu schaffen. Bei Neuveröffentlichungen hat das Unternehmen versucht, diesen schmalen Grat zu beschreiten, indem es die Möglichkeiten seiner neuen Modelle bewusst einschränkte. Tatsache ist jedoch, dass dieser Ansatz nicht immer funktionieren wird. Da immer mehr Menschen Sprachsteuerung und Bildsuche nutzen und ChatGPT immer mehr zu einem wirklich multimodalen, nützlichen virtuellen Assistenten wird, wird es immer schwieriger, alle diese Schutzmaßnahmen einzuhalten.