Casa » ChatGPT ora comprende anche immagini e comandi vocali

Software

26.09.2023 17:48

Condividi con gli altri:

ChatGPT ora comprende anche immagini e comandi vocali

Il chatbot ChatGPT viene costantemente migliorato da OpenAI. La nuova versione consente agli utenti di attivare ChatGPT anche con voce e immagini, portando nuove domande e preoccupazioni. Allora cosa porta la nuova versione e quando?

La maggior parte dei cambiamenti che OpenAI sta introducendo in ChatGPT riguardano ciò che può fare il bot basato sull'intelligenza artificiale: a quali domande può rispondere, a quali informazioni può accedere e così via. Questa volta, però, cambia anche il modo in cui puoi utilizzare ChatGPT da solo. L'azienda sta introducendo una nuova versione del servizio che consente di interagire con un bot AI artificialmente intelligente non solo scrivendo frasi in un campo di testo, ma anche parlando con lui o semplicemente caricando un'immagine. Le nuove funzionalità saranno disponibili per chi pagherà l'abbonamento Plus nelle prossime settimane, mentre gli altri riceveranno la nuova funzionalità “subito dopo”.

La parte vocale non è una novità sconvolgente: tocchi un pulsante e dici la tua domanda, ChatGPT lo converte in testo e lo passa a un grande modello linguistico, recupera la risposta e la riconverte in parlato e ti risponde a voce. Dovrebbe sembrare come parlare con Alexa o con l'Assistente Google, tranne che, così spera OpenAI, le risposte saranno migliori grazie alla tecnologia di base migliorata. La maggior parte degli assistenti virtuali sembra reinventarsi e incorporare grandi modelli linguistici – e OpenAI è un passo avanti rispetto a tutti per ora.

L'eccellente modello Whisper di OpenAI fa gran parte della conversione da voce a testo, e l'azienda sta anche introducendo un nuovo modello da testo a voce che si dice sia in grado di creare "audio simile a quello umano solo da testo e pochi secondi di esempio di discorso." Potrai scegliere una voce per ChatGPT tra cinque opzioni, ma OpenAI sembra pensare che il modello abbia molto più potenziale. Ad esempio, OpenAI collabora con Spotify per tradurre i podcast in altre lingue, preservando il suono della voce della persona che ospita il podcast. Esistono molti usi interessanti per le voci sintetiche e OpenAI potrebbe svolgere un ruolo importante in questo settore.

Indipendentemente da ciò, il fatto che sia possibile creare una voce sintetica decente con solo pochi secondi di audio apre le porte a tutti i tipi di casi d’uso potenzialmente problematici. "Queste funzionalità presentano nuove minacce, come la possibilità che attori malintenzionati si spacciano per personaggi pubblici e simili", si legge nel blog dell'azienda che annuncia le nuove funzionalità. Proprio per questo motivo, il modello non è disponibile per un uso più ampio e sarà molto più controllato e limitato a casi d’uso e partnership specifici.

La funzione di ricerca delle immagini è in qualche modo simile a Google Lens. Scatti una foto e ChatGPT proverà a capire cosa stai chiedendo e risponderà di conseguenza. Puoi anche utilizzare lo strumento di disegno nell'app per rendere la domanda il più chiara possibile oppure parlare o digitare domande relative all'immagine. È qui che la natura di ChatGPT risulta particolarmente utile: invece di eseguire una ricerca, ottenere la risposta sbagliata e quindi eseguire una nuova ricerca, puoi spingere il bot e migliorare la risposta durante il processo. Questo è molto simile a ciò che Google sta facendo con la ricerca multimodale.

Ovviamente includere immagini in ChatGPT ha anche i suoi svantaggi. Uno di questi è quando usi ChatGPT “di persona”: OpenAI afferma di aver deliberatamente limitato “la capacità di ChatGPT di analizzare e fare dichiarazioni dirette sulle persone”. Sia per precisione che per privacy. Ciò significa che una delle visioni più fantascientifiche dell’intelligenza artificiale – la capacità di guardare qualcuno e dire chi è – non diventerà realtà presto. Il che è probabilmente una buona cosa.

Quasi un anno dopo il periodo di massimo splendore di ChatGPT, sembra che OpenAI stia ancora cercando di capire come dare al suo modello più funzionalità e capacità senza creare nuovi problemi e svantaggi. Con le nuove versioni, l'azienda ha cercato di percorrere quella linea sottile limitando consapevolmente ciò che possono fare i suoi nuovi modelli. Ma il fatto è che questo approccio non sempre funzionerà. Poiché sempre più persone utilizzano il controllo vocale e la ricerca di immagini e poiché ChatGPT si avvicina a diventare un assistente virtuale veramente utile e multimodale, diventerà sempre più difficile mantenere tutte queste protezioni.

Ti interessa saperne di più su questo argomento?

ChatGPT intelligenza artificiale

ChatGPT ora comprende anche immagini e comandi vocali

Ti interessa saperne di più su questo argomento?

Notizie correlate

Cosa stanno leggendo gli altri?

Esposto

I più letti