Softver
26.09.2023 17:48

Podijelite s drugima:

Udio

ChatGPT sada također razumije slike i glasovne naredbe

ChatGPT sada također razumije slike i glasovne naredbe

OpenAI neprestano unapređuje ChatGPT chatbot. Nova verzija omogućuje korisnicima da aktiviraju ChatGPT i glasom i slikama, donoseći nova pitanja i nedoumice. Dakle, što donosi nova verzija i kada?

Većina promjena koje OpenAI uvodi u ChatGPT odnosi se na ono što bot koji pokreće AI može učiniti: na koja pitanja može odgovoriti, kojim informacijama može pristupiti i tako dalje. Ovaj put, međutim, također mijenja način na koji sami možete koristiti ChatGPT. Tvrtka predstavlja novu verziju usluge koja vam omogućuje interakciju s umjetno inteligentnim AI botom ne samo pisanjem rečenica u tekstualno polje, već i razgovorom s njim ili samo učitavanjem slike. Nove značajke bit će dostupne onima koji plaćaju Plus pretplatu u nadolazećim tjednima, dok će ostali novu funkcionalnost dobiti “ubrzo”.

Glasovni dio nije ništa strašno novo: dodirnete gumb i izgovorite svoje pitanje, ChatGPT ga pretvara u tekst i prosljeđuje velikom jezičnom modelu, dohvaća odgovor i pretvara ga natrag u govor te vam odgovara glasom. Trebao bi se osjećati kao da razgovarate s Alexom ili Google Assistantom, osim – tako se OpenAI nada – da će odgovori biti bolji zbog poboljšane temeljne tehnologije. Čini se da se većina virtualnih pomoćnika iznova osmišljava i uključuje velike jezične modele – a OpenAI je za sada korak ispred svih njih.

Odličan OpenAI-jev model Whisper obavlja velik dio pretvorbe govora u tekst, a tvrtka također predstavlja novi model teksta u govor za koji se kaže da može stvoriti "zvuk poput ljudskog iz samo teksta i nekoliko sekundi uzorak govora." Moći ćete odabrati glas za ChatGPT između pet opcija, ali čini se da OpenAI misli da model ima puno više potencijala. Na primjer, OpenAI radi sa Spotifyjem za prevođenje podcasta na druge jezike, čuvajući zvuk glasa osobe koja hostira podcast. Postoji mnogo zanimljivih načina korištenja sintetičkih glasova, a OpenAI bi mogao biti veliki dio te industrije.

Bez obzira na to, činjenica da možete stvoriti pristojan sintetički glas sa samo nekoliko sekundi zvuka otvara vrata svim vrstama potencijalno problematičnih slučajeva upotrebe. "Ove mogućnosti predstavljaju nove prijetnje, poput mogućnosti zlonamjernih aktera koji se lažno predstavljaju kao javne osobe i slično", stoji u blogu tvrtke koji najavljuje nove značajke. Upravo iz tog razloga, model nije dostupan za širu upotrebu i bit će mnogo više kontroliran i ograničen na specifične slučajeve upotrebe i partnerstva.

Značajka pretraživanja slika donekle je slična Google Lensu. Snimite fotografiju i ChatGPT će pokušati razumjeti što tražite i odgovoriti u skladu s tim. Također možete koristiti alat za crtanje u aplikaciji kako biste pitanje učinili što jasnijim ili izgovorite ili upišite pitanja vezana uz sliku. Ovdje je priroda ChatGPT-a posebno korisna: umjesto da pokrenete pretragu, dobijete pogrešan odgovor i zatim pokrenete novu pretragu, možete potaknuti bota i poboljšati odgovor tijekom procesa. Ovo je vrlo slično onome što Google radi s multimodalnim pretraživanjem.

Očito, uključivanje slika u ChatGPT također ima svoje nedostatke. Jedan od njih je kada koristite ChatGPT “osobno”: OpenAI kaže da je namjerno ograničio “sposobnost ChatGPT-a da analizira i daje izravne izjave o ljudima”. I zbog točnosti i zbog privatnosti. To znači da jedna od najznanstvenijih vizija umjetne inteligencije - sposobnost da pogledate nekoga i kažete tko je - neće uskoro biti stvarnost. Što je vjerojatno dobro.

Gotovo godinu dana nakon vrhunca ChatGPT-a, čini se da OpenAI još uvijek pokušava smisliti kako svom modelu dati više značajki i mogućnosti bez stvaranja novih problema i nedostataka. S novim izdanjima, tvrtka je pokušala ići tom tankom linijom svjesno ograničavajući ono što njeni novi modeli mogu učiniti. Ali činjenica je da ovaj pristup neće uvijek funkcionirati. Kako sve više i više ljudi koristi glasovnu kontrolu i pretraživanje slika, i kako se ChatGPT približava tome da postane istinski multimodalni, korisni virtualni pomoćnik, bit će sve teže održavati sve ove zaštitne mjere.


Zanima vas više o ovoj temi?
ChatGPT umjetna inteligencija


Što drugi čitaju?