Software
26.09.2023 17:48

Share with others:

Share

ChatGPT now also understands images and voice commands

ChatGPT now also understands images and voice commands

The ChatGPT chatbot is constantly being improved by OpenAI. The new version allows users to activate ChatGPT with voice and images as well, bringing new questions and concerns. So what does the new version bring and when?

Večina sprememb, ki jih OpenAI uvaja v ChatGPT, se nanaša na to, kaj bot, ki ga poganja umetna inteligenca, zmore: na kakšna vprašanja lahko odgovarja, do katerih informacij lahko dostopa in podobno. Tokrat pa spreminja tudi način, kako lahko sami uporabljate ChatGPT. Podjetje uvaja novo različico storitve, ki vam omogoča, da z umetno inteligentnim AI botom komunicirate ne samo s pisanjem stavkov v besedilno polje, temveč tudi tako, da z njim govorite ali pa samo naložite sliko. Nove funkcije bodo tistim, ki plačujejo naročnino Plus, na voljo v naslednjih tednih, ostali pa bodo nove funkcionalnosti prejeli “kmalu zatem”.

Del z glasovnimi ukazi ni nič pretresljivo novega: tapnete gumb in izgovorite svoje vprašanje, ChatGPT ga pretvori v besedilo in ga posreduje velikemu jezikovnemu modelu, pridobi odgovor in ga pretvori nazaj v govor ter vam odgovori glasovno. To bi moralo spominjati na pogovor z Alexo ali Googlovim asistentom, le da – tako upa OpenAI – bodo odgovori boljši zaradi izboljšane osnovne tehnologije. Zdi se, da se večina virtualnih pomočnikov prenavlja in vključuje velike jezikovne modele – OpenAI pa je za zdaj korak pred vsemi.

Odličen OpenAI-jev model Whisper opravlja velik del pretvorbe govora v besedilo, podjetje pa uvaja tudi nov model pretvorbe besedila v govor, ki naj bi znal ustvariti “zvok, podoben človeškemu, in to samo iz besedila in nekaj sekund vzorčnega govora.” Izmed petih možnosti boste lahko izbrali glas za ChatGPT, vendar se zdi, da OpenAI meni, da ima model veliko večji potencial. OpenAI na primer sodeluje s Spotifyjem pri prevajanju podkastov v druge jezike, pri čemer ohranja zvok glasu osebe, ki vodi podkast. Obstaja veliko zanimivih načinov uporabe sintetičnih glasov in OpenAI bi lahko bil velik del te industrije.

Ne glede na vse pa dejstvo, da lahko ustvarite spodoben sintetični glas samo z nekaj sekundami zvočnega posnetka, odpira vrata za vse vrste potencialno problematičnih primerov uporabe. “Te zmogljivosti predstavljajo nove nevarnosti, kot je možnost, da bi zlonamerni akterji posnemali javne osebnosti in podobno,” je zapisano v blogu podjetja, ki napoveduje nove funkcije. Model ravno zaradi tega ni na voljo za širšo uporabo in bo veliko bolj nadzorovan in omejen na določene primere uporabe ter partnerstva.

The image search feature is somewhat similar to Google Lens. You snap a photo and ChatGPT will try to understand what you're asking and respond accordingly. You can also use the drawing tool in the app to make the question as clear as possible, or speak or type questions related to the picture. This is where the nature of ChatGPT comes in particularly handy: instead of running a search, getting the wrong answer, and then running a new search, you can nudge the bot and improve the answer during the process. This is very similar to what Google is doing with multimodal search.

Očitno ima vključitev slik v ChatGPT tudi svoje slabosti. Ena od njih je, ko uporabite ChatGPT “na osebi”: OpenAI pravi, da je zavestno omejil “sposobnost ChatGPT-ja, da analizira in daje neposredne izjave o ljudeh”. Tako zaradi natančnosti, kot tudi zaradi zasebnosti. To pomeni, da ena najbolj znanstvenofantastičnih predstav o umetni inteligenci – sposobnost, da nekoga pogleda in pove, kdo je – ne bo kmalu uresničena. Kar je verjetno dobra stvar.

Almost a year after ChatGPT's heyday, it seems that OpenAI is still trying to figure out how to give its model more features and capabilities without creating new problems and downsides. With new releases, the company has tried to walk that fine line by consciously limiting what its new models can do. But the fact is that this approach will not always work. As more and more people use voice control and image search, and as ChatGPT moves closer to becoming a truly multi-modal, useful virtual assistant, it will become increasingly difficult to maintain all of these safeguards.


Interested in more from this topic?
ChatGPT artificial intelligence


What are others reading?