Programska oprema
29.04.2026 06:05

Deli z drugimi:

Share

Google DeepMind predstavlja generalistični model, ki premika meje računalniškega vida

Google DeepMind je razkril Vision Banana, revolucionaren model za generiranje slik, ki z uporabo učenja na podlagi navodil dosega izjemne rezultate pri razumevanju vizualnih podatkov. Model je v testih premagal specializirane sisteme, kot sta SAM 3 pri segmentaciji slik in Depth Anything V3 pri ocenjevanju metrične globine, kar nakazuje na velik premik v razvoju umetne inteligence.
Foto: Google
Foto: Google

Raziskovalna ekipa Google DeepMind je z modelom Vision Banana dokazala, da predhodniki za generiranje slik služijo kot močni temelji za splošno razumevanje vizualnega sveta, podobno kot veliki jezikovni modeli (LLM) razvijejo razumevanje jezika skozi napovedovanje naslednje besede. Osnova sistema je Nano Banana Pro, Googlov najnaprednejši generator slik, ki so ga s pomočjo lahkotnega učenja na podlagi navodil spremenili v Vision Banana. Ključna inovacija je, da so različne naloge računalniškega vida, kot so segmentacija, določanje globine in ocenjevanje površinskih normal, preoblikovali v naloge generiranja slik v formatu RGB.

Vision Banana je dosegel vrhunske rezultate v t.i. “zero-shot” okoljih, kjer model nima predhodnih izkušenj s specifičnimi nabori podatkov. Pri segmentaciji slik je presegel zmogljivosti modela SAM 3, medtem ko je pri metrični oceni globine dosegel rezultat 0,929 (parameter δ1), s čimer je premagal dosedanjega rekorderja Depth Anything V3 (0,918). Posebej impresivno je, da model za določanje globine ne potrebuje nobenih informacij o parametrih kamere, kar je bila doslej velika ovira za tovrstne sisteme.

Takšen pristop prinaša tri ključne prednosti. Enoten model, kjer ena sama nevronska mreža lahko opravlja širok nabor nalog, spreminja se le besedilni ukaz (prompt). Za prilagoditev modela je bila potrebna le majhna količina specifičnih vizualnih podatkov. Poleg tega Vision Banana kljub novim analitičnim sposobnostim še vedno v celoti ohranja svojo prvotno funkcijo generiranja vrhunskih fotorealističnih slik.

Raziskovalci verjamejo, da smo priča paradigmatskemu premiku, kjer bo generativno pred-učenje postalo standard za gradnjo splošnih vizualnih modelov prihodnosti. Vision Banana tako ne predstavlja le novega orodja, temveč dokaz, da sposobnost ustvarjanja vizualne vsebine implicitno zahteva globoko razumevanje geometrije, semantike in prostorskih odnosov v realnem svetu.


Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Share
Prijavi napako v članku
Vas zanima več iz te teme?
Google

Povezave



Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Zlati partner

KONCERN ENA d.o.o.

Koroška cesta 61, 3320 Velenje, Tel: 03 891 95 40
Podjetje IN.PU.T., prodaja računalniške opreme, Tadej Pucelj, s.p. je začelo poslovati v letu 2003,kot internetna trgovina (www.in-put.com) z računalniško opremo. V zadnjih letih ... Več

PROLON d.o.o.

Rogaška cesta 27, 3240 Šmarje pri Jelšah, Tel: 041 364 535
Podjetje Prolon v Šmarju pri Jelšah je najbolj poznan s trgovino in poslovalnico Telekoma, a to še zdaleč ni njihov edini projekt. Že tri leta uspešno vodijo grafični studio ... Več
Zlati partner

Kaspersky

, ,
Kaspersky je globalno priznano podjetje, specializirano za raziskovanje, razvoj in ponudbo visoko zmogljivih varnostnih rešitev za informacijsko varnost in zaščito pred spletnimi ... Več
Diamantni partner

OptiCyber3 d.o.o.

Ulica Jožeta Jame 14, 1210 Ljubljana Šentvid, Tel: 070 420 063
OptiCyber3 poskrbi za zanesljivo zaščito vašega računalniškega sistema Kako poskrbeti za zanesljivo zaščito računalniških sistemov? Za ustrezno varnostno zaščito in kar ... Več