Programska oprema
29.04.2026 06:05

Deli z drugimi:

Share

Google DeepMind predstavlja generalistični model, ki premika meje računalniškega vida

Google DeepMind je razkril Vision Banana, revolucionaren model za generiranje slik, ki z uporabo učenja na podlagi navodil dosega izjemne rezultate pri razumevanju vizualnih podatkov. Model je v testih premagal specializirane sisteme, kot sta SAM 3 pri segmentaciji slik in Depth Anything V3 pri ocenjevanju metrične globine, kar nakazuje na velik premik v razvoju umetne inteligence.
Foto: Google
Foto: Google

Raziskovalna ekipa Google DeepMind je z modelom Vision Banana dokazala, da predhodniki za generiranje slik služijo kot močni temelji za splošno razumevanje vizualnega sveta, podobno kot veliki jezikovni modeli (LLM) razvijejo razumevanje jezika skozi napovedovanje naslednje besede. Osnova sistema je Nano Banana Pro, Googlov najnaprednejši generator slik, ki so ga s pomočjo lahkotnega učenja na podlagi navodil spremenili v Vision Banana. Ključna inovacija je, da so različne naloge računalniškega vida, kot so segmentacija, določanje globine in ocenjevanje površinskih normal, preoblikovali v naloge generiranja slik v formatu RGB.

Vision Banana je dosegel vrhunske rezultate v t.i. “zero-shot” okoljih, kjer model nima predhodnih izkušenj s specifičnimi nabori podatkov. Pri segmentaciji slik je presegel zmogljivosti modela SAM 3, medtem ko je pri metrični oceni globine dosegel rezultat 0,929 (parameter δ1), s čimer je premagal dosedanjega rekorderja Depth Anything V3 (0,918). Posebej impresivno je, da model za določanje globine ne potrebuje nobenih informacij o parametrih kamere, kar je bila doslej velika ovira za tovrstne sisteme.

Takšen pristop prinaša tri ključne prednosti. Enoten model, kjer ena sama nevronska mreža lahko opravlja širok nabor nalog, spreminja se le besedilni ukaz (prompt). Za prilagoditev modela je bila potrebna le majhna količina specifičnih vizualnih podatkov. Poleg tega Vision Banana kljub novim analitičnim sposobnostim še vedno v celoti ohranja svojo prvotno funkcijo generiranja vrhunskih fotorealističnih slik.

Raziskovalci verjamejo, da smo priča paradigmatskemu premiku, kjer bo generativno pred-učenje postalo standard za gradnjo splošnih vizualnih modelov prihodnosti. Vision Banana tako ne predstavlja le novega orodja, temveč dokaz, da sposobnost ustvarjanja vizualne vsebine implicitno zahteva globoko razumevanje geometrije, semantike in prostorskih odnosov v realnem svetu.


Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Share
Prijavi napako v članku
Vas zanima več iz te teme?
Google

Povezave



Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Zlati partner

MICROSOFT d.o.o.

Ameriška ulica 8, 1000 Ljubljana, Tel: 01 584 61 11
Slovenska podružnica Microsofta je bila ustanovljena leta 1994 z željo, da bi tudi slovenskemu trgu ponudili inovativno programsko opremo. Od začetkov, ko so bili v podjetju zaposleni ... Več

OBLIKOVANJE.COM

Slovenska ulica 25, 9000 Murska Sobota, Tel: 02 522 14 21
Podjetje Oblikovanje.com je v slovenskem računalniškem prostoru prisotno že od samega začetka. Z več kot 20 leti izkušenj ter s strategijo kakovostnega poslovanja in storitev ... Več

CICERO, BEGUNJE, d.o.o.

Stegne 21c, 1000 Ljubljana, Tel: 01 507 42 92, 041 662 178
Bronasti partner

Agencija POTI – Z znanjem do cilja!

Stegne 7, 1000 Ljubljana, Tel: 01 511 39 21
Agencija POTI – Z znanjem do cilja! Agencija POTI, izobraževalna, svetovalna in založniška družba, si je v več kot 20. letih delovanja, pridobila obilico znanja in izkušenj ... Več