Računalništvo, telefonija
18.04.2025 09:30
Posodobljeno 5 mesecev nazaj.

Deli z drugimi:

Share

Wikipedia z drugačno taktiko za preprečevanje strganja podatkov

Wikipedia poskuša odvrniti razvijalce umetne inteligence od strganja (angl. scraping) svoje platforme, in sicer z izdajo nabora podatkov, ki je posebej optimiziran za usposabljanje modelov umetne inteligence.

Fundacija Wikimedia je objavila, da se je povezala s Kaggleom, platformo skupnosti podatkovnih znanosti v lasti Googla, ki gosti podatke za strojno učenje, da bi objavila beta nabor podatkov »strukturirane vsebine Wikipedie v angleščini in francoščini«.

Wikimedia pravi, da je nabor podatkov, ki ga gosti Kaggle, »zasnovan z mislijo na delovne tokove strojnega učenja«, kar razvijalcem umetne inteligence lajša dostop do strojno berljivih podatkov člankov za modeliranje, fino nastavitev, primerjalno analizo, usklajevanje in analizo. Vsebina v naboru podatkov je odprto licencirana in od 15. aprila vključuje povzetke raziskav, kratke opise, povezave do slik, podatke iz infoboxov in razdelke člankov.

»Dobro strukturirane JSON reprezentacije vsebine Wikipedie«, ki so na voljo uporabnikom Kagglea, bi morale biti privlačnejša alternativa »strganju ali razčlenjevanju surovega besedila člankov”, trdi Wikimedia. To je težava, ki trenutno obremenjuje strežnike Wikipedie, saj avtomatizirani boti umetne inteligence neusmiljeno porabljajo pasovno širino platforme. Wikimedia že ima dogovore o deljenju vsebine z Googlom in platformo Internet Archive, vendar bi moralo partnerstvo s Kaggleom te podatke narediti bolj dostopne manjšim podjetjem in neodvisnim podatkovnim znanstvenikom.

»Kot mesto, kamor prihaja skupnost strojnega učenja po orodja in teste, je Kaggle izjemno navdušen, da bo gostitelj podatkov Fundacije Wikimedia,« je dejala Brenda Flynn, vodja partnerstev pri Kaggleu. »Kaggle z veseljem prispeva k temu, da bodo ti podatki ostali dostopni, na voljo in uporabni.«


Prijavi napako v članku


Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

NEXT LINE d.o.o.

Ob železnici 16, 1000 Ljubljana, Tel: 041 776 822
Next line, specializirane storitve tiska pod eno streho V podjetju Next line iz Ljubljane so se osredotočili na specializirane storitve tiska s termičnimi, sublimacijskimi in ... Več

Minevra, Matjaž Kramar s.p.

Krallova 31, 8000 Novo mesto, Tel: 041-649-387
Kaj lahko za vas naredi podjetje Minevra? Živimo v digitalni dobi, kjer prevladuje računalniška in tiskalna oprema. Iskanje sebi primerno opremo je izziv in za mnoge zamudno opravilo. ... Več

REDOLJUB d.o.o.

Skladišče: Pot heroja Trtnika 45, 1261 Ljubljana - Dobrunje, Tel: 070 377 577
Se sprašujete, kje lahko na enem mestu dobite pisarniške potrebščine, opremo in potrošni material? Leta 1990 je podjetje Redoljub začelo z vzdrževanjem redu v slovenskih in ... Več
Zlati partner

FIŠ – FAKULTETA ZA INFORMACIJSKE ŠTUDIJE

Ljubljanska cesta 31a, 8000 Novo mesto, Tel: 07 373 78 84, 07 373 78 70
Sodobni študijski programi, možnost virtualne udeležbe na vseh predavanjih in vajah FIŠ je prva in edina javna fakulteta v Novem mestu, ki ponuja tako brezplačen redni ... Več