Računalništvo, telefonija
18.04.2025 09:30
Posodobljeno 1 dan nazaj.

Deli z drugimi:

Share

Wikipedia z drugačno taktiko za preprečevanje strganja podatkov

Wikipedia poskuša odvrniti razvijalce umetne inteligence od strganja (angl. scraping) svoje platforme, in sicer z izdajo nabora podatkov, ki je posebej optimiziran za usposabljanje modelov umetne inteligence.

Fundacija Wikimedia je objavila, da se je povezala s Kaggleom, platformo skupnosti podatkovnih znanosti v lasti Googla, ki gosti podatke za strojno učenje, da bi objavila beta nabor podatkov »strukturirane vsebine Wikipedie v angleščini in francoščini«.

Wikimedia pravi, da je nabor podatkov, ki ga gosti Kaggle, »zasnovan z mislijo na delovne tokove strojnega učenja«, kar razvijalcem umetne inteligence lajša dostop do strojno berljivih podatkov člankov za modeliranje, fino nastavitev, primerjalno analizo, usklajevanje in analizo. Vsebina v naboru podatkov je odprto licencirana in od 15. aprila vključuje povzetke raziskav, kratke opise, povezave do slik, podatke iz infoboxov in razdelke člankov.

»Dobro strukturirane JSON reprezentacije vsebine Wikipedie«, ki so na voljo uporabnikom Kagglea, bi morale biti privlačnejša alternativa »strganju ali razčlenjevanju surovega besedila člankov”, trdi Wikimedia. To je težava, ki trenutno obremenjuje strežnike Wikipedie, saj avtomatizirani boti umetne inteligence neusmiljeno porabljajo pasovno širino platforme. Wikimedia že ima dogovore o deljenju vsebine z Googlom in platformo Internet Archive, vendar bi moralo partnerstvo s Kaggleom te podatke narediti bolj dostopne manjšim podjetjem in neodvisnim podatkovnim znanstvenikom.

»Kot mesto, kamor prihaja skupnost strojnega učenja po orodja in teste, je Kaggle izjemno navdušen, da bo gostitelj podatkov Fundacije Wikimedia,« je dejala Brenda Flynn, vodja partnerstev pri Kaggleu. »Kaggle z veseljem prispeva k temu, da bodo ti podatki ostali dostopni, na voljo in uporabni.«


Prijavi napako v članku


Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Zlati partner

TELEMACH d.o.o.

Brnčičeva ulica 49a, 1231 Ljubljana Črnuče, Tel: 070 700 700
Telemach je eno glavnih telekomunikacijskih podjetij v Sloveniji in hkrati najhitreje rastoči mobilni operater v državi. Uporabnikom ponuja napredne televizijske storitve v ločljivostih ... Več
Zlati partner

INSIS d.o.o.

Erjavčeva ulica 18, 5000 Nova Gorica, Tel: 041 938 792
Podjetje Insis, d. o. o., se s spletno prodajo ukvarja že od leta 2009. Ekipa spletne trgovine PoceniPC.com vestno skrbi za svoje kupce. Najbolj so veseli vašega zadovoljstva, zato ... Več
Zlati partner

NIKON GmbH – Podporna pisarna Slovenija

Leskoškova 9e, 1000 Ljubljana, Tel: 01 280 08 12
Nikon je vodilno podjetje s področij fotografije, digitalnega zajema ter natančne optike. Njegove izdelke odlikujejo vrhunska kakovost izdelave, napreden dizajn ter odlične zmogljivosti, ... Več
Zlati partner

SAMSUNG GmbH, podružnica v Ljubljani

Letališka cesta 29a, 1000 Ljubljana, Tel: +386 80 697 267
Samsung Electronics Co. je vodilni tehnološki gigant, ki navdihuje svet ter oblikuje prihodnost s prodornimi zamislimi in tehnologijami. Njihova poslovna filozofija, ki temelji na ... Več