Računalništvo, telefonija
18.04.2025 09:30
Posodobljeno 4 meseci nazaj.

Deli z drugimi:

Share

Wikipedia z drugačno taktiko za preprečevanje strganja podatkov

Wikipedia poskuša odvrniti razvijalce umetne inteligence od strganja (angl. scraping) svoje platforme, in sicer z izdajo nabora podatkov, ki je posebej optimiziran za usposabljanje modelov umetne inteligence.

Fundacija Wikimedia je objavila, da se je povezala s Kaggleom, platformo skupnosti podatkovnih znanosti v lasti Googla, ki gosti podatke za strojno učenje, da bi objavila beta nabor podatkov »strukturirane vsebine Wikipedie v angleščini in francoščini«.

Wikimedia pravi, da je nabor podatkov, ki ga gosti Kaggle, »zasnovan z mislijo na delovne tokove strojnega učenja«, kar razvijalcem umetne inteligence lajša dostop do strojno berljivih podatkov člankov za modeliranje, fino nastavitev, primerjalno analizo, usklajevanje in analizo. Vsebina v naboru podatkov je odprto licencirana in od 15. aprila vključuje povzetke raziskav, kratke opise, povezave do slik, podatke iz infoboxov in razdelke člankov.

»Dobro strukturirane JSON reprezentacije vsebine Wikipedie«, ki so na voljo uporabnikom Kagglea, bi morale biti privlačnejša alternativa »strganju ali razčlenjevanju surovega besedila člankov”, trdi Wikimedia. To je težava, ki trenutno obremenjuje strežnike Wikipedie, saj avtomatizirani boti umetne inteligence neusmiljeno porabljajo pasovno širino platforme. Wikimedia že ima dogovore o deljenju vsebine z Googlom in platformo Internet Archive, vendar bi moralo partnerstvo s Kaggleom te podatke narediti bolj dostopne manjšim podjetjem in neodvisnim podatkovnim znanstvenikom.

»Kot mesto, kamor prihaja skupnost strojnega učenja po orodja in teste, je Kaggle izjemno navdušen, da bo gostitelj podatkov Fundacije Wikimedia,« je dejala Brenda Flynn, vodja partnerstev pri Kaggleu. »Kaggle z veseljem prispeva k temu, da bodo ti podatki ostali dostopni, na voljo in uporabni.«


Prijavi napako v članku


Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Zlati partner

DOMINATUS d.o.o.

Ob potoku 40, 1000 Ljubljana, Tel: 041 225 685
Danes je za posel ključno, da vašo spletno stran najde Googlov iskalnik, saj velika večina informacije poišče prav s pomočjo Googlovega iskalnika. Zato je ključnega pomena, da ... Več
Zlati partner

KONCERN ENA d.o.o.

Koroška cesta 61, 3320 Velenje, Tel: 03 891 95 40
Podjetje IN.PU.T., prodaja računalniške opreme, Tadej Pucelj, s.p. je začelo poslovati v letu 2003,kot internetna trgovina (www.in-put.com) z računalniško opremo. V zadnjih letih ... Več

VENUM PC

Cesta Jaka Platiše 18, 4000 Kranj, Tel: 06 999 39 83
Gaming računalniki, kot ste si jih vedno želeli Venum PC je inovativno podjetje, ki se ukvarja s servisom, odkupom in prodajo računalniške opreme. Na njihovi spletni strani ... Več
Diamantni partner

OptiCyber3 d.o.o.

Ulica Jožeta Jame 14, 1210 Ljubljana Šentvid, Tel: 070 420 063
OptiCyber3 poskrbi za zanesljivo zaščito vašega računalniškega sistema Kako poskrbeti za zanesljivo zaščito računalniških sistemov? Za ustrezno varnostno zaščito in kar ... Več