^...

Domov Računalništvo, telefonija Wikipedia z drugačno taktiko za preprečevanje strganja podatkov

Računalništvo, telefonija

18.04.2025 09:30

Posodobljeno 10 mesecev nazaj.

Deli z drugimi:

Wikipedia z drugačno taktiko za preprečevanje strganja podatkov

Wikipedia poskuša odvrniti razvijalce umetne inteligence od strganja (angl. scraping) svoje platforme, in sicer z izdajo nabora podatkov, ki je posebej optimiziran za usposabljanje modelov umetne inteligence.

Fundacija Wikimedia je objavila, da se je povezala s Kaggleom, platformo skupnosti podatkovnih znanosti v lasti Googla, ki gosti podatke za strojno učenje, da bi objavila beta nabor podatkov »strukturirane vsebine Wikipedie v angleščini in francoščini«.

Wikimedia pravi, da je nabor podatkov, ki ga gosti Kaggle, »zasnovan z mislijo na delovne tokove strojnega učenja«, kar razvijalcem umetne inteligence lajša dostop do strojno berljivih podatkov člankov za modeliranje, fino nastavitev, primerjalno analizo, usklajevanje in analizo. Vsebina v naboru podatkov je odprto licencirana in od 15. aprila vključuje povzetke raziskav, kratke opise, povezave do slik, podatke iz infoboxov in razdelke člankov.

»Dobro strukturirane JSON reprezentacije vsebine Wikipedie«, ki so na voljo uporabnikom Kagglea, bi morale biti privlačnejša alternativa »strganju ali razčlenjevanju surovega besedila člankov”, trdi Wikimedia. To je težava, ki trenutno obremenjuje strežnike Wikipedie, saj avtomatizirani boti umetne inteligence neusmiljeno porabljajo pasovno širino platforme. Wikimedia že ima dogovore o deljenju vsebine z Googlom in platformo Internet Archive, vendar bi moralo partnerstvo s Kaggleom te podatke narediti bolj dostopne manjšim podjetjem in neodvisnim podatkovnim znanstvenikom.

»Kot mesto, kamor prihaja skupnost strojnega učenja po orodja in teste, je Kaggle izjemno navdušen, da bo gostitelj podatkov Fundacije Wikimedia,« je dejala Brenda Flynn, vodja partnerstev pri Kaggleu. »Kaggle z veseljem prispeva k temu, da bodo ti podatki ostali dostopni, na voljo in uporabni.«

Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Prijavi napako v članku

Sorodne novice

Kako HONOR Magic8 Pro poenostavi vsakdan z napredno ...

IBM FlashSystem Andy Walls

Kako IBM FlashSystem in UI na novo definirata podatkovno ...

Windows 11 dobiva vgrajen test hitrosti interneta

Xenon forte v svojo ponudbo dodaja novi CZUR Lens Pro ...

Meta pripravlja pametno uro z UI in nadgradnjo očal ...

Zvok je daleč najbolj pomemben, a ne spreglejte varnosti

Kaj berejo drugi?

Fotografija Leon Vidic (Delo)

Izziv digitalnih inovacij – odskočna deska za slovenski tehnološki preboj

Kako se znebiti bolečin v hrbtenici?

Roki hrambe kot spregledan izziv informacijskih sistemov

SmartFit: nevidna telovadnica za vsak prostor

GS1 aplikacijski identifikatorji (AI): temelj sodobne sledljivosti izdelkov

Samsung T9 je spodobna nadgradnja prejšnje generacije. Blestijo predvsem visoke hitrosti do 2000 MB/s.

Test Samsung T9 (4 TB) – zanesljiv SSD robustnež

Izpostavljeno

IBM FlashSystem Andy Walls

Kako IBM FlashSystem in UI na novo definirata podatkovno ...

Moj vodič za Linux, ki vsebuje vse, kar sem se doslej naučil (Linux uporabljam nekaj mesecev), najpogostejše težave in še več. Foto: ChatGPT

Kako uporabljati Linux: od osnovnih ukazov do iskanja ...

MegaTel ustvarja prihodnost naprednih klicnih centrov

Test-Narwal-Flow-review-31

Test Narwal Flow – skoraj vse sčasoma počne sam

Ko podatki ne smejo izginiti

Najbolj brano

Foto: Zotac

Konec nadgradenj za namizne računalnike?

Foto: Minix

Zakaj kompaktni računalniki izpodrivajo klasične ...

Uporabniki storitve Google Gmail takoj izklopite to ...

Zaposlitveni oglasi

SISTEMSKI ADMINISTRATOR (m/ž)

Več

Najnovejši mali oglasi

Radio ura Sony

Ljubljana

Radio ura Sony

hladilnik dynatron r24 LGA 2011 (NOV)

Ljubljana

hladilnik dynatron r24 LGA 2011 (NOV)

Prodam iPhone 13, 128 GB, izredno lepo ohranjen

Nova Gorica

Prodam iPhone 13, 128 GB, izredno lepo ohranjen

HP SFF računalnik

Grosuplje

HP SFF računalnik

Namizni računalnik PC Nitro PF7 i5-7400/8GB/240GB SSD+500GB HDD

Maribor

Namizni računalnik PC Nitro PF7 i5-7400/8GB/240GB SSD+500GB HDD

3D tiskalnik Prusa MK3S

Slovenska Bistrica

3D tiskalnik Prusa MK3S

Dogodki

11

Mar

SEJEM DOM

18

Mar

CIO SUMMIT 2026

Vsi dogodki

Dražbe / Licitacije Prikaži vse

Trenutna cena 191,⁰⁰€

Skiro RollJet City + šolska torba D-bag (motiv Math) – IZKLICNA CENA 1 €!

Trenutna cena 120,⁰⁰€

Kavni aparat ILLY X7.1 Iperespresso (roza) – IZKLICNA CENA 1 €!

Trenutna cena 26,⁰⁰€

Bluetooth zvočnik Sencor Resonex Midi 80W – IZKLICNA CENA 1 €!

Trenutna cena 60,⁰⁰€

Cvrtnik na vroč zrak Cosori TurboBlaze Chef Edition 6,0 L – TESTNI MODEL – IZKLICNA CENA 1 €!

Partnerji Računalniških novic Prikaži vse

REDOLJUB d.o.o.

Skladišče: Pot heroja Trtnika 45, 1261 Ljubljana - Dobrunje, Tel: 070 377 577

Se sprašujete, kje lahko na enem mestu dobite pisarniške potrebščine, opremo in potrošni material? Leta 1990 je podjetje Redoljub začelo z vzdrževanjem redu v slovenskih in ... Več

ADVANTECH SOLUTIONS d.o.o.

Bravničarjeva ulica 13, 1000 Ljubljana, Tel: 030 703 704

S čim se ukvarja Advantech Solutions? Na kratko: Podjetje Advantech Solutions ovrednoti temeljno sestavo vašega podjetja, da bo vaša pot do uspeha optimalna. Strokovnjaki oblikujejo ... Več

MITS d.o.o.

Butari 20a, 6272 Gračišče, Tel: 040 895 342

Bodite pozorni pri izbiri pravega ponudnika programskih rešitev za gostinstvo, hotelirstvo in druge storitvene dejavnosti. Večina ponuja le generične oblike rešitev, ki ne zadostujejo ... Več

SICIRUS d.o.o.

Ulica 15. maja 10b, 6000 Koper/capodistria, Tel: 041 694 668

Vsako podjetje, vsak ustvarjalec in tudi novodobni družbeni »influencer« se zaveda, da sta trženje in oglaševanje ključnega pomena za uspeh in rast. Kje in kako začeti? Področje ... Več

Revolucija v proizvodnji: sinergija ERP in strojev

7 prednosti ERP programske opreme v oblaku

Pet prednosti integracije spletne trgovine z ERP sistemom

3 razlogi za vodenje poslovanja s PANTHEON Web Light

Partner