Računalništvo, telefonija
24.11.2016 10:00
Posodobljeno 9 let nazaj.

Deli z drugimi:

Share

Umetna inteligenca obvlada branje z ustnic

Umetna inteligenca obvlada branje z ustnic
Umetna inteligenca obvlada branje z ustnic

“Mini-gibi” ustnic so med govorjenjem zelo težko zaznavni in razumljeni, še posebej, če branje z njih poteka na določeni razdalji ali človek morda nekoliko nerazločno govori. Branje z ustnic ni neka znanstvena fantastika, temveč je ključno orodje za razumevanje sveta v primeru takšne ali drugačne okvare sluha. Ob morebitni avtomatizaciji, bi to pomagalo milijonom ljudi po vsem svetu.

Pred kratkim je University of Oxford objavila poročilo (raziskava je bila podprta s strani Alphabetovega DeepMinda) o sistemu umetne inteligence LipNet, ki spremlja video govora osebe in preko branja z ustnic ugotavlja povedano – s 93,4-odstotno natančnostjo.

Prejšnji podoben sistem je deloval na principu “word-by-word” in je imel 79,6-odstotno natančnost. Raziskovalci na University of Oxford pravijo, da je glavna razlika med starim in novim pristopom ta, da so začeli drugače razmišljati o problemu. Namesto učenja umetne inteligence vsakega giba ustnic, pri čemer so uporabljali sistem vizualnih fonemov, so sedaj v sistem vgradili celotne stavke. To je umetni inteligenci omogočilo, da se nauči katera črka spada k še tako majhnemu premiku ustnic.

Za to, da so raziskovalci natrenirali sistem, so sistemu LipNet pokazali preko 29.000 videov s pravilnim tekstom, vsak video pa je bil dolg le tri sekunde. Za primerjavo so raziskovalci vključili človeške bralce z ustnic, ki so imeli kar 47,7-odstotno stopnjo napak, medtem ko je imel sistem zgolj 6,6-odstotno.

Kljub uspešni izvedbi projekta, je ta pokazal na nekatere pomanjkljivosti modernega raziskovanja umetne inteligence. Videi so bili močno standardizirani, vsi sodelujoči so gledali naprej, imeli mirno držo in govorili jasno in brez mašil. Vprašanje je kako bi umetna inteligenca reagirala na bolj naravno okolje in dejavnike, ki vplivajo na človeški govor v vsakdanjem življenju.

Na primer: “Place blue in m 1 soon”. To je bila ena standardnih trisekundnih fraz, ki je bila uporabljena med testiranjem sistema. Barva, predlog, črka, številka in pridevnik, vsak stavek je sledil temu vzorcu. Umetna inteligenca je bila preizkušena v nenavadnih pogojih in zato je dala tudi nenavadno natančne rezultate. Če bi LipNet bral z ustnic naključnim ljudem na naključnih YouTube videih, bi rezultati oz. natančnost sistema brez dvoma padla.

Po mnenju Jacka Clarka iz neprofitnega podjetja OpenAI, je uresničitev takšnega sistema na ravni vsakdanje rabe možna pod tremi pogoji: ogromna količina videov, kjer ljudje govorijo v povsem naravnih situacijah; izboljšanje umetne inteligence do ravni, kjer bi ta bila sposobna branja z ustnic iz različnih kotov; povečanje vrst fraz, ki jih umetna inteligenca lahko predvidi. Tovrstna tehnologija branja z ustnic bi ljudem, ki ne slišijo ali slabše slišijo pomenila ogromno, saj bi lahko bila uporabljena v nešteto situacijah. Razumevanje pogovorov, predstavljanje sveta itd.


Prijavi napako v članku

Povezave



Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

RETTRO d.o.o., vaš partner v razvoju IT-rešitev

Šlandrova 4b, 1000 Ljubljana, Tel: 031 313 312
Mikro podjetje Rettro d.o.o. je specializirano za razvoj različnih informacijskih sistemov z najnovejšimi tehnologijami po meri naročnika. Znanje in izkušnje Rettrovih strokovnjakov ... Več

HERLAH d.o.o.

Efenkova cesta 61, 3320 Velenje, Tel: 03 586 35 60
Herlah d.o.o. se ukvarja z izdelavo celovitih programskih rešitev s področja računovodstva, trgovine in proizvodnje. Več

MORDICOM d.o.o.

Šolska ulica 40, 5250 Solkan, Tel: 05 330 03 60
Skoraj nemogoče je preceniti vpliv rešitev za načrtovanje virov podjetja (ERP) v sodobnem poslovnem svetu. ERP sistemi so nadomestili nepovezane delovne tokove in nezdružljiva ... Več
Zlati partner

E-športna zveza Slovenije (EŠZS)

Zvezda 19, 1000 Ljubljana,
E-šport je v preteklem desetletju doživel izjemno rast, tako glede gledanosti, raznovrstnosti in prihodkov. Povečana gledanost, k čemer so prispevale platforme za pretakanje vsebin ... Več