Vislielākais burtu izmērs
Lielāks burtu izmērs
Burtu standarta izmērs
No kreisās: Artūrs Znotiņš, Normunds Grūzītis, Ilze Auziņa. Foto: Toms Grīnbergs, LU Preses centrs
No kreisās: Artūrs Znotiņš, Normunds Grūzītis, Ilze Auziņa. Foto: Toms Grīnbergs, LU Preses centrs

PĒTĪJUMS: Runas atpazīšana datoram grūtības vairs nesagādā!
Andra Čudare, Alma Mater
14.12.2015

Pavisam drīz audio failu atšifrēšanu teksta formātā varēsim uzticēt datoram, jo Latvijas Universitātes Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā, cieši sadarbojoties filologiem un datoriķiem, top runas atpazīšanas sistēmas pirmie prototipi.

Arī šī saruna daļēji atšifrēta, izmantojot sistēmu, kuras izstrādē piedalās gan sarunas dalībnieki — Mākslīgā intelekta laboratorijas vadītājs, vadošais pētnieks Normunds Grūzītis, filoloģijas doktore, vadošā pētniece Ilze Auziņa un datorzinātņu maģistrants,  zinātniskais asistents Artūrs Znotiņš, gan citi laboratorijas darbinieki — vadošais pētnieks Guntis Bārzdiņš, pētniece Daira Vēvere, zinātniskais asistents Roberts Darģis un zinātniskā asistente Guna Rābante Buša.

Kas tad īsti notiek aiz Mākslīgā intelekta laboratorijas durvīm?

Normunds Grūzītis: Kopš laboratorijas pirmsākumiem 1992. gadā mūsu galvenais pētniecības virziens ir  dabiskās valodas automatizēta apstrāde. Attīstām latviešu valodas gramatiskās un semantiskās analīzes rīkus, valodu aprakstot gan ar likumiem un matemātiskās loģikas formulām, gan ar statistiskiem modeļiem, gan ar mākslīgiem neironu tīkliem. Pēdējos trīs gadus strādājam pie runas automātiskas atpazīšanas sistēmas izveides, jo ir daudz informācijas video un audio formātā, bet no audio jāiegūst rakstīts teksts, lai varētu ar to strādāt tālāk.

Kā darbojas runas atpazīšanas sistēma?

N.G: No lietotāja viedokļa process ir ļoti vienkāršs – ielādējam audio failu un sistēma to atšifrē, sniedzot mums tekstu elektroniskā formā. Turklāt teksts ir saistīts ar audio failu – noteiktam audio faila fragmentam ir piekārtots teksts.

Artūrs Znotiņš: Pati sistēma gan ir sarežģīta. Pirmā daļa ir akustiskais modelis, kas pasaka, kāda ir varbūtība, ka noteiktā laikā tiek izrunāta fonēma, kas atbilst konkrētam burtam, kā arī vārdnīca, no kuras tiek piemeklēti vārdi. Taču fonēmu noteikšana ir ārkārtīgi daudznozīmīga, ģenerējot daudzus iespējamos variantus, tādēļ otrā daļa ir valodas modelis, kas pasaka, kāda ir varbūtība tam vai citam variantam, ja zināms, kādi ir bijuši iepriekšējie vārdi. Rezultātā mēs no audio signāla iegūstam varbūtiskāko vārdu secību, ko sistēma saklausījusi audio signālā.

Tā kā šāda sistēma jau ir izstrādāta lielākajām valodām, varam izmantot tās pamatus un atvērtā koda rīkus, nav jāsāk no nulles. Bet vienalga ir ko pacīnīties, jo latviešu valodai ir savas nianses.

Kur šo sistēmu varēs izmantot?

N.G.: Piemēram, mediju monitoringā, jo šobrīd latviešu valodā tas ir manuāls darbs – klausīties ziņas un raidījumus, pamanīt un izrakstīt atslēgvārdus, atšifrēt kontekstu. Tāpat arī šo mūsu sarunu kādam vajadzēs atšifrēt. Varēsim to automatizēt – augšupielādēt audio failu un sistēma sarunu automātiski transkribēs, sadalot, kurā brīdī runāju es, kurā Artūrs vai Ilze

Ilze Auziņa: Pasaulē ir valodu tehnoloģiju uzņēmumi, kas nodarbojas ar runas atpazīšanas sistēmu izveidi, specializējoties, piemēram, medicīnas nozarē. Tā rentgenologs, analizējot rentgena uzņēmumu, uzreiz iegūst pierakstītu tekstu. Jāpielāgo valodas modelis, lai sistēma atpazītu medicīnas terminus un specifisko vārdu secību. Runas atpazīšanas sistēma būtu pielāgojama daudziem interesentiem – gan žurnālistiem, gan sociologiem, gan valsts pārvaldes darbiniekiem. Šobrīd, piemēram, Saeimas un tiesu sēžu ierakstu atšifrēšana notiek  manuāli, arī te mēs varam piedāvāt automatizētu darba vidi. Varam pielāgot sistēmu praktiski jebkurai nozarei. Pirmais prototips būs gatavs 2016. gada janvārī.

N.G.: Paralēli pēdējos gados strādājam pie semantiskas informācijas izguves sistēmas, kas spēj lasīt un saprast apjomīgus tekstu krājumus, piemēram, ziņu arhīvus, apkopojot strukturētu informāciju. Satura gramatiska un semantiska analīze arvien vairāk kļūs atkarīga no runas atpazīšanas sistēmām, jo vispirms runa jāpārvērš tekstā.

Kas bija pirmais solis runas atpazīšanas sistēmas izveidē?

I. A.: Valodnieka galvenais uzdevums bija datu sagatavošana, valodas korpusa izstrāde. Audio ierakstus vispirms pārveidojām mašīnlasāmā formā, ortogrāfiskajā transkripcijā, atbilstoši latviešu valodas pareizrakstības normām, bet neliekot komatus un ar lielajiem sākumburtiem atzīmējot tikai īpašvārdus. Tika pievienota papildu informāciju par to, kur ir pauze, ieelpa, izelpa, aizpildītās pauzes ar “ēēē”. Kad bija šāda datu kopa, datoriķi ķērās pie analīzes. Līdz 2013. gada beigām atšifrējām simts stundas audio failu.

N.G.: Sākumā cilvēks parāda, kā ir pareizi, sagatavojot daudz treniņpiemēru, un tad, izmantojot šos piemērus, mēs apmācām sistēmu, lai tā spētu atpazīt runu ar potenciāli tādu pašu precizitāti kā cilvēks.

Kādus tekstus izmantojāt valodas korpusa izveidei?

I.A.: Sākotnēji atšifrējām radio un televīzijā izskanējušus raidījumus. Šogad vairāk strādājām pie diktofonos ierakstītām intervijām, arī telefona sarunu ierakstiem. No simts stundu korpusa mazu kopu, aptuveni četru stundu audio ierakstus, kas jau bija ortogrāfiski transkribēti, marķējām fonētiski – katram vārdam noteicām kādas skaņas to veido. Piemēram, vārdu “labs” atšifrējām kā [l a p s], parādot fonētiskās pārmaiņas. Tas bija sarežģīts darbs, tāpēc arī transkribējām vien četras stundas.

Tā kā nelietojam pieturzīmes, izteikumus sadalām, vadoties pēc intonācijas un pauzēm. Īpaši marķējām, piemēram, smieklus, čukstus, tekstu, kas pateikts smejoties vai dziedot. Atzīmējām arī fizioloģiskos trokšņus, piemēram, žāvāšanos, klepošanu. Atkarībā no audio ieraksta kvalitātes, atšifrēšana ir ātrāka vai lēnāka. Šogad strādājam ar trokšņainiem tekstiem.

Pirmās runas atpazīšanas sistēmas tika izstrādātas jau pagājušajā gadā. Tādēļ šogad, papildu runas korpusu veidojot, varējām jau automātiski no audio iegūt tekstu un tad to rediģēt, piemēram, labot galotnes, nepareizi „saklausītus” vārdus. Bieži vien nevaram vainot runas atpazinēju, ka tas no diviem vārdiem izveido vienu, jo tos var saklausīt arī tā. Arī manuāli transkribējot audio failu, cilvēks kaut ko var palaist garām, un arī atpazinējs kļūdās.

Tātad, ja audio ierunājis cilvēks, piemēram, ar spēcīgu akcentu, arī tas apgrūtina sistēmas darbību?

N.G.: Ja ir jātranskribē materiāls, kuru ierunājis diktors labi nostādītā balsī, gan cilvēks, gan automātiskā sistēma atšifrēs to labā kvalitātē. Ja jāšifrē telefona sarunas ieraksts, kur fonā brauc automašīna, gan cilvēkam jāspicē ausis, gan runas atpazinējs kļūdīsies.

Vai iespējams atpazīt arī dziesmu tekstus?

A.Z.: Tas būtu visai sarežģīti: pirmā problēma būtu atdalīt tekstu no mūzikas, otrā – vārdi tiek pastiepti un mēdz pārklāties – būtu nepieciešami specifiski akustiskie modeļi. Izdarāms ir daudz kas, jautājums, vai atmaksājas. 

Vai veidot šādu sistēmu tik maz lietotai valodai  ilgtermiņā atmaksājas?

A.Z.: Mūsu jomā daudzas metodes ir valodneatkarīgas: sistēmas apmācībai jāsagatavo latviešu, vācu vai ķīniešu valodas korpuss, bet tālāk ņemam universālu metodi, kas darbojas visām valodām. Nav viss no nulles jātaisa pašiem. Lai gan Latvija ir maza, pielietojums sistēmai būs un interese ir liela.

N.G.:  Mūsu mērķauditorija nav tikai Latvija un tie, kas strādā ar latviešu valodu. Mūsdienās arvien vairāk tiek būvētas multilingvālas sistēmas, kas strādā pāri vienas valodas robežām. Piemēram, mediju monitoringa sistēma varētu apkopot informāciju no avotiem dažādās valodās, vienlaikus lietotājam rezultātus atspoguļojot vienā, izvēlētā valodā.

Kas jādara, lai latviešu valoda izdzīvotu globālajā tīmeklī?

N.G.: Latviešu valodai nemitīgi jāattīsta tehnoloģiju atbalsts, citādi pamazām pārslēgsimies uz lielajām valodām, piemēram, angļu valodu, kurai tehnoloģiskais atbalsts ir vairāk integrēts dažādās lietotnēs u.tml.. Sistēmām jābūt pietiekami elastīgām un jāspēj saprast valodas nemitīgās pārmaiņas. Jāspēj apstrādāt arī lietotāju radītais tiešsaistes saturs, kurš neatbilst latviešu valodas likumiem.

Kādas ir lielākās grūtības veidojot šādus projektus?

N.G.: Valodas daudznozīmība visos līmeņos – fonētiski, morfoloģiski, semantiski, sintaktiski.

A.Z.: Runas atpazīšana ir specifiska joma, institūtā sāku strādāt apmēram pirms diviem gadiem un kamēr apradu ar  terminoloģiju, rīkiem, metodēm, pagāja ilgs laiks. Bija jāveic ļoti daudz eksperimentu, ņemot vērā, ka latviešu valodai ir savas nianses.

I.A.: Latviešu valodai raksturīgas reducētās skaņas vārda beigās, piemēram, īsais patskanis “a” bieži vien ne tikai samazinās līdz minimumam, bet saistītā runā vispār zūd. Šīs parādības atspoguļošana fonētiskajā transkripcijā bija tiešām grūta.

A.Z: Saistībā ar mediju monitoringu, saskārāmies ar to, ka ir daudz vārdu, kuru nav vārdnīcās. Tie var nebūt arī tekstos, kurus izmantojam valodas modeļa trenēšanai un sistēma tos neatpazīs.

Cik lielu daļu ieraksta sistēma atšifrē precīzi?

A.Z.: Kvalitatīviem ierakstiem apmēram 70%. Ja ir daudz runātāju, fona trokšņu, tad 50-60%.  Viss atkarīgs no audio kvalitātes. Sistēma var pārprast vārdus, saklausot pavisam ko citu, vai arī tikai noteikt nepareizi vārdu galotnes – locījumus.

Cik liela ir sistēmas apgūto vārdu kopa?

A.Z.: Vairāk nekā 200 000 vārdformu tieši locījumu dēļ. 

Sistēmu var nemitīgi pilnveidot, tā nekad līdz galam nebūs gatava?

N.G.: Vispārīgā gadījumā noteikti nesasniegsim 100% atšifrēšanas precizitāti, bet diktētos ziņu tekstos šobrīd sasniedzam pat vairāk nekā 90% precizitāti. Lai gan tehniski projekts šogad beidzas, runas atpazīšanas sistēmas turpināsim attīstīt.

Papildu informācija:

Runas atpazīšanas sistēma tiek veidota, izmantojot zināšanas un iestrādes, kas iegūtas IT kompetences centra ERAF līdzfinansētā projekta „Informācijas un komunikāciju tehnoloģiju kompetences centrs” (finansēšanas līgums L-KC-11-0003) pētījumu laikā, sadarbojoties LU MII pētniekiem, nacionālajai ziņu aģentūrai LETA un sabiedrībai Tilde.

Teksta semantiskajai analīzei ir izveidota programma ERAF projekta „Pētījums par publicistikā pieminēto entītiju savstarpējo saišu identificēšanu, tām atbilstošo grafu strukturēšanu un datu bāzu vaicājumu attēlošanu grafu veidā” (2DP/2.1.1.1.0/13/APIA/VIAA/014) laikā, sadarbojoties LU MII un LETA.

Par publikāciju ciklu „Pētījums”

Latvijas Universitāte ir lielākā augstākās izglītības iestāde Latvijā, un tajā ir koncentrēts mūsu valsts vadošais studiju un pētniecības potenciāls dabas, humanitārajās un sociālajās zinātnēs. Turklāt ikviens Universitātes pētnieka atklājums, sasniegums un veikums zinātnes lauciņā virza Alma Mater pretī mērķim – kļūt par starptautiski atzītu Eiropas un pasaules nozīmes zinātnes universitāti. Lai gūtu priekšstatu par to, ko dara un sasnieguši pētnieki Universitātes fakultātēs un institūtos, 2012. gada nogalē uzsākts publikāciju cikls „Pētījums”. 

Latvijas Universitātes zinātniskais potenciāls dod ieguldījumu Latvijas tautsaimniecībā un sabiedrības ilgtspējīgā attīstībā!