Mums jāatrod sabiedrotie, lai attīstītu mazās valodas tādā pašā līmenī kā lielās, citādi tās tiks aizslaucītas interneta mēslainē, uzskata Eiropas daudzvalodu digitālajam vienotajam tirgum veltītā Rīgas samita rīkotājs Andrejs Vasiļjevs
Viss pāriet, viss. Bet nezūd it nekas, un labie darbi atmaksājas. Visi. Pagājušonedēļ Letonika.lv paspārnē atklājot plašāko latviešu oriģinālliteratūras digitālo krātuvi, kurā atrodamas skolu 5.-12.klašu programmā iekļautās 157 grāmatas, Raiņa Jāzepu un viņa brāļus citēja IT uzņēmuma Tilde vadītājs Andrejs Vasiļjevs. «Tik vien ne tev, bet citiem,» pēc krietnas pauzes noskaitītais turpinājums auditorijā izsauca smieklu vētru. Pāris nedēļas pēc 1991.gada augusta puča reģistrētajam valodu tehnoloģiju uzņēmumam, nozares senioram, kura tulkošanas rīku uzteicis arī Igaunijas prezidents Tomass Ilvess, verbāli paradoksi un metaforas ir dienišķā maize.
Tilde veidos arī virtuālo muzeju par Raiņa un Aspazijas dzīvi Kastaņolā. Šādus projektus taču laikam nevar uzskatīt par biznesu? Vai Latvijā IT uzņēmumam, kas strādā ar valodu, ir sevi jāpozicionē kultūrā?
Labi rezultāti nevar rasties, ja tos balsta tikai uz kalkulācijām. Klasiskā uzņēmumdarbība paredz radīt peļņu. No otras puses, neliels uzņēmums ir brīnišķīga iespēja darīt labas lietas, ar kurām vari dot ieguldījumu sabiedrībai. Vajag arī ielikt stingru finansiālu pamatu, lai labās lietas turpinās un attīstās, nebalstoties tikai uz dotācijām vai mecenātismu.
Ne viss, ko tu sāc darīt, veiksmīgi attīstās. Veiksmi bieži vien nevar izskaidrot. Deviņdesmito gadu vidū mums radās ideja par Latvijas vēstures datorenciklopēdiju. Jaunība, entuziasms, datoros visu var izdarīt – kāpēc nepamēģināt? Uzrakstījām pieteikumu, saņēmām nelielu Sorosa fonda līdzfinansējumu, nu, tagad taisīsim! Vēlējāmies izveidot pēc iespējas objektīvāku skatījumu, kas atspoguļo vēstures norises, bet neuzbāžas ar vērtējumu. Taču vēsturei ir tik daudz interpretāciju! Uzaicinājām vēsturnieku kolektīvu, dzirdējām diskusijas, it īpaši par 1917.-1919. gadu – kā to visu ielikt datorā? Veidojām arī attēlu galerijas, video no Latvijas Valsts kinofotofonodokumentu arhīva, tā bija viena no pirmajām reizēm, kad Latvijas vēstures kadri kļuva pieejami datorā. Viss bija tik forši, bet beigās projekts izmaksāja daudzreiz vairāk, nekā pieejamais finansējums. Labi, ka atradām iespēju darbu pabeigt, finansējot no citām mūsu iestrādēm.
Tas bija liels gandarījums, ka datorenciklopēdiju izmantoja gandrīz katrā skolā, tā jauniešus palīdzēja ieinteresēt par vēsturi. Vēlāk arī iztulkojām datorenciklopēdiju angliski, un arī ieguldījumus beigu beigās izdevās atpelnīt.
Uz Jura Podnieka piecdesmitgadi Augustam Sukutam radās ideja izveidot disku ar viņa filmu fragmentiem, aprak-stiem. Atbalstījām šo ideju. Ļoti interesanti tā dzīvot un strādāt! Ja ieguldi savu enerģiju un degsmi, viss sastājas savās vietās un veiksmīgi notiek.
Ikdienas darbs ir krietni tehniskāks?
Daudz strādājam pie latviešu valodas tehnoloģijām, bet ne tikai. Mēs tās vispirms pārbaudām latviešu valodā, vēlāk ieviešam arī lietuviešu, igauņu un arī citās valodās. Mašīntulkošana ir interesanta joma. Iemācīt datoram, kā tulkot tekstu – tur ir bezgalīgi daudz attīstības iespēju! Kaut gan šīs tehnoloģijas ne tuvu nav tik pilnīgas kā cilvēku spēja tulkot pēc teksta jēgas, taču dators var ļoti palīdzēt – īpaši, ja tie ir tehniski vai lietišķi tulkojumi. Izcilākie pētnieciskie rezultāti šajā jomā top tieši Eiropā. Arī Google Translate izmantoja Eiropas rezultātus, pārvilināja speciālistus uz Ameriku.
Arī mēs sadarbībā ar Edinburgas, Upsalas, Kopenhāgenas universitātēm esam radījuši universālu platformu, lai varētu latviešu un citām valodām veidot dažādus mašīntulkošanas risinājumus. Tie tagad daudziem noder, piemēram, Latvijas e-pārvaldes mašīntulkam, Lietuvas publiskajam mašīntulkam, arī Igaunijas tulkotājam, ko prezidents Ilvess izmēģināja atklāšanas pasākumā.
Ilvess ar jūsu mašīntulkotāju pārcēla Šekspīru. Tas ir profesionālāks nekā Google Translate, par kuru klīst anekdotes?
Anekdotes var piemeklēt jebkuram rīkam. Google ir izdarījis pārsteidzošu darbu, padarot mašīntulkošanu pieejamu tik daudzām valodām un lietotājiem. Google varēja izveidot savu tulkošanas servisu, jo viņi bija savākuši savos serveros visu tīmekļa saturu, un skatījās, kā vēl varētu izmantot šo informāciju, ne tikai meklēšanas pakalpojumam?
Jau 60.gados pētniekiem bija cerības, ka ar likumiem varēs aprakstīt tulkošanas sakarības. Ja valodnieki ar datorspeciālistiem uzrakstīs labus tulkošanas likumus, pieliks klāt vārdnīcas, tad dators ātri vien iemācīsies tulkot. Taču valoda, kādā runājam un rakstām, ir tik bagāta, ka to ar likumiem aprakstīt ir gandrīz neiespējami, izņemot pavisam vienkāršus teikumus.
Jaunākās metodes ļauj datoram pašam apgūt tulkošanas mākslu, analizējot cilvēka veiktus tulkojumus. Ja dators apstrādā milzīgu apjomu tulkojumu, tas uzkrāj gudrību – statistiskos modeļus, kas ietver sakarības, kā frāzes un teikuma konstrukcijas parasti tiek tulkotas dažādos kontekstos.
Taču mazākām valodām, piemēram, latviešu, ir pieejams daudz mazāk tulkotu tekstu nekā lielajām. Vienlaikus latviešu valoda ir bagāta ar locījumiem, un mums teikumos ir brīva vārdu kārtība. Latviešu valodā ir ap 20 miljoniem iespējamo vārdformu, angļu valodā – zem miljona. Tas datoram ir liels izaicinājums.
Tāpēc mēs apvienojam dažādas metodes, lai padarītu datoru gudrāku. Kā pateikt priekšā to, ko dators nespēj iemācīties no teksta, kā iedot papildu gudrību par latviešu valodas locījumiem un teikumu struktūru. Arī mūsu tulkotājs vēl ir tālu no pilnības, var sameklēt daudz smieklīgu piemēru. Tomēr objektīvi pētījumi rāda, ka spējam nodrošināt labāku tulkojumu nekā Google.
Interesanti procesi! Digitālā valodniecība laikam jau ir attīstījusies kā atsevišķa nozare.
Jā, tā ir datorlingvistika. Pie mums strādā lieliski datorlingvistikas speciālisti, Tildē jau ir seši zinātņu doktori. Daudz nodarbojamies ar pētniecību, piemēram, Ingunai Skadiņai pamatā ir datorizglītība, bet viņa ir ļoti laba speciāliste arī lingvistikā, pirmā Latvijā aizstāvēja doktora disertāciju par datorlingvistikas tēmu. Tatjanai Gornostajai ir filologa pamatizglītība, bet viņas doktora disertācija ir par mašīntulkošanas jautājumiem.
Jūs pats darbojaties arī Valsts valodas komisijā. Tā ir ierasta prakse arī Eiropā, ka IT firmas pārstāvis tiek uzaicināts konsultēt valsts valodas jautājumos?
Dažādās valstīs par valodas politiku atbild dažādas institūcijas. Mūsu valodas komisiju izveidoja prezidente Vaira Vīķe-Freiberga, kad pirms Latvijas uzņemšanas ES bija aktuāls valodas jautājums. Toreiz bija arī daudz populistisku diskusiju, tāpēc valodas komisija tika izveidota, lai sniegtu priekšlikumus, kas praktiski ir darāms valodas kopšanā, lai nodrošinātu valodas ilgtspēju, nevis izmantotu valodu politiķu savstarpējās cīņās un cīņā par vēlētājiem.
Mēs esam speciālistu grupa bez lēmējvaras, varam tikai sniegt padomus prezidentam. Tie ir saistīti arī ar valodas attīstību digitālajā vidē. Tā ir jauna telpa, kurā valodai jābūt pārstāvētai. Tāpat kā gribam, lai latviešu valoda skan visapkārt, darbā, iepērkoties, saziņā ar valsts iestādēm, tas pats jānodrošina arī digitālajā vidē, kur tagad ar valodu dažkārt saskaramies pat vairāk nekā fiziskajā telpā.
Kāds ir lielākais izaicinājums?
Tehnoloģiski panākt lielās valodas. Jāatrod gudrākas metodes, kā ar mazākiem resursiem varam uztaisīt labākus risinājumus. Jāveicina arī vēlme lietot latviešu valodu dažādās vidēs.
Lasīšanas paradumi mainās. Digitālais teksts pretstatā drukātajam aizņem aizvien lielāku proporciju. Digitālajā vidē ir cits lasīšanas veids. Lielākā daļa cilvēku nevis secīgi lasa, bet skenē informāciju, ar acīm pārskrien pāri, fokusējoties uz dažiem atslēgas teikumiem. Tā ir digitālā realitāte, kuru nevar ignorēt.
Digitālā vide ir uz palikšanu, tā attīstīsies arvien vairāk, ir jāsaprot, kā to pēc iespējas labāk izmantot, lai veicinātu attīstību un novērstu negatīvos efektus. Mūsu misija ir attīstīt valodas rīkus, it īpaši latviešu valodai, un sniegt vērtīgu latvisku saturu digitālajā vidē.
Valodas rīki – ko ar to saprast?
Piemēram, pareizrakstības rīki – tā sarkanā svītriņa, kas pasvītro nepareizu vārdu. Tā nav radusies pati no sevis, to esam izstrādājuši gadu gaitā. Pareizrakstības pārbaudes rīki pārbauda gan atsevišķus vārdus, gan analizē teikumus un ar zilu svītriņu pasvītro sintakses kļūdas.
Attīstoties mobilajiem tālruņiem, datorizētajām brillēm un citām iekārtām, arvien lielāku lomu iegūst balss tehnoloģijas. Uz mazām iekārtām rakstīt nav ērti. Lielajām valodām, piemēram, angļu, attīstās balss tehnoloģijas, arī mēs pie tā tagad strādājam. Jums noderētu, ja šo interviju dators varētu automātiski pārvērst tekstā.
Ap 2000.gadu par rīku, kas diktofona ierakstu pārvērš datora tekstā, stāstīja vēstniece Sandra Kalniete, kura tobrīd Parīzē savai Sibīrijas grāmatai šifrēja vecāku atmiņas. Franču valodā tāda iekārta bija, par latviešu versiju aptaujātie IT cilvēki teica: «Nekad, pārāk mazs tirgus.»
Jā, mazā tirgū ir grūti atrast investīcijas. Un valodas specifika – balss pārveide tekstā, runas atpazīšana ir fantastiski sarežģīts uzdevums. Ja analizē audiosignālu, ir jābrīnās, kā mūsu auss un smadzenes spēj šo skaņu jūkli atšifrēt. Šo jomu pētām IT kompetences centra ietvaros. Esam vairākus gadus pie tā strādājuši, tūlīt laidīsim klajā pirmo eksperimentālo prototipu, kur katrs varēs pamēģināt, cik labi dators saprot viņa balsi. To varēs izmantot arī kā video subtitrēšanas rīku. Tas ir pirmais prototips, atpazīšanas kvalitāte ir virs 80%, kas varbūt izklausās labi. Bet 20% kļūdu nozīmē, ka katrs piektais vārds var būt nepareizs. Tāpēc mēs neapstāsimies – ņemot vērā lietotāju atsauksmes, turpināsim pilnveidošanu.
Tildes Visvaris, kas spēj balsī nolasīt datortekstu, jau labu laiku ir plašākā lietojumā. Gandarījums, ka tas daudziem cilvēkiem ar redzes ierobežojumiem paver iespēju izmantot datortehnoloģijas, strādāt ar latviskiem tekstiem.
Ļoti aizraujoša lieta ir tā sauktie «virtuālie aģenti» jeb runājošās galvas. Mums ir divi «kolēģi», Laura un Ēriks, Laura zina angļu valodu, Ēriks – latviešu. Eksperimentālās lietotnes, kas AppStore pieejamas ikvienam. («Hi Laura, what is the distance from Paris to Munich?» Andrejs ierunā savā tālrunī. «842 kilometers,» atbild Laura.)
Tagad strādājam pie latviešu valodas tehnoloģijām, lai virtuālie tēli mācētu runāt arī latviski.
Vai digitālajām tehnoloģijām attīstīties palīdz ES finansējums?
Ir izveidojusies ačgārnība: 90.gados Eiropas Komisija daudz investēja, radot labas tehnoloģijas lielajām Eiropas valodām. Tad viņiem likās, ka ir jau sasniegts tāds līmenis, ka īpašs atbalsts nav vairs nepieciešams. Tas notika 2004.gadā, kad ES pievienojās virkne jaunu valstu, arī Latvija. Valodu tehnoloģiju atbalsts turpinājās mazākā apjomā, un ar to bija jānosedz vairāk valodu. Tagad ir izšķirošs moments. Jaunais EK sastāvs gatavo digitālā vienotā tirgus stratēģiju. Kādas būs prioritātes? Dažādas jomas un vajadzības konkurē savā starpā. Mūsu nozares pārstāvji uzskata, ka daudzvalodībai jākļūst par Eiropas prioritāti. Ka nevar, no vienas puses, deklarēt – ES ir 24 oficiālās valodas, bet no otras – gan jau saziņā iztiksim ar angļu un franču.
Tikai 38% eiropiešu pārvalda angļu valodu sarunvalodas līmenī. Tagad daudz tiek runāts, ka vajag attīstīt mazos un vidējos uzņēmumus, e-komerciju. Internetā ikviens var izveidot savu mājaslapu. Taču šāda mājaslapa 24 valodās ir dārga, mazs uzņēmums to nevar atļauties. Taisot tikai angļu valodā, tiek nogriezta pieeja lielam potenciālo interesentu skaitam. Turklāt, ja kādu izstrādājumu internetā meklēs spānis, meklētājs to neatradīs, ja apraksts būs angliski vai latviski.
Tādi uzņēmumi kā mēs ir izveidojuši risinājumus, «puzles gabaliņus», kurus saliekot kopā, var izveidot lielisku sistēmu visai Eiropai. Tad jebkurš varētu viegli pieslēgties šai sistēmai un piedāvāt savu mājaslapu 24 valodās.
Jā, tā varbūt nebūs perfekta, bet ļaus, piemēram, itālim, spānim vai ungāram uzzināt par tavu uzņēmumu. Pavērs iespēju uzņēmumiem vieglāk iziet ārpus valsts robežām, veicinās ekonomisko attīstību. Tāpēc arī Rīgā šonedēļ tiek rīkots Eiropas daudzvalodu digitālajam vienotajam tirgum veltīts samits. Tajā pulcējas speciālisti, pētnieki un politiķi no visas Eiropas. Tā iegūstam sabiedrotos, lai dabūtu kritisko resursu un zināšanu apjomu, kas ļaus attīstīt mazās valodas tādā pašā līmenī kā lielās.
Pirms mēneša kopā ar ārvalstu kolēģiem rakstījāt atklātu vēstuli EK, ka 24 oficiālās valodas sadrumstalo Eiropas tirgu un neveicina Eiropas potenciālu – tātad tas īstenībā bija mērķēts uz nepieciešamību mašīntulkot?
Mēs kopā ar 3500 vēstules parakstītāju esam pārliecināti, ka tehnoloģijas jau šodien ļauj mazināt valodu barjeras, bet nākotnē tās ļaus nodrošināt īstu daudzvalodību. Tas bija fenomenāli, kāds milzīgs atbalsts bija šai vēstulei – katru dienu simtiem jaunu parakstītāju no visām Eiropas valstīm un arī ārpus Eiropas. Sapratām, cik daudziem ir svarīgs šis valodu jautājums, daudzi līdz šim par to nebija aizdomājušies. Valodas vide mums liekas kā gaiss, ko elpojam. Bet digitālajā pasaulē valoda pati no sevis neveidojas, tā ir jāattīsta un jākopj.
Ja mazām, sarežģītām valodām digitālajā pasaulē ir liels kļūdas procents, vai tomēr nav arī ievērojama opozīcija, kaut vai no konservatīvo valodnieku puses: šādi ar valodu nevar manipulēt.
Nē, valodnieki pārsvarā ir atbalstoši, arvien vairāk attīstās starpnozaru sadarbība. Dažreiz gan gadās, ka kāds saka dīvaini: «Jūsu pareizrakstības pārbaude izlaiž cilvēkus, viņi nevēlas mācīties gramatiku, jo uzticas datoram.» Tādā veidā varam teikt, ka, braucot ar mašīnu, cilvēki aizmirst, kā jāiet kājām. Tehnoloģijas un zināšanas viena otru neizslēdz, bet papildina.
Pat labākie tulki cilvēki nav perfekti. Kaut kad pienāks nākamais lielais tehnoloģiju lēciens. Tad dators sāks saprast teksta jēgu, tulkot pēc būtības.
Kas lika jums nākt klajā ar apgalvojumu, ka 21 ES valoda, arī latviešu, atrodas uz digitālās izzušanas robežas?
Speciālisti runā par tā saukto otro Gūtenberga efektu. Viņa izgudrotā drukāšanas iekārta ļāva cilvēkiem jaunā veidā izplatīt informāciju. Tās valodas, kurām bija iespieddarbi, attīstījās. Bet citas, kuras drukātajā vidē neparādījās, izzuda.
Arī tagad tām valodām, kuras digitālajā vidē netiks pilnvērtīgi izmantotas, lietojums arvien samazināsies. Arī daudzām nelielām valodām jau pieejamas dažādas tehnoloģijas. Risks veidojas no tā, ka lielajām valodām šīs tehnoloģijas ir daudz labākas. Jo tālāk kāds ir izrāvies uz priekšu, jo grūtāk viņu panākt.
Ja mazajām valodām neiedosim digitālo paātrinājumu, tad lielās vairs nenoķersim.
Kā to var iedot?
Pēc būtības noticot tam, ka mums Latvijā latviešu valoda ir vērtība. Man tomēr nav sajūtas, ka Eiropas lēmumu pieņēmēji tic patiesai daudzvalodībai. Tas deklaratīvi ir nostiprināts dokumentos, bet dzīvē neīstenojas. Nevar jau arī sagaidīt, ka vācieši, franči vai angļi uztrauksies par mazajām valodām, tas ir jādara mums pašiem. Taču, ja mēs vieni paši uztrauksimies, šī balss būs par klusu. Ir jāveido sabiedroto kopa ar citām valstīm, lai kopīgo balsi nevarētu ignorēt. Mēs taču esam līdzdalībnieki Eiropas veidošanā.
5 Latvijas IT personības
Prof. Jānis Bārzdiņš. Viens no Latvijas datorzinātnes patriarhiem un pasaules mēroga autoritāte, kuru uztveru kā viedu un labestīgu datorzinātnes Balto tēvu.
Prof. Juris Borzovs. Analītisks prāts, sistēmiska pieeja un plašs pārnozaru skatījums apvienojumā ar izcilām organizatora un oratora spējām. Izveidojis asociāciju LIKTA, LU Datorikas fakultāti, rosinājis terminu datubāzes izveidi.
Dr. Ilze Ilziņa. Latvijas pirmā programmētāja, kas ar savu dzirkstošo optimismu aizrāvusi vairākas programmētāju paaudzes. Ilgus gadus rūpējas par latviskas IT terminoloģijas radīšanu.
Dr. Andrejs Spektors. Latviešu datorlingvistikas nenogurstošs attīstītājs, kurš šai jomai piesaistījis daudzus jaunos pētniekus.
Uldis Dzenis. Bez Ulda nebūtu Tildes, kuru kopā radījām un veidojam nu jau 23 gadus. Uzticams un drošs balsts visos priekos un bēdās.
CV
Dzimis 1967.gadā Rīgā
LU ieguvis datorzinātņu doktora grādu
1991.gadā līdzdibinājis programmatūras uzņēmumu Tilde, no 2006.gada ir tā valdes priekšsēdētājs
UNESCO starpvaldību padomes Informācija visiem biroja loceklis (2010-2014), Valsts valodas komisijas un vairāku Eiropas valodas asociāciju valdes loceklis