Centrālā statistikas pārvalde šoruden atzīmēja savu simtgadi. No statistikas viedokļa raugoties, Latvijai šie 100 gadi ir daudz. Ja atskatāmies vēsturē, tad statistikas rēķināšana Latvijā sākās pirms industriālās revolūcijas jeb apmēram 200 gadiem. Agrāk rēķināts tika uz papīra, tad ar skaitīkļiem un vēlāk jau ar pirmajiem kalkulatoriem. Sākotnēji uzskaitīja pašu elementārāko – iedzīvotājus. Jau no Bībeles atceramies, ka Jaunā Derība sākās ar tautas skaitīšanu, un tas bija viens no statistikas pamata rādītājiem.
Statistikas aprēķina būtība ir tāda, ka tiek iegūti oficiāli svarīgi valsts līmeņa rādītāji, kas kalpo kā noteikta atskaites sistēma. Pēc Otrā pasaules kara sākās jauna ēra – ja pirms tam uzskaitīja iedzīvotāju vidējo bērnu skaitu ģimenē, tad vēlāk parādījās arī tāds rādītājs kā vidējais iepirkumu grozs. 70. – 80. gados Latvijas vidējā iepirkumu groza uzskaitē parādās fotoaparāts vai videomagnetofons, kas mūsdienās jau liktos bezjēdzīgi.
Šobrīd dažādu datu iegūšana un apstrāde aizņem pietiekami daudz laika, taču mūsdienu tehnoloģijas nodrošina to, ka parādās arī tā saucamie atvērtie dati (open data). Atvērto datu princips nodrošina, ka uzkrātie dati nonāk valsts pārvaldes un pašvaldību rīcībā un var kalpot par vienu no analītiskajiem rādītājiem, piemēram, veicot reģionālo reformu, budžeta plānošanā, izmantojot statistisko datus par iedzīvotājiem novados. Šiem datiem ir plašs pielietojums.
Parasti datu analīzē mēs koncentrējamies ne tik daudz uz pieejamo datu daudzumu, bet konkrētu lietu, ko gribam saprast, izpētīt, izskaidrot vai uzzināt. Tad meklējam, ar kādiem datiem to varam izdarīt.
Uz jautājumu kāpēc? atbild cilvēka interpretācija nevis dati
Patlaban atrodamies situācijā, kad datu ir vairāk nekā pats pielietošanas pieprasījums. Ne vienmēr pieejamie dati atbild uz jautājumu kāpēc?. Uz šo jautājumu atbild cilvēka interpretācija. Dati atbild uz pārējiem jautājumiem: cik daudz?, kas?, kur?. Apstrādājot šādu informāciju, eksperts var saprast pārējās datu analīzes kopsakarības. Tas, ko vēl daudzi neizprot – kāpēc nevaram vēl vairāk izmantot mākslīgo intelektu dažādu datu analīzē. (Es gan vairāk izmantoju terminu mašīnmācīšanās.)
Mūsdienu izpratnē mākslīgais intelekts aptver informāciju, kā dators saprot cilvēku, kā atpazīst attēlus, runu, kā to sintezē un tulko, taču apjomīgu datu apstrāde vairāk saistās ar mašīnmācīšanos. Esam vēl tālu līdz tam, lai visus datus saliktu vienā datnē un iegūtu konkrētu rādītāju viena cipara izteiksmē. Ir svarīgi definēt mērķus, ko zinātnieki sauc par hipotēzēm. Ar definētu mērķi darba rezultāts vienmēr sasniedz augstāku pievienoto vērtību. Ja man būtu terabaits datu, kuros jāatrod noteikta informācija, varētu to veikt, zinot konkrētu mērķi.
Nākamās simtgades izaicinājums – datu apstrādē integrēt cēloņsakarību meklēšanu
Cēloņsakarības ir atsevišķa disciplīna statistikā. Tas ir veids, ko datori vēl nespēj atrast un identificēt, veids kā domā cilvēki, jo mēs visu pasauli redzam cēloņsakarībās. Mēs arī mācāmies cēloņsakarībās, piemēram, dators mācās korelāciju, bet, lai korelācijas konstatētu, vajag daudz dažādu datu. Piemēram, lai dators atpazītu kaķa attēlu, datoram nepieciešami apmēram 10 000 kaķa attēlu pirmajiem algoritmiem, bērnam atliek vienu reizi parādīt kaķa attēlu, un viņš to turpmāk atpazīs.
Ekspertiem joprojām ir izaicinājums visā pasaulē strādāt pie tā, lai dators visu apgūtu tikpat ātri kā cilvēks. Cēloņsakarības meklē gan cilvēks, gan dators, bet abi to dara dažādi. Piemēram, ja salīdzina darbības: gailis iedziedas, un saule lec, vai otrādi – saule lec, un gailis iedziedas. Datorizētai iekārtai šīs darbības šķitīs vienādas vienalga kādā secībā, taču tikai cilvēks pateiks, ka uzaustošā saule ir iemesls gaiļa rīta dziesmai.
Cēloņsakarība ir tikai daļa no statistikas, ne vienmēr matemātiskiem aprēķiniem ir nepieciešamas cēloņsakarības. Statistikai pietiek, ja uzrāda, ka pārskata periodā bija 100 jaundzimušie un 100 mirušie, tā ir tīrā statistika. Ja gribam saprast, kas jāizdara, lai cilvēki dzīvotu ilgāk, ir jāmeklē cēloņsakarības. Piemēram, saņemot dzimstības un mirstības rādījumu datus, Labklājības ministrijas uzdevums ir izdomāt, kā uzlabot dzimstības rādītāju.
Statiska dod mums absolūtus skaitļus, bet nevērtē tos. Ar laiku arvien biežāk vajadzēs veidot sarežģītākus rādītājus, kur būs nepieciešamas cēloņsakarības. Statistikā varētu ienākt jaunā tipa dati – no telefoniem, mūsu atrašanās vietas dati, izplānotie maršruti utt. No tā varētu veidot statistiskus datus par ielu noslodzi, aprēķināt sastrēgumu vietas, vai izmantot šādu informāciju pilsētplānošanas vides jautājumos. Pieļauju, ka nākotnē būs pieejami arī acu zīlīšu nolasīšanas vai smadzeņu aktivitāšu dati. Datus visvairāk interpretē cilvēki, gudrās mašīnas datus izmanto, lai varētu veikt dažādas ātras prognozes.
Jaunu tehnoloģiju pielietojumā vajadzēs plašākas zināšanas
Ir pamatdati, un ir dažādas algoritmiskas programmas, kuras var izmantot kā gatavas. Lūkojoties nākotnē, valsts sektorā ir daudz klientu un daudz datu, tāpēc vajadzība pēc standartizācijas un automatizācijas, kā arī mašīnmācīšanās valsts sektorā būs normāla, obligāta lieta. Valsts sektora speciālisti varēs vairāk nodarboties ar intelektuāliem uzdevumiem, nevis ar grūtībām risināt valstiskus labklājības jautājumus caur ikdienas rutīnas darbiem. Šobrīd, lai nokārtotu darbnespējas lapu, jāveic veselu virkni procesuālu darbību, taču nākotnē šos jautājumus varētu sakārtot automatizēti.
Piemēram, Tiesu administrācija varētu prognozēt lietu izskatīšanas ilgumu ar speciālas programmas palīdzību, izskaitļojot laiku un izmaksas personas iesūdzēšanai tiesā. Pēc šiem algoritmiem prasītājs varētu vēlreiz pārdomāt lēmumu par prasības iesniegšanu tiesā, tādejādi lieki nenoslogojot tiesu sistēmu.
Mašīna spēj datus apstrādāt vienas asociācijas jeb korelācijas līmenī. Korelācijā pieaugot vienam rādītājam, samazinās otrs. Ekonomikā Filipa līkne attēlo bezdarbu un inflāciju, ja bezdarbs pieaug, samazinās inflācija un otrādi. Mašīnas šo korelāciju var atrast daudz ātrāk un sarežģītākās situācijās.
Lielie programmatūras ražotāji strādā pie sistēmizveides, lai, apkopojot uzņēmuma mērķus un datus, darbiniekam no rīta pieslēdzoties sistēmai, parādītos trīs optimālākie uzdevumi, ko dienas gaitā paveikt. Tiesa gan cilvēks var izjust frustrāciju, zinot, ka viņa darbs tiek novērots un kontrolēts.
Efektīva atskaite maina cilvēka uzvedību
Kvalitatīvu datu radīšana ir liels izaicinājums visā pasaulē ne tikai Latvijā. No milzīgā un pieejamā datu apjoma atskaiti varam uztaisīt no jeb kā. Tas notiek viegli, ievietojam datus programmā un iegūstam tabulu vai grafiku. Piemēram, Rietumos daudz tiek pētīts, kā celt produktivitāti darbā. Kvalitatīva atskaite ir nevis gatava gala tabula, bet piemērs kā vienā atskaitē var ievietot finanšu un nefinanšu informāciju. No uzņēmuma viedokļa raugoties, budžeta izlietojums ir finanšu informācija, lai varētu veikt turpmākos secinājumus, savukārt nefinanšu dati ir cilvēka labsajūtas, apmācības vai motivācijas informācija. Te var meklēt korelāciju starp ieguldījumu pašattīstībā un uzņēmuma ieņēmuma peļņas palielināšanos.
Vēl viena lieta, ko mākslīgais intelekts šobrīd risina – kā transformēt datus dažādos griezumos no pamatgriezuma datiem. Ar šādu algoritmu palīdzību cilvēkam vajadzētu ievākt un apstrādāt daudz mazāk datu, jo to paveiktu viedās tehnoloģijas. Piemēram, ar Microsoft Power BI programmas palīdzību var ierunāt meklējamos datus, un programma tos atlasa konkrētā informācijas laukā.
Varu prognozēt, ka 20 gadu griezumā uzvilksim virtuālās brilles un ar balsi un acīm varēsim pētīt datus. Šī izpēte būs vizuāla, tā nebūs tabula. Jau tagad ir tehnoloģijas, kas vēro, kur acu zīlīte skatās datorā, tas ļauj tehnoloģijai saprast, kas tiek meklēts, un piedāvāt attiecīgus attēlus vai informāciju. Līdzvērtīgi arī darbojas Google reklāmas bannera vieta, jo noteiktās interneta vietnēs tā filtrē mums vajadzīgo informāciju.
Jauni tehnoloģiskie izaicinājumi datu apstrādē vēl tikai priekšā
Neraugoties uz viedo tehnoloģiju attīstības bumu, arī pēc 100 gadiem pastāvēs iestāde, kuras loma būs uzņemties oficiālu atbildību par publicētajiem statistikas datiem. Nosakot iedzīvotāju skaitu konkrētā gadā, ir jābūt kādam atskaites punktam, kādam, kas zem šīs informācijas parakstās un uzņemas atbildību.
Nākotnē datu apjoma kontekstā būs jādomā, ka tehnoloģijas nevis aizvietos darbiniekus, bet sarežģītas datu apstrādes operācijas, lai darbinieki jaunajiem datiem varētu radīt citu pievienoto vērtību. Nepaļausimies tam, ka mākslīgais intelekts tūlīt visu izdomās mūsu vietā. Viedā mašīna pati neizdomās, ko vēl varētu izmērīt, kādu mērķi uzstādīt, tas ir cilvēka uzdevums.
Ne visus lēmumus var pieņemt balstoties uz datiem un tos projicēt nekontrolēti. Statistikas pārvaldes uzdevums ir uzraudzīt datu kontrolētu izmantošanu.
Rentgena uzņēmumus viedās mašīnas nolasa jau daudz labāk nekā cilvēki. Var teikt, ka esam jaunas ēras sākumā, datu būs daudz, un statistikas pārvaldes loma būs iegūt valsts līmeņa rādītājus. Ja šobrīd mums ir pieejami dati par iedzīvotājiem novados gada griezumā, tad, pateicoties jaunām tehnoloģijām, nākotnē datu būs vēl vairāk, un varēsim saņemt informāciju par iedzīvotājiem novados, piemēram, nedēļas griezumā, izmantot šos datus zinātniski pētniecisko darbu rakstīšanai skolās, vai attīstīt dažādas biznesa lietotnes.
Lai arī statistikas pārvalde atzīmējusi šo simtgadi vien tagad, patiesībā atrodamies vēl pašā ceļa sākumā, lai varētu uzskatīt, ka esam uz datiem balstīta nācija. Mums vajadzēs daudz vairāk datus un veidus, kā apstrādāt informāciju, bet tie būs jauni izaicinājumi.
Autors ir a/s “Emergn” Mašīnmācīšanās laboratorijas vadītājs
Pagaidām nav neviena komentāra