No vienkāršas statistikas līdz mašīnmācīšanās izmantošanai. Kas tālāk?

Aldis Ērglis, AS "Emergn" Mašīnmācīšanās laboratorijas vadītājs

Statistikas rēķināšana Latvijā sākās pirms industriālās revolūcijas jeb apmēram 200 gadiem. Agrāk rēķināts tika uz papīra, tad ar skaitīkļiem un vēlāk jau ar pirmajiem kalkulatoriem. Sākotnēji uzskaitīja pašu elementārāko – iedzīvotājus. Statistikas aprēķina būtība ir tāda, ka tiek iegūti oficiāli svarīgi valsts līmeņa rādītāji, kas kalpo kā noteikta atskaites sistēma.

Šobrīd dažādu datu iegūšana un apstrāde aizņem pietiekami daudz laika, taču mūsdienu tehnoloģijas nodrošina to, ka parādās arī tā saucamie atvērtie dati (open data). Atvērto datu princips savukārt nodrošina, ka uzkrātie dati nonāk valsts pārvaldes un pašvaldību rīcībā un var kalpot par vienu no analītiskajiem rādītājiem, piemēram, veicot reģionālo reformu, budžeta plānošanā, izmantojot statistisko datus par iedzīvotājiem novados. Šiem datiem ir plašs pielietojums.

Parasti datu analīzē mēs koncentrējamies ne tik daudz uz pieejamo datu daudzumu, bet konkrētu lietu, ko gribam saprast, izpētīt, izskaidrot vai uzzināt. Tad meklējam, ar kādiem datiem to varam izdarīt.

Šobrīd atrodamies situācijā, kad datu ir vairāk nekā pats pielietošanas pieprasījums. Ne vienmēr pieejamie dati atbild uz jautājumu "kāpēc?". Uz šo jautājumu atbild cilvēka interpretācija. Dati atbild uz pārējiem jautājumiem: "cik daudz?", "kas?", "kur?". Apstrādājot šādu informāciju, eksperts var saprast pārējās datu analīzes kopsakarības.

Kvalitatīvu datu radīšana ir liels izaicinājums visā pasaulē, ne tikai Latvijā. No milzīgā un pieejamā datu apjoma atskaiti varam uztaisīt no jebkā. Tas notiek viegli, ievietojam datus programmā un iegūstam tabulu vai grafiku. Piemēram, Rietumos daudz tiek pētīts, kā celt produktivitāti darbā. Kvalitatīva atskaite ir nevis gatava gala tabula, bet piemērs, kā vienā atskaitē var ievietot finanšu un nefinanšu informāciju. No uzņēmuma viedokļa raugoties, budžeta izlietojums ir finanšu informācija, lai varētu veikt turpmākos secinājumus, savukārt nefinanšu dati ir cilvēka labsajūtas, apmācības vai motivācijas informācija. Te var meklēt korelāciju starp ieguldījumu pašattīstībā un uzņēmuma ieņēmuma peļņas palielināšanos.

Tas, ko vēl daudzi neizprot – kāpēc nevaram vēl vairāk izmantot mākslīgo intelektu dažādu datu analīzē (es gan vairāk izmantoju terminu mašīnmācīšanās). Mūsdienu izpratnē mākslīgais intelekts aptver informāciju, kā dators saprot cilvēku, kā atpazīst attēlus, runu, kā to sintezē un tulko, taču apjomīgu datu apstrāde vairāk saistās ar mašīnmācīšanos.

Vēl viena lieta, ko mākslīgais intelekts šobrīd risina – kā transformēt datus dažādos griezumos no pamatgriezuma datiem. Ar šādu algoritmu palīdzību cilvēkam vajadzētu ievākt un apstrādāt daudz mazāk datu, jo to paveiktu viedās tehnoloģijas. Piemēram, ar Microsoft Power BI programmas palīdzību var ierunāt meklējamos datus, un programma tos atlasa konkrētā informācijas laukā.

Statiska dod mums absolūtus skaitļus, bet nevērtē tos. Ar laiku arvien biežāk vajadzēs veidot sarežģītākus rādītājus, kur būs nepieciešamas cēloņsakarības.

Cēloņsakarības ir atsevišķa disciplīna statistikā. Tas ir veids, ko datori vēl nespēj atrast un identificēt, veids kā domā cilvēki, jo mēs visu pasauli redzam cēloņsakarībās. Mēs arī mācāmies cēloņsakarībās, piemēram, dators mācās korelāciju, bet, lai korelācijas konstatētu, vajag daudz dažādu datu. Piemēram, lai dators atpazītu kaķa attēlu, datoram nepieciešami apmēram 10 000 kaķa attēlu pirmajiem algoritmiem, bērnam atliek vienu reizi parādīt kaķa attēlu, un viņš to turpmāk atpazīs.

Ekspertiem joprojām ir izaicinājums visā pasaulē strādāt pie tā, lai dators visu apgūtu tikpat ātri kā cilvēks. Cēloņsakarības meklē gan cilvēks, gan dators, bet abi to dara dažādi.

Piemēram, ja salīdzina darbības: gailis iedziedas, un saule lec, vai otrādi – saule lec, un gailis iedziedas. Datorizētai iekārtai šīs darbības šķitīs vienādas vienalga kādā secībā, taču tikai cilvēks pateiks, ka uzaustošā saule ir iemesls gaiļa rīta dziesmai.

Ir pamatdati, un ir dažādas algoritmiskas programmas, kuras var izmantot kā gatavas.

Lūkojoties nākotnē, valsts sektorā ir daudz klientu un daudz datu, tāpēc vajadzība pēc standartizācijas un automatizācijas, kā arī mašīnmācīšanās valsts sektorā būs normāla, obligāta lieta.

Valsts sektora speciālisti varēs vairāk nodarboties ar intelektuāliem uzdevumiem, nevis ar grūtībām risināt valstiskus labklājības jautājumus caur ikdienas rutīnas darbiem. Šobrīd, lai nokārtotu darbnespējas lapu, jāveic veselu virkni procesuālu darbību, taču nākotnē šos jautājumus varētu sakārtot automatizēti.

Piemēram, Tiesu administrācija varētu prognozēt lietu izskatīšanas ilgumu ar speciālas programmas palīdzību, izskaitļojot laiku un izmaksas personas iesūdzēšanai tiesā. Pēc šiem algoritmiem prasītājs varētu vēlreiz pārdomāt lēmumu par prasības iesniegšanu tiesā, tādējādi lieki nenoslogojot tiesu sistēmu.

Varu prognozēt, ka 20 gadu griezumā uzvilksim virtuālās brilles un ar balsi un acīm varēsim pētīt datus.

Šī izpēte būs vizuāla, tā nebūs tabula. Jau šobrīd ir tehnoloģijas, kas vēro, kur acu zīlīte skatās datorā, tas ļauj tehnoloģijai saprast, kas tiek meklēts, un piedāvāt attiecīgus attēlus vai informāciju. Līdzvērtīgi arī darbojas "Google" reklāmas banera vieta, jo noteiktās interneta vietnēs tā filtrē mums vajadzīgo informāciju.

Šis un līdzīgi materiāli ir atrodami inovāciju un tehnoloģiju mājaslapā Labsoflatvia.com. Portāla mērķis ir informēt, iedvesmot un iedrošināt uzņēmējus, zinātniekus, investorus, biznesa uzsācējus un citus interesentus meklēt attīstības iespējas, sadarboties un kopīgi attīstīt inovāciju un tehnoloģiju vidi Latvijā.

Seko "Delfi" arī Instagram vai YouTube profilā – pievienojies, lai uzzinātu svarīgāko un interesantāko pirmais!

Publikācijas saturs vai tās jebkāda apjoma daļa ir aizsargāts autortiesību objekts Autortiesību likuma izpratnē, un tā izmantošana bez izdevēja atļaujas ir aizliegta. Vairāk lasi šeit