
Europos didžiųjų duomenų hakatone šiais metais lietuvių komanda laimėjo trečiąją vietą. Atsitiktinumas, sėkmė, menka konkurencija? Ne, varžantis su stipriomis kitų Europos šalių komandomis sėkmės ar atsitiktinumo neužtenka. Pergalę iškovoti padėjo lietuvių išradingumas.
Europos didžiųjų duomenų hakatonas (angl. European Big Data Hackathon ) vyko jau trečiąjį kartą. Šį renginį organizuoja Europos statistikos tarnyba „Eurostat“, o jame dalyvauja tokios stiprios komandos kaip italų, lenkų, vokiečių, švedų, norvegų. Nacionalinės statistikos tarnybos dalyvauti šiame hakatone siunčia sumaniausius, išradingiausius duomenų analitikus, specialistus ir programuotojus.
Apskritai hakatonas – tai toks renginys, kurio dalyviai siekia per labai trumpą laiką sukurti kažką naujo ir išradingai spręsti tam tikrą problemą. Paslauga ar produktas, jo prototipas paprastai yra susietas su technologijomis. Iš to ir kilo terminas hakatonas (angl. Hackathon), žodžių hack ir marathon junginys, kur hack vartojamas ne kompiuterinių nusikaltimų reikšme, bet kaip nestandartinis, tiriamojo programavimo kultūros atspindys. Hakatone dažnai stengiamasi suburti skirtingų sričių specialistus. Taigi, be programuotojų, čia bus ir reklamos specialistų, duomenų analitikų (gali būti netgi, pvz., aplinkosaugininkų, jei tema susijusi su aplinkosauga), biologų, fizikų ar menininkų ir pan. Visa tai reikalinga, kad sujungus skirtingų specialistų žinias ir problemą nagrinėjant iš įvairių požiūrio taškų, būtų gautas naujas produktas.
Lietuvos statistikos darbuotojai yra dalyvavę Europos hakatone, bet prizinių vietų nėra iškovoję. Ne paslaptis – skaičiukų žmonės dažnai yra konservatyvūs ir labai inertiški, staigiai pakeisti požiūrio tašką ir sugalvoti kažką visai naujo pavyksta retai. Vis dėlto kartu su didelių projektų įgyvendinimu į departamentą atėjo nemažai naujų darbuotojų, mąstančių visai kitaip, kūrybiškai ir turinčių naujų idėjų.
Suburti komandą nebuvo taip paprasta. Tai turėjo padaryti Tomas Rudys, dirbantis departamente jau ne vienus metus ir visas „paniręs“ į didžiuosius duomenis. Iš pradžių jis surinko komandą iš jam gerai pažįstamų kolegų, bet ji iširo. Tuomet Tomas pasitelkė naujus specialistus: duomenų analitiką Joną Bačelį, programuotoją Marijų Bernotą, kurie departamente pradėjo dirbti vos prieš kelis mėnesius. Kadangi jau buvo paskelbtas karantinas, net ne visi kolegos buvo juos matę gyvai. Prie šių specialistų prisijungė ir departamento partneris Julijonas Kikutis, dirbantis prie Valstybės duomenų valdymo informacinės sistemos.
Lietuvių komanda gavo užduotį sukurti švieslenčių aplikaciją, kurioje turėjo būti atvaizduotas tarptautinės prekybos tinklas, turintis didelį skaičių prekių ir laiko parinkčių. Komandai taip pat teko atsižvelgti į esamą tarptautinės prekybos politiką ir duomenų analizės galimybes. Ši aplikacija turėjo tapti įrankiu sprendimų priėmėjams, politikams ir visuomenei analizuoti prekių srautams.

Dalyviams trys dienos, arba paros (kai kurios komandos dirbo ir naktimis), prabėgo labai greitai. Hakatono idėjų pristatymo vertinimo komisijai dieną lietuvių komanda pasirodė įspūdingai ir po pristatymų praėjus kelioms valandoms jau pasipylė džiugios žinutės socialiniuose tinkluose su sveikinimais mūsų komandai – trečioji vieta. Pirmąją vietą užėmė italų statistikos grupė, antroji atiteko lenkams.
Lietuvių sukurta tarptautinės prekybos švieslentė pasižymėjo vizualumu, duomenys atvaizduoti pasitelkus netradicinius ar statistikoje rečiau naudojamus grafinius sprendimus. Tarptautinės prekybos duomenis buvo galima pasižiūrėti pagal produktų klases, kiekius, transporto rūšį, kur prekės keliauja. Aplikacijoje pasirinkus šalį, ši atvaizduojama su visu savo prekybos partnerių tinklu, kaip voratinklis vaizdžiai parodančiu, su kuo šalis „susaistyta“ prekybos ryšiais. Galima ir interaktyviai, ir paprastai pasirinkti, kurios šalies tarptautinius prekybos partnerius norime matyti.
Perliukas, padėjęs laimėti lietuvių komandai, buvo Gini indekso panaudojimas neįprastiems duomenims – užsienio prekybos – pateikti. Arba, kaip lietuviai pavadino, „Šalies pažeidžiamumo indekso“ sukūrimas ir atvaizdavimas pagal šalis.
Gini koeficientas (dar vadinamas Gini indeksu) naudojamas siekiant apskaičiuoti žmonių pajamų pasiskirstymą. Šis indeksas pirmą kartą apskaičiuotas dar prieš Pirmąjį pasaulinį karą – 1912 m., sugalvotas italų statistiko Corrado Gini ir naudojamas iki šiol. Gini indeksas skirtas parodyti, kaip tolygiai ar netolygiai tarp žmonių pasiskirsto gaunamos pajamos. Koeficientas yra apskaičiuojamas pasitelkus Lorenco kreivę, kuri gaunama turtą padalinus iš žmonių, kurie juo naudojasi, skaičiaus. Kuo mažesnis kiekis turtingų žmonių ir kuo didesnį turtą jie valdo, tuo labiau kreivė yra išlinkusi. Gini koeficientas yra apskaičiuojamas kaip ploto, kurį riboja išgaubta Lorenco kreivė iki 45 laipsnių tiesės (A plotas paveiksle) ir viso dešiniojo trikampio ploto (A+B) santykis. Kuo Lorenco kreivė labiau išlinkusi, tuo mažesnis Gini koeficientas, o kuo jis mažesnis, tuo pajamų pasiskirstymas netolygesnis.

Tokį skaičiavimo metodą Lietuvos komanda pritaikė tarptautinės prekybos duomenims. Tik vietoj žmonių panaudotos prekių grupės, o vietoj žmonių pajamų – parduodamų prekių vertė. Pavaizdavus šiuos duomenis Lorenco kreive ir paskaičiavus tų duomenų dispersiją buvo gaunamas šalies pažeidžiamumo rodiklis. Jis pavaizduotas žemėlapyje.
Kuo prekių įvairovė didesnė, jų vertė – tolygiau pasiskirsčiusi, tuo šalies ekonomika mažiau pažeidžiama. Nutrūkęs vienos ar kelių prekių tiekimo srautas nepadaro didelės žalos jos ekonomikai ir jo trūkumą lengviau kompensuoti kitu prekių srautu.
Paties uždavinio sąlyga – sukurti tarptautinės prekybos duomenų pateikimo įrankį, kuris leistų politikams analizuoti situaciją ir priimti sprendimus, pasak J. Bačelio, ir pakišo mintį apie šalių pažeidžiamumo indekso panaudojimą. Beliko surasti skaičiavimo analogijų ir jas pritaikyti.
Pagal šalies pažeidžiamumo rodiklį, ES pirmauja Vokietija, Italija (šalys mažiau pažeidžiamos dėl didelės eksporto prekių įvairovės ir tų prekių grupių sąlyginai apylygio „svorio“ pajamų prasme). Labai pažeidžiamos – Malta, Airija, Graikija, Suomija (dėl mažesnės eksporto prekių įvairovės ir per didelio pajamų srauto iš siauros produktų grupės). Lietuva būtų per vidurį. Įdomu, kad, žvelgiant iš istorinės perspektyvos, Lietuvos pažeidžiamumo indeksas rodo labai ženklų padėties pagerėjimą. Lietuva didina prekių įvairovę, o pajamos, gaunamos iš skirtingų eksporto prekių grupių, darosi vis tolygesnės, tarptautinė prekyba nėra paremta keletu pagrindinių produktų, kurie sudarytų didžiąją jos dalį.

„Organizatoriai komentavo esą nustebę, kad Gini koeficientą būtų galima pritaikyti ne žmonių pajamų nelygybei įvertinti, bet prekių srautams ir valstybių pažeidžiamumui aprašyti“, – hakatono vertinimo komandos žodžius persakė J. Bačelis. Jo manymu, šio indekso naudojimas iš dalies ir lėmė tai, kad lietuvių komanda aplenkė likusias 18 komandų.
„Galbūt pirmąją vietą būtume gavę, jei būtume pasitelkę atviro kodo sprendimus, nes tai buvo vienas iš vertinimo kriterijų“, – kolegą papildė programuotojas M. Bernotas. „Kalbant apie programavimą, buvo naudojamos R ir Python programavimo kalbos, – pasakojo Marijus, – „Taip pat ir SageMaker – Amazon‘o Jupyter notebook variantas ir specialiai hakatonui sukurta Eurostato aplinka. Daug daug daug gigabaitų, kuriuos reikėjo atsisiųsti iš Eurostato. Jonas didžiąją dalį darbo padarė su R, o mes pasitelkėme Statistikos departamento naudojamą komercinę platformą Foundry, Lietuvoje vadinamą VDV IS.“
„Vis dėlto vien su atviro kodo programomis nebūtume sukūrę tokių praktiškų interaktyvių įrankių ir vizualizacijų. Be jų nebūtų ir trečios vietos“, – savo komandos nario minčiai, kad atviras kodas būtų atnešęs pergalę, paprieštaravo Jonas. Tačiau visi komandos nariai sutiko, kad palyginus su konkurentais, jų aplikacija atrodo „pakankamai išbaigta“ ir „prašosi būti naudojama“.