19.12.2011

Publisko iepirkumu analīze

Publicēja Raimonds Simanovskis • Birkas: IUB, iepirkumiParādīt komentārus

Vieni no biežākajiem open data projektiem pasaulē ir valsts un pašvaldību publisko iepirkumu datu analīze. Arī Latvijā publisko iepirkumu dati it kā ir atvērti un tos var sameklēt Iepirkumu uzraudzības biroja datubāzē. Bet realitātē, tas, kas tur atrodas, izskatās pēc MS Word formām, kas saglabātas HTML formātā, un nekādu kopsavilkuma analīzi par to, kurš no kā un kad un par cik ir pircis, izdarīt nevar.

Jau kādu laiku brieda doma par to, ka būtu ļoti vērtīgi pārvērst šos iepirkuma rezultātu paziņojumus analizējamos datos. Motivācija sākt darbu pie šī projekta radās, satiekot Ingu Spriņģi no Baltijas pētnieciskās žurnālistikas centra Re:Baltica un šīs sadarbības rezultātā radās Re:Baltica pētījums par būvniekiem, partijām, iepirkumiem. Par šo pētījumu vakardien bija arī TV3 raidījuma Nekā Personīgi sižets, kur parādos arī es un pastāstu par atvērto datu kustību :)

IUB rezultātu publikāciju apstrāde tehnoloģiski bija diezgan sarežģīta problēma:

  • Vispirms vajadzēja savākt visas IUB publikācijas - kopš 2010. gada sākuma to bija ap 80 000.
  • No HTML dokumentiem vajadzēja atpazīt, kuras ir rezultātu publikācijas (tika apstrādāti dokumenti ar virsrakstiem INFORMATĪVS PAZIŅOJUMS PAR NOSLĒGTO LĪGUMU, PAZIŅOJUMS PAR IEPIRKUMA PROCEDŪRAS REZULTĀTIEM, PAZIŅOJUMS PAR LĪGUMA SLĒGŠANAS TIESĪBU PIEŠĶIRŠANU SABIEDRISKIE PAKALPOJUMI, BRĪVPRĀTĪGS PAZIŅOJUMS PAR IEPIRKUMA REZULTĀTIEM).
  • Tālāk katrā dokumentā vajadzēja atpazīt lēmuma pieņemšanas un publicēšanas datumus, pasūtītājus, to adreses un kontaktpersonas, CPV kodu (vienotā iepirkumu klasifikācija pa nozarēm), noslēgtos līgumus (vienā paziņojumā var būt minēti vairāki līgumi), katrā līgumā jāatpazīst piegādātājs, ar ko tiek slēgts līgums, piedāvātā cena un līguma summa, valūta, līguma nosaukums, kopējais piedāvājumu skaits.
  • Visu to apgrūtināja tas, ka kaut kad 2009./2010.gadā mainījas rezultātu publikācijas formas un daži apzinīgie pasūtītāji izmantoja jaunās formas, bet daži slinkākie turpināja copy/paste no vecajām formām.
  • Rezultātu publikāciju formās nav nekādas kontroles par datu kvalitāti, tā ka nācās identificēt biežākās formu aizpildītāju jaunrades idejas un tās salabot.
  • Pēc visu dokumentu sākotnējās apstrādes nācās strādāt pie vienādo pasūtītāju un piegādātāju identificēšanas. Izskatās, ka IUB neveic nekādu iesniegto dokumentu datu kvalitātes kontroli, kā rezultātā viena un tā paša pasūtītāja vai piegādātāja nosaukums var parādīties daudzās dažādās variācijās. Tādēļ centos identificēt vienādos pasūtītājus un piegādātājus pēc viņu reģistrācijas numuriem un izvēlēties biežāk lietoto nosaukumu (jo diemžēl Uzņēmuma reģistra dati pie mums nav atvērti, lai jebkurš varētu masveidā pārbaudīt uzņēmumu reģistrācijas numurus).
  • Bet tad sekoja nākamā problēma, ka nav arī nekādas datu kvalitātes kontroles par ievadītajiem reģistrācijas numuriem - sākot no tā, ka dažkārt ir ievadīts pilnais numurs ar 11 cipariem, dažreiz 9 cipari bez pirmā un pēdējā cipara, dažreiz ievadīts PVN reģistrācijas numurs. Bet dažkārt bija vēl sliktāk, ka no reģistrācijas numura vispār kāds cipars pazudis un dažreiz ir ievadīts pilnīgi cita uzņēmuma reģistrācijas numurs (droši vien pēc copy/paste no iepriekšējās publikācijas piegādātāja nosaukumu nomainīja, bet reģistrācijas numuru nē). Šadas problēmas ar lielākajiem piegādātājiem varēja pamanīt veicot tikai sākontējo datu analīzi un tad vajadzēja manuāli tos labot, lai saliktu kopā vienu un to pašu piegādātāju vai pasūtītāju.
  • Visbeidzot arī nācās identificēt pārsūdzētos un atkārtoti izsludinātos iepirkumu rezultātus un atstāt tikai pēdējo rezultātu publikāciju pēc atbilstošā pasūtītāja norādītā iepirkuma identifikācijas numura. Tā kā par atkārtotām publikācijām diemžēl ir grūti identificēt, vai tās papildina vai aizstāj agrākas publikācijas, tad šeit var būt kļūdas, ka kādās iepriekšējās publikācijas tiek nepareizi aizstātas ar jaunākām.
  • Izskatās, ka dažiem formu aizpildītājiem arī trūkst elementāras datorprasmes. Atceros no skolas laikiem, kā mums mācīja likt pēdiņas - sākumā divas apakšā un beigās divas augšā. Daži tā raksta arī uz datora - tā kā nevar atrast apakšējās pēdiņas, tad sākumā liek divus komatus un beigās divus apostrofus, piemēram SIA ,,Sviests'' :)

Bet rezultātā veiksmīgi izdevās izveidot analizējamu datu kopu un ielādēt to eazyBI analīzes rīkā. Sadarbībā ar Re:Baltica tika izveidota papildus iepirkumu datu analīze sasaistot to ar agrāk apstrādātajiem partiju ziedotāju datiem. Tika identificēti, kuru būvfirmu īpašnieki vai amatpersonas ir ziedojuši partijām 2010. un 2011. gadā un attiecīgi kādos publiskajos iepirkumos šīs būvfirmas ir uzvarējušas. Lasiet vairāk par šo pētījumu Re:Baltica lapā. Šeit ievietoju vienu kopsavilkuma grafiku par iepirkuma publikāciju kopējo summu pa mēnešiem un cik no šīs summas sastāda ar būvniecību saistītie iepirkumi:

Līdzīgu analīzi var veikt arī par iepirkumiem citās nozarēs (nozaru klasifikācija tiek veikta pēc norādītā CPV klasifikācijas koda, kas arī diemžēl bieži ir norādīts kļūdaini). Piemēram, izveidoju top IT projektu atskaiti, kurā redzami lielākie IT pakalpojumu nozares projekti, sagrupēti pēc piegādātjiem un pasūtītājiem.

Rezultātā pēc visas šīs ņemšanās ar iepirkumu rezultātu publikācijām radās dažas pārdomas:

  • Dati ir vērtīgi tikai tad, ja tie ir kvalitatīvi. Redzot, par kādām summām tiek veikti publiskie iepirkumu, es domāju, ka varētu veltīt mazliet vairāk laika, lai pārbaudītu iesniegto datu kvalitāti - vismaz pārbaudītu, lai pasūtītāju un piegādātāju reģistrācijas numuri un nosaukumi atbilstu uzņēmumu reģistram, lai CPV nozaru klasifikācijas kods būtu norādīts pareizi, lai kopsummas sakristu ar detalizētajām summām.
  • Ideālajā variantā vēlētos, lai IUB nevis tikai pārpublicētu iesniegtās rezultātu publikāciju MS Word formas, kas saglabātas HTML formātā, bet gan uzkrātu savā datubāzē strukturētu informāciju par to, kas no kā un kad un par cik ir iepircis. Ja šos datus saglabātu un pārbaudītu jau pie datu saņemšanas un ievades, tad datu kvalitāte būtu daudz augstāka un tad arī tie būtu daudz vieglāk pieejami analīzei.
  • Vajadzētu arī vienotas rekomendācijas par to, cik detalizēti pa pozīcijām ir jāizsludina iepirkumu un jāpublicē to rezultāti. Piemēram var salīdzināt medicīnas materiālu iepirkumu ar 172 pozīcijām par 367 tūkstošiem latu ar būvniecības iepirkumu ar vienu pozīciju par 88 miljoniem latu.
  • Tā kā par vienu iepirkumu var būt daudzas publikācijas, tad patreizējā brīdī ir grūti automātiski identificēt, kuras publikācijas (vai arī publikāciju atsevišķas pozīcijas) ir galējās un neapstrīdētās/neatceltās. To laikam var risināt tikai uzkrājot datus strukturētākā formā.

Ja jums rodas idejas, kā vēl varētu izmantot publisko iepirkumu datus vai arī kā uzlabot to pieejamību un kvalitāti, tad rakstiet to komentāros.

10.12.2011

Pirmais Open Data Day Hackathon ir noticis!

Publicēja Raimonds Simanovskis • Birkas: odhd, SaeimaParādīt komentārus

Open Data kustība Latvijā ir oficiāli sākusies, jo 3. decembrī veiksmīgi notika pirmais Open Data Day Hackathon pasākums!

Uz pasākuma pirmo daļu bija ieradušies 10 dažāda profila interesenti un sākām ar iepazīšanos un ideju apmaiņu par open data iniciatīvām un potenciālajiem projektiem Latvijā. Pēc pasākuma uztapušajā wiki lapā varat apskatīt gan dalībnieku sarakstu, gan arī ideju un potenciālo projektu pierakstus. Priecē, ka open data idejas interesē dažādu jomu pārstāvjus - bija gan programmētāji, gan uzņēmēji, gan valsts institūciju pārstāvji, gan nevalstisko organizāciju pārstāvji, gan akadēmisko institūciju darbinieki, gan juristi (šoreiz gan atsevišķas jomas bija pārstāvētas vienskaitlī :)). Cerams, ka šo dažādo jomu pārstāvju sadarbība veicinās open data ideju popularizēšanu plāšākā sabiedrības lokā.

Pasākuma otrā daļa bija praktiskā "hakatona" sadaļa, kurā bez manis piedalījās vēl Jānis Baiža, Valdis Krebs, Uldis Bojārs un Pēteris Ručevskis. Iesākumā Valdis, Pēteris un Uldis strādāja pie jau agrāk manis sagatavotajiem partiju ziedotāju datiem, lai tos apstrādātu un izanalizētu kopsakarības ar SNA grafu analīzes rīku. Savukārt mēs ar Jāni uzsākām Saiemas sēžu darba kārtības un balsojumu datu iegūšanas programmas izstrādi, lai tos varētu izmantot tālākai Saeimas balsojumu analīzei.

Kā jau citās līdzīgās Latvijas valsts institūciju web lapās Saeimas sēžu darba kārtības un deputātu balsojumi ir pieejamas tikai kā individuālas web lapas, kas nav piemērotas analītisku datu iegūšanai. Tādēļ izveidojām programmu, kas iziet cauri visām Saeimas sēdēm un no šīm web lapām iegūst izejas datus par deputāti balsojumiem un sagatavo tos CSV failu formātā tālākai apstrādei. Rezultātā ieguvām gan 11. Saeimas visu balsojumu datus gan arī pāris dienu vēlāk tika sagatavoti 10. Saeimas balsojumu dati.

Nu un tālāk šos datus jau var izmantot dažāda veida analīzei - piemēram, kuri deputāti visvairāk neapmeklē sēdes, vai arī kuri apmeklē sēdes, bet nezin kāpēc bieži nepiedalās balsojumos. Šadu analīzi ar eazyBI palīdzību tagad var apskatīties, gan par 11. Saeimu, gan arī par 10. Saeimu. Kā piemēru šeit ievietoju 11. Saeimas "top bastotāju" tabulu :)

Par partiju ziedotāju un Saeimas deputātu balsojumu sociālo tīklu analīzes rezultātiem varat izlasīt Valda Kreba bloga rakstā. Šeit ievietoju viņa veidotā tīkla vizualizācijas piemēru, ko varētu arī saukt par politisko māklsu :)

Šos Saeimas balsojumu datus būtu interesanti arī paanalizēt tālāk, lai identificētu, kuriem deputātiem balsojums parasti sakrīt ar partijas viedokli un kuriem savukārt bieži nesakrīt. Kā arī varbūt parādās kādas citas saistības starp deputātiem, kas nav atkarīgas no partiju piederības.

Nobeigumā gribēju arī pateikt paldies eBIT par viesmīlīgajām "hakatona" telpām. Un domāju, ka tuvākajā nākotnē open data "hakatoni" noteikti tiks atkārtoti, tā ka lūdzu interesentus piebiedroties mūsu pulkam un to popularizēt tālāk! Sekojiet mums Twitter un Facebook lapās, kā arī "retwītojiet" un "laikojiet" tās :)

29.10.2011

Open Government Data Camp un plānotais Open Data Day Hackathon Rīgā

Publicēja Raimonds Simanovskis • Birkas: konferences, ogdcamp, odhdParādīt komentārus

Pirms nedēļas piedalījos open data aktīvistu lielākajā ikgadējā konferencē Open Government Data Camp. Par šo konferenci uzzināju no vienas no konferences organizātājām, kas sakontaktēja mani Twitterī, jo bija pamanījusi manas opendata.lv aktivitātes.

Pēdējā gada laikā open data kustība ir vērsusies plašumā un daudzās pasaules valstīs notiek aktīvi valsts vai pašvaldību līmeņa projekti, lai nodrošinātu atvērtu pieeju publiskajiem datiem - dzirdēju par daudziem projektiem ASV, Kanādā, Brazīlijā, Apvienotajā Karalistē, Itālijā, Spānijā, Polijā, Norvēģijā, Somijā un citur. Attālinātu uzrunu konferences dalībniekiem teica arī Eiropas komisāre Neelie Kroes, kura arī ir "big fan of open data" un viņasprāt "data should be open and available by default and exceptions should be justified – not the other way around as is too often the case still today".

Diemžēl Latvijas publiskajā sektorā par open data neviens vēl nopietni nedomā un pagaidām nav plānots veidot publiskā sektora atvērto datu portālus, kā, piemēram, data.gov vai data.gov.uk. Tādēļ pagaidām iniciatīva šajā jomā ir jāuzņemas aktīvajiem pilsoņiem. Un pagaidām aktīvie pilsoņi šajā jomā arī nav pārāk daudz - konferencē no Latvijas bez manis bija vienīgi žurnāliste Inga Spriņģe.

Konferencē uzstājos ar īsu lightning talk par šo opendata.lv projektu un kā ar vizualizāciju palīdzību popularizēt atvērto datu ideju:

Konferencē arī uzzināju par Internation Open Data Day Hackathon, kas notiks 3. decembrī daudzās pasaules vietās. Tādēļ man arī radās ideja, ka vajadzētu to noorganizēt Rīgā un tādēļ izveidoju Open Data Latvia meetup grupu un Open Data Day Rīgas pasākuma reģistrācijas lapu.Internation Open Data Hackathon Lūdzu pieteikties visus interesentus - programmētājus (kas var apstrādāt dažādus esošos grūti pieejamos datu avotus un padarīt tos pieejamākus), žurnālistus (kas vēlas analizēt publiskos datus un meklēt tajos kopsakarības), juristus (kas var izpētīt un dot padomus, kādus datus drīkst un vai nedrīkst atkārtoti izmantot un pārpublicēt, un par ko var likt cietumā :)), māksliniekus (kas var smuki vizualizēt atvērtos datus) un citus. Kā arī, ja kādam ir padomā labas telpas šim pasākumam (ar galdiem, krēsliem, labu Internetu un daudz kafiju), tad arī lūdzu dot ziņu.

Un protams lūdzu popularizējiet šo pasākumu caur saviem sociālajiem tīkliem vai arī pastāstiet citiem klātienē.

19.10.2011

Ceļu satiksmes negadījumu statistika

Publicēja Raimonds Simanovskis • Birkas: CSDD, satiksmeParādīt komentārus

Uz karstām pēdēm vēl viens datu analīzes piemērs, ko uztaisīja Andris Krauze - Ceļu satiksmes negadījumu statistika 2010. gadā. Izskatās, ka cilvēki pa Slīteres mežiem ļoti pārgalvīgi brauc...

Šajā piemērā izejas datus iegūt bija vēl grūtāk, jo CSDD tos publicē tikai PDF failu veidā. Painteresējos pie viņiem, vai varbūt izejas datus varētu publicēt arī CSV vai XML failu formātā. Saņēmu noraidošu atbildi, jo es esot pirmais un vienīgais, kas izrāda tādu interesi...

Būs vien jāturpina popularizēt open data idejas, lai nākotnē valsts iestādēm vairs neliktos dīvaini, ka kāds vēlas iegūt publiskos datus normālā formātā :)

18.10.2011

Pieteikumi augstskolu studiju programmās

Publicēja Raimonds Simanovskis • Birkas: izglītība, latvija.lvParādīt komentārus

Vēlējos nopublicēt vēl vienu pirms pāris mēnešiem veiktu analīzi. Jānis Baiža bija ielādējis un apstrādājis latvija.lv publicēto statistiku par reflektantu pieteikumiem augstskolu studiju programmās, lai būtu vieglāk paanalizēt, kuras augstskolas un kuras studiju programmas ir populārākās:

Kā arī var apskatīt dažādus citus eazyBI grafikus un tabulas ar šiem datiem.

Publicējot šādus statistikas datus būtu ļoti vēlams tos nopublicēt arī CSV vai XML veidā, kas, manuprāt, neprasītu daudz papildus darba, bet stipri atvieglinātu šādu datu apstrādi ar citām programmām. Kā arī patreizējā saite uz statistikas datiem www.latvija.lv/statistics nerada pārliecību, ka šie dati tur atradīsies mūžīgi, jo droši vien pēc nākamās svarīgās latvija.lv akcijas tur parādīsies statistika par citiem datiem. Interneta resursu URLus vienmēr vajadzētu veidot unikālus un no kuriem var saprast, kas zem tā atrodas, lai citas lapas varētu droši veidot saites uz šiem resursiem.

Vecāki ieraksti