17.06.2012

Otrais atvērto datu hakatons

Publicēja Raimonds Simanovskis • Birkas: hakatonsParādīt komentārus

Vakardien notika otrais Latvijas atvērto datu "hakatons", kurš, neskatoties uz vasarīgo laiku, bija divreiz vairāk apmeklēts nekā pirmais – kopā piedalījās 20 dalībnieki.

Iesākumā pastāstījām par pēdējā laika jaunumiem, ko katrs darījis vai plāno darīt atvērto datu jomā. Iesākumā es pastāstīju un parādīju jauno data.opendata.lv atvērto datu portālu, kuru šoreiz plānojām papildināt ar jaunām datu kopām. Kā arī īsumā pastāstīju par nesen notikušo "Rīga – averies!" forumu.

Pēteris Ručevskis no LU MII parādīja Saeimas balsojumu grafu analīzes vizualizācijas, izmantojot viņu izstrādāto SNA rīku. Linda Vītuma pastāstīja par dzemdību statistikas datiem, ko viņa vēlētos iegūt, lai labāk saprastu situāciju šajā jomā dažādos Latvijāas reģionos un palīdzētu citiem veikt informētu izvēli. Ģirts Karnītis no LU Datorikas fakultātes pastāstīja par to, kas ir veikts kopā stundentiem specsemināros, kur viņi apkopoja dažādus Latvijas attīstības plānus, valdības deklarācijas un valsts institūciju budžetus un mēģināja tos sasaistīt kopā. Uldis Bojārs pastāstīja par atvērto datu izmantošanas konferenci, uz kuru viņs dosies, kā arī par nesen notikušo Europeana hakatonu, kurā viņa pārstāvētā komanda izveidoja europ.in Europena datu meklēšanas servisu. Savukārt Toms Ceļmillers no VARAM pastāstīja par Eiropas Savienības pēdējām iniciatīvām atvērto datu jomā, kā arī uzklausīja viedokli, ko vajadzētu iekļaut nākamajos latvija.lv papildinājumos. Par šo tēmu bija vienots viedoklis – visiem publiskajiem latvija.lv e-pakalpojumiem jānodrošina, ka var iegūt pilnas pirmdatu kopas mašīnlasāmā CSV vai XML formātā.

Pēc tam sadalījāmies pa interešu grupām un ķērāmies klāt pie "kodēšanas" un jaunu atvērto datu kopu sagatavošanas, lai tos varētu publicēt data.opendata.lv.

Hakatona rezultātā izveidojām un nopublicējām vairākas jaunas datu kopas un to izmantošanas piemērus:

Hakatonā tika identificētas arī vairākas jaunas idejas, pie kurām varētu strādāt, tādēļ noteikti būs nākamais hakatons - droši vien kaut kad rudenī. Vēlējos aicināt iesaistīties atvērto datu aktivitātēs arī dažādu augstskolu pārstāvjus – ir projekti, kur var iesaistīties IT nozares studenti, lai apstrādātu un sagatavotu dažādus datus, gan arī pēc tam šos datus var izmantot žurnālistikas un dažādu sociālu zinātņu nozaru studenti, lai balstoties uz tiem veiktu pētījumus. Ja ir kādas idejas, tad lūdzu kontaktējiet mūs Google diskusiju grupā.

Nobeigumā gribēju pateikties uzņēmumam eBIT, kas arī šoreiz nodrošināja telpas hakatonam, kā arī bija plaši pārstāvēts dalībnieku vidū. Kā arī pateikties Providus un Lindai Austerei par atbalstu data.opendata.lv portāla tapšanā.

09.06.2012

"Rīga - atveries!" un data.opendata.lv

Publicēja Raimonds Simanovskis • Birkas: konferencesParādīt komentārus

Ar mazu novēlošanos vēlējos uzrakstīt par forumu "Rīga - atveries!", kas norisinājās 23. maijā un kurā no opendata.lv aktīvistiem piedalījos es, Raimonds Simanovskis, kā arī Pāvils Jurjāns. Forumu organizēja nevalstiskās organizācijas Kustība demokrātiskai domai, Providus un Baltijas vides forums sadarbībā ar Rīgas domes Izglītības, kultūras un sporta departamentu. Foruma mērķis bija identificēt jomas, kurās Rīgas pašvaldība varētu atvērt savus datus, lai tos varētu izmantot dažādiem jauniem mērķiem.

Pasākumam pamatā bija izglītojošs raksturs, lai radītu izpratni par to, kas ir atvērtie dati un stimulētu pašvaldību padarīt tās datus atvērtākus, kā arī pēc iespējas kliedēt mītus par to, kas ir vai nav atvērtie dati, kā arī veicināt sākt kaut ko darīt šajā jomā. Tā ka kopumā domāju, ka šādi pasākumi ir nepieciešami, lai veicinātu izpratni par atvērtajiem datiem un ir prieks, ka piedalījās daudzi Rīgas pašvaldības darbinieki.

Kopsavilkumu par foruma rezultātiem var izlasīt šeit, kā arī var iepazīties ar priekšlikumiem, kas tika identificēti foruma darba grupās.

Pats es šajā forumā uzstājos ar prezentāciju par pieredzi ar Latvijas atvērto datu apstrādi:

Pastāstīju par to, ka viena no galvenajām problēmām ar pieejamajiem Latvijas atvērtajiem datiem ir tā, ka tie pamatā ir publicēti kā tīmekļa lapas un nevis kā mašīnlasāmas datu kopas. Tādēļ, lai veiktu šo atvērto datu analīzi vai cita veida apstrādi, vispirms ir jāveido programmas, kas savāktu šīs tīmekļa lapas un pēc tam apstrādātu un no tām izvilktu strukturēto informāciju. Patlaban to esmu darījis gan es, gan citi interesenti savām vajadzībām, bet problēma ir tā, ka nekur vienuviet nav apkopoti šie struktūrētie atvērtie dati, kurus vieglāk varētu izmantot dažādām vajadzībām.

data.opendata.lv Tādēļ kopā ar Lindu Austeri no Providus dzima ideja par to, ka arī Latvijā vajadzētu izveidot atvērto datu portālu līdzīgi kā plašī zināmajās lielvalstīts, piemēram, data.gov vai data.gov.uk. Pēdējos mēnešus notika darbs pie tā un forumā "Rīga - atveries!" tika anonsēts jaunais Latvijas atvērto datu portāls data.opendata.lv, kurā var veidot gan Latvijas atvērto datu katalogu, gan arī augšupielādēt struktūrētus atvērtos datus CSV formātā, lai tālāk tos varētu viegli izmantot dažādiem citiem nolūkiem.

Lai identificētu dažādas datu kopas, kuras vajadzētu publicēt data.opendata.lv, kā arī izveidotu lietojumprogrammu pilotus, kas izmantotu data.opendata.lv atvērto datus kopas, 16. jūnijā tiek organizēts otrais Latvijas atvērto datu hakatons. Lūdzu visus interesentus, kam ir gan idejas, kā pielietot Latvijas atvērtos datus, gan arī kuriem ir programmēšanas spējas šos datus iegūt un apstrādāt, pietiekties un piedalīties šajā hakatonā!

01.04.2012

Iespaidi no Transparency Works konferences Viļņā

Publicēja Raimonds Simanovskis • Birkas: konferencesParādīt komentārus

Transparency Works Šajā nedēļā man bija iespēja piedalīties un arī uzstāties konferencē Transparency Works Viļņā, ko organizēja Transparency International (kuras pārstāvis Latvijā ir Delna).

Pirmkārt, bija interesanti tur būt kopā ar Latvijas pārstāvjiem Kristapu Petermani no Delnas, Ivetu Kažoku no Providus, Kristofu Blaus un Jāni Ertu no manabalss.lv. Pārējie konferences dalībnieki bija dažādu atklātības un atvērtības nevalstisko organizāciju un projektu pārstāvji no Eiropas, ASV un arī pāris citām valstīm.

Konferences atklāšanā viena no ievada runām bija atvēlēta Kristofam un Jānim, kur viņi labā, atraktīvā "amerikāniskā" mārketinga stilā pastāstīja par manabalss.lv projektu un tā sasniegumiem. Pateicoties viņu aktivitātēm projekta popularizēšanā tas jau ir pazīstams daudzviet pasaulē un arī vairākās citās prezentācijās tas tika pieminēts kā viens no labākajiem e-demokrātijas projektiem. Vienīgi gribētos novēlēt, lai manabalss.lv patiešām ilgtermiņā sasniedz mērķi, ka tas nodrošina pastāvīgu pilsoņu iesaistīšanos demokrātijas procesā. Ja tam nebūs pastāvīgs ekspertu un moderatoru atbalsts iesniegtajām iniciatīvām, tad pastāv risks, ka iesniegtās iniciatīvas paliks Delfu komentāru līmenī. Un savukārt, ja pieteikoši bieži iesniegtās iniciatīvas nenonāks līdz Saeimas dienas kārtībai, tad arī iniciatīvu parakstītāju interese var noplakt.

No citām prezentācijām bija interesanti paklausīties par Vācijā radīto Parliament Watch, kas sākotnēji radās kā Vācijas vietējo zemju un federālā parlamenta diskusiju platforma starp deputātiem un vēlētājiem, bet tagad viņu risinājumu izmanto arī Īrijā, Austrijā un Luksemburgā. Interesanti likās dažādi Slovākijas projekti atklātības un atvērto datu jomā - piemēram, publisko iepirkumu dati un to analīze, kā arī visi publisko iepirkumu līgumi. MySociety pārstāvis pastāstīja par dažādiem MySociety projektiem. Bija interesanti paklausīties arī Igaunijas pieredzi e-government jomā un ka, neskatoties uz daudziem labi veidotiem valsts e-pakalpojumiem, tur sabiedrības iesaiste e-demokrātijas iniciatīvās nemaz nav tik liela. Lietuvas projekti, par kuriem tika stāstīts, pagaidām ir vēl tapšanas stadijā, piemēram, manoseimas.lt (parlamenta atvērtības nodrošināšanai), Lietuva 2.0 (izklausījās, ka grib kļūt par kaut ko vairāk nekā Facebook :)) un Viešai (publisko institūciju finanšu analīzei un uzraudzībai). Kristaps Petermanis stāstīja par Deputātiem uz delnas, savukārt es pastāstīju par pieredzi ar Latvijas atvērto datu analīzi un par tiem projektiem, kas jau šeit opendata.lv ir aprakstīti.

Gribētos, lai šādi atklātības un datu atvērtības pasākumi notiktu biežāk arī Latvijā, jo savādāk nācās braukt uz Lietuvu, lai labāk iepazītu arī to, kas notiek Latvijā :)

Noslēgumā gribēju arī aicināt visus interesentus pievienoties Open Data Latvia diskusiju grupai, kura nesen ir izveidota, lai apspriestu atvērto datu aktualitātes Latvijā.

19.12.2011

Publisko iepirkumu analīze

Publicēja Raimonds Simanovskis • Birkas: IUB, iepirkumiParādīt komentārus

Vieni no biežākajiem open data projektiem pasaulē ir valsts un pašvaldību publisko iepirkumu datu analīze. Arī Latvijā publisko iepirkumu dati it kā ir atvērti un tos var sameklēt Iepirkumu uzraudzības biroja datubāzē. Bet realitātē, tas, kas tur atrodas, izskatās pēc MS Word formām, kas saglabātas HTML formātā, un nekādu kopsavilkuma analīzi par to, kurš no kā un kad un par cik ir pircis, izdarīt nevar.

Jau kādu laiku brieda doma par to, ka būtu ļoti vērtīgi pārvērst šos iepirkuma rezultātu paziņojumus analizējamos datos. Motivācija sākt darbu pie šī projekta radās, satiekot Ingu Spriņģi no Baltijas pētnieciskās žurnālistikas centra Re:Baltica un šīs sadarbības rezultātā radās Re:Baltica pētījums par būvniekiem, partijām, iepirkumiem. Par šo pētījumu vakardien bija arī TV3 raidījuma Nekā Personīgi sižets, kur parādos arī es un pastāstu par atvērto datu kustību :)

IUB rezultātu publikāciju apstrāde tehnoloģiski bija diezgan sarežģīta problēma:

  • Vispirms vajadzēja savākt visas IUB publikācijas - kopš 2010. gada sākuma to bija ap 80 000.
  • No HTML dokumentiem vajadzēja atpazīt, kuras ir rezultātu publikācijas (tika apstrādāti dokumenti ar virsrakstiem INFORMATĪVS PAZIŅOJUMS PAR NOSLĒGTO LĪGUMU, PAZIŅOJUMS PAR IEPIRKUMA PROCEDŪRAS REZULTĀTIEM, PAZIŅOJUMS PAR LĪGUMA SLĒGŠANAS TIESĪBU PIEŠĶIRŠANU SABIEDRISKIE PAKALPOJUMI, BRĪVPRĀTĪGS PAZIŅOJUMS PAR IEPIRKUMA REZULTĀTIEM).
  • Tālāk katrā dokumentā vajadzēja atpazīt lēmuma pieņemšanas un publicēšanas datumus, pasūtītājus, to adreses un kontaktpersonas, CPV kodu (vienotā iepirkumu klasifikācija pa nozarēm), noslēgtos līgumus (vienā paziņojumā var būt minēti vairāki līgumi), katrā līgumā jāatpazīst piegādātājs, ar ko tiek slēgts līgums, piedāvātā cena un līguma summa, valūta, līguma nosaukums, kopējais piedāvājumu skaits.
  • Visu to apgrūtināja tas, ka kaut kad 2009./2010.gadā mainījas rezultātu publikācijas formas un daži apzinīgie pasūtītāji izmantoja jaunās formas, bet daži slinkākie turpināja copy/paste no vecajām formām.
  • Rezultātu publikāciju formās nav nekādas kontroles par datu kvalitāti, tā ka nācās identificēt biežākās formu aizpildītāju jaunrades idejas un tās salabot.
  • Pēc visu dokumentu sākotnējās apstrādes nācās strādāt pie vienādo pasūtītāju un piegādātāju identificēšanas. Izskatās, ka IUB neveic nekādu iesniegto dokumentu datu kvalitātes kontroli, kā rezultātā viena un tā paša pasūtītāja vai piegādātāja nosaukums var parādīties daudzās dažādās variācijās. Tādēļ centos identificēt vienādos pasūtītājus un piegādātājus pēc viņu reģistrācijas numuriem un izvēlēties biežāk lietoto nosaukumu (jo diemžēl Uzņēmuma reģistra dati pie mums nav atvērti, lai jebkurš varētu masveidā pārbaudīt uzņēmumu reģistrācijas numurus).
  • Bet tad sekoja nākamā problēma, ka nav arī nekādas datu kvalitātes kontroles par ievadītajiem reģistrācijas numuriem - sākot no tā, ka dažkārt ir ievadīts pilnais numurs ar 11 cipariem, dažreiz 9 cipari bez pirmā un pēdējā cipara, dažreiz ievadīts PVN reģistrācijas numurs. Bet dažkārt bija vēl sliktāk, ka no reģistrācijas numura vispār kāds cipars pazudis un dažreiz ir ievadīts pilnīgi cita uzņēmuma reģistrācijas numurs (droši vien pēc copy/paste no iepriekšējās publikācijas piegādātāja nosaukumu nomainīja, bet reģistrācijas numuru nē). Šadas problēmas ar lielākajiem piegādātājiem varēja pamanīt veicot tikai sākontējo datu analīzi un tad vajadzēja manuāli tos labot, lai saliktu kopā vienu un to pašu piegādātāju vai pasūtītāju.
  • Visbeidzot arī nācās identificēt pārsūdzētos un atkārtoti izsludinātos iepirkumu rezultātus un atstāt tikai pēdējo rezultātu publikāciju pēc atbilstošā pasūtītāja norādītā iepirkuma identifikācijas numura. Tā kā par atkārtotām publikācijām diemžēl ir grūti identificēt, vai tās papildina vai aizstāj agrākas publikācijas, tad šeit var būt kļūdas, ka kādās iepriekšējās publikācijas tiek nepareizi aizstātas ar jaunākām.
  • Izskatās, ka dažiem formu aizpildītājiem arī trūkst elementāras datorprasmes. Atceros no skolas laikiem, kā mums mācīja likt pēdiņas - sākumā divas apakšā un beigās divas augšā. Daži tā raksta arī uz datora - tā kā nevar atrast apakšējās pēdiņas, tad sākumā liek divus komatus un beigās divus apostrofus, piemēram SIA ,,Sviests'' :)

Bet rezultātā veiksmīgi izdevās izveidot analizējamu datu kopu un ielādēt to eazyBI analīzes rīkā. Sadarbībā ar Re:Baltica tika izveidota papildus iepirkumu datu analīze sasaistot to ar agrāk apstrādātajiem partiju ziedotāju datiem. Tika identificēti, kuru būvfirmu īpašnieki vai amatpersonas ir ziedojuši partijām 2010. un 2011. gadā un attiecīgi kādos publiskajos iepirkumos šīs būvfirmas ir uzvarējušas. Lasiet vairāk par šo pētījumu Re:Baltica lapā. Šeit ievietoju vienu kopsavilkuma grafiku par iepirkuma publikāciju kopējo summu pa mēnešiem un cik no šīs summas sastāda ar būvniecību saistītie iepirkumi:

Līdzīgu analīzi var veikt arī par iepirkumiem citās nozarēs (nozaru klasifikācija tiek veikta pēc norādītā CPV klasifikācijas koda, kas arī diemžēl bieži ir norādīts kļūdaini). Piemēram, izveidoju top IT projektu atskaiti, kurā redzami lielākie IT pakalpojumu nozares projekti, sagrupēti pēc piegādātjiem un pasūtītājiem.

Rezultātā pēc visas šīs ņemšanās ar iepirkumu rezultātu publikācijām radās dažas pārdomas:

  • Dati ir vērtīgi tikai tad, ja tie ir kvalitatīvi. Redzot, par kādām summām tiek veikti publiskie iepirkumu, es domāju, ka varētu veltīt mazliet vairāk laika, lai pārbaudītu iesniegto datu kvalitāti - vismaz pārbaudītu, lai pasūtītāju un piegādātāju reģistrācijas numuri un nosaukumi atbilstu uzņēmumu reģistram, lai CPV nozaru klasifikācijas kods būtu norādīts pareizi, lai kopsummas sakristu ar detalizētajām summām.
  • Ideālajā variantā vēlētos, lai IUB nevis tikai pārpublicētu iesniegtās rezultātu publikāciju MS Word formas, kas saglabātas HTML formātā, bet gan uzkrātu savā datubāzē strukturētu informāciju par to, kas no kā un kad un par cik ir iepircis. Ja šos datus saglabātu un pārbaudītu jau pie datu saņemšanas un ievades, tad datu kvalitāte būtu daudz augstāka un tad arī tie būtu daudz vieglāk pieejami analīzei.
  • Vajadzētu arī vienotas rekomendācijas par to, cik detalizēti pa pozīcijām ir jāizsludina iepirkumu un jāpublicē to rezultāti. Piemēram var salīdzināt medicīnas materiālu iepirkumu ar 172 pozīcijām par 367 tūkstošiem latu ar būvniecības iepirkumu ar vienu pozīciju par 88 miljoniem latu.
  • Tā kā par vienu iepirkumu var būt daudzas publikācijas, tad patreizējā brīdī ir grūti automātiski identificēt, kuras publikācijas (vai arī publikāciju atsevišķas pozīcijas) ir galējās un neapstrīdētās/neatceltās. To laikam var risināt tikai uzkrājot datus strukturētākā formā.

Ja jums rodas idejas, kā vēl varētu izmantot publisko iepirkumu datus vai arī kā uzlabot to pieejamību un kvalitāti, tad rakstiet to komentāros.

10.12.2011

Pirmais Open Data Day Hackathon ir noticis!

Publicēja Raimonds Simanovskis • Birkas: odhd, Saeima, hakatonsParādīt komentārus

Open Data kustība Latvijā ir oficiāli sākusies, jo 3. decembrī veiksmīgi notika pirmais Open Data Day Hackathon pasākums!

Uz pasākuma pirmo daļu bija ieradušies 10 dažāda profila interesenti un sākām ar iepazīšanos un ideju apmaiņu par open data iniciatīvām un potenciālajiem projektiem Latvijā. Pēc pasākuma uztapušajā wiki lapā varat apskatīt gan dalībnieku sarakstu, gan arī ideju un potenciālo projektu pierakstus. Priecē, ka open data idejas interesē dažādu jomu pārstāvjus - bija gan programmētāji, gan uzņēmēji, gan valsts institūciju pārstāvji, gan nevalstisko organizāciju pārstāvji, gan akadēmisko institūciju darbinieki, gan juristi (šoreiz gan atsevišķas jomas bija pārstāvētas vienskaitlī :)). Cerams, ka šo dažādo jomu pārstāvju sadarbība veicinās open data ideju popularizēšanu plāšākā sabiedrības lokā.

Pasākuma otrā daļa bija praktiskā "hakatona" sadaļa, kurā bez manis piedalījās vēl Jānis Baiža, Valdis Krebs, Uldis Bojārs un Pēteris Ručevskis. Iesākumā Valdis, Pēteris un Uldis strādāja pie jau agrāk manis sagatavotajiem partiju ziedotāju datiem, lai tos apstrādātu un izanalizētu kopsakarības ar SNA grafu analīzes rīku. Savukārt mēs ar Jāni uzsākām Saiemas sēžu darba kārtības un balsojumu datu iegūšanas programmas izstrādi, lai tos varētu izmantot tālākai Saeimas balsojumu analīzei.

Kā jau citās līdzīgās Latvijas valsts institūciju web lapās Saeimas sēžu darba kārtības un deputātu balsojumi ir pieejamas tikai kā individuālas web lapas, kas nav piemērotas analītisku datu iegūšanai. Tādēļ izveidojām programmu, kas iziet cauri visām Saeimas sēdēm un no šīm web lapām iegūst izejas datus par deputāti balsojumiem un sagatavo tos CSV failu formātā tālākai apstrādei. Rezultātā ieguvām gan 11. Saeimas visu balsojumu datus gan arī pāris dienu vēlāk tika sagatavoti 10. Saeimas balsojumu dati.

Nu un tālāk šos datus jau var izmantot dažāda veida analīzei - piemēram, kuri deputāti visvairāk neapmeklē sēdes, vai arī kuri apmeklē sēdes, bet nezin kāpēc bieži nepiedalās balsojumos. Šadu analīzi ar eazyBI palīdzību tagad var apskatīties, gan par 11. Saeimu, gan arī par 10. Saeimu. Kā piemēru šeit ievietoju 11. Saeimas "top bastotāju" tabulu :)

Par partiju ziedotāju un Saeimas deputātu balsojumu sociālo tīklu analīzes rezultātiem varat izlasīt Valda Kreba bloga rakstā. Šeit ievietoju viņa veidotā tīkla vizualizācijas piemēru, ko varētu arī saukt par politisko māklsu :)

Šos Saeimas balsojumu datus būtu interesanti arī paanalizēt tālāk, lai identificētu, kuriem deputātiem balsojums parasti sakrīt ar partijas viedokli un kuriem savukārt bieži nesakrīt. Kā arī varbūt parādās kādas citas saistības starp deputātiem, kas nav atkarīgas no partiju piederības.

Nobeigumā gribēju arī pateikt paldies eBIT par viesmīlīgajām "hakatona" telpām. Un domāju, ka tuvākajā nākotnē open data "hakatoni" noteikti tiks atkārtoti, tā ka lūdzu interesentus piebiedroties mūsu pulkam un to popularizēt tālāk! Sekojiet mums Twitter un Facebook lapās, kā arī "retwītojiet" un "laikojiet" tās :)

Vecāki ieraksti