За да се използват ефективно, данните трябва да бъдат структурирани.

С Благослав Михайлов, основател на Стража.бг, разговаряха Диана Банчева и Катерина Коцева, ПДИ

Благослав Михайлов

Какво е Стража.бг?

 

Един проект, започнал с конкретна идея и променил се с времето. В самото начало искахме да направим платформа, която подобно на немската версия „Abgeordneten Watch“ да позволява на гражданите да задават въпроси на своите представители и те да им отговарят. За да направим такъв тип сайт, се изисква да имаме информация кои са народните представители. Така че първото, с което започнах, е да видя какви данни има онлайн за народните представители и каква е тяхната дейност. Задаването на въпросите все още го има като план за бъдещето, но това е нещо, към което някак си плахо подхождаме, защото не сме сигурни дали въобще депутатите ще искат да ни отговарят.

 

В начало ми изглеждаше невъзможни да се постигне това, което искаме – да имаме портал за гласувания и за изказвания на депутатите. Като се захванах с данните на парламента, ми хрумнаха много идеи, върху които работя през последната година. Осъществил съм вече доста от тях. Например, търсачка на изказванията беше нещо, което се чудех въобще дали е възможно да се направи, а в крайна сметка я пуснахме преди малко повече от два месеца. Като гражданин много съм търсил данни, които са ме интересували, и съм откривал, че е почти невъзможно да намеря това, което искам. Дори аз, който разбирам от компютри и имам умението за боравенето с данни.


Как успявате да поддържате и развивате проекта?

 

Институционално, ние имаме много различен модел на финансиране, в сравнение с много други НПО-та. Изцяло разчитаме на крауд фъндинг[1]. Приемаме единствено малки дарения от физически лица. Не приемаме големи дарения и дарения от юридически лица. Знам, че това е радикално, защото е доста стриктно правило, което елиминира много възможности за финансиране.


Защо сте решили да организирате подкрепата по този начин?

 

Това е начин да декларираме нашето намерение да бъдем напълно независими. Целим чрез тази демонстрация да получим и доверието на хората. Подобни проекти е по-добре да не ги развиват партии, а да се развиват като независими инициативи – това беше една от мотивациите ми да търся такава радикална независимост в СТРАЖА. Нашият фокус е да сме различни. Мисля, че и затова хората ни харесват, защото според мен търсят нещо различно. Целта ни е нашата дарителска маса да е разпръсната. Искаме възможно най-много хора да даряват, така че да са равнопоставени помежду си, за да имаме финансовия стимул да служим на една маса от хора, която е представителна за гражданското общество в България.

 

Във връзка с финансирането, публикуваме детайлни отчети в разбираем вид, вградени в самия сайт, не сканирани pdf, а такива, които човек може да намери и да види за части от секундата. Статистика за даренията публикуваме в машинно читаем вид. Нашите усилия са да има максимална прозрачност. Затова сме избрали тази уникална структура на финансиране.


Вие успявате ли да се издържате с тази форма на дарения?

 

Да, да. Аз от няколко месеца лично се издържам от тези дарения, защото работя на пълно работно време за СТРАЖА в момента. Останалите са на доброволчески принцип, в свободното си време. Този модел трудно се задвижва, но реално се получава. Не очаквах да ни се получи, но можем само с крауд фъндинг, с подкрепата на гражданите, да правим инициативи, които да са в полза на тези граждани и те да имат доверие в тях. За мен лично доверието е най-важно.


Освен вас – говорите в множествено число – кои са другите хора от екипа?

 

Аз обичам да говоря с „ние“, защото иначе звучи много нарцистично, но ако трябва да сме напълно честни, аз правя почти всичко – уеб разработката, извличането на данните и вкарването им в нашата база данни. Кое не правя аз? Реално този проект дойде по идея на Фридрих Крепиев, който е идейният човек, създава контакти с хора, помага ми да движа организацията. Понеже ние правим анализи, трябват ни политолози, трябват ни хора, които боравят с данни, и ни такива, които разбират от маркетинг. Стратегията ни в социалните мрежи е най-големият ни приоритет, защото иначе никой няма да знае за нас. Мисля, че там всъщност постигнахме успех. Политологът ни е Здравко Черкезов – помага ни с анализите, които са групово усилие, защото там наистина трябва експертиза на повече хора. Член на екипа е Александър Щедрицки, докторант по изкуствен интелект в Оксфорд, който борави много добре с данни и помага с анализи и изчисления. От анализите извличаме цифри. Върху тях трябва интерпретация от политолог. Здравко работи в медия и постоянно следи всичко, той винаги знае какво става в политиката. Наскоро Михаил Мишев се включи в екипа и помага със социалните медии. Реално аз се включвам във всички тези неща, но по малко, понеже събирам цялото нещо заедно. В момента сме открили, че тази стегната структура ни върши най-много работа, защото сме опитвали да се разрастваме и не ни се получи.    


Кога беше началото на работата ви по платформата?

 

Идеята се зароди края на май – началото на юни 2021 г. От 15 юни сериозно започнахме да работим, като аз много държах да учредим фондация, да имаме юридическо лице. На 5 юли беше учредена фондацията официално, на 7 юли беше вписана в Търговския регистър. Август месец вече имахме ранна версия на сайта на СТРАЖА.бг. Интересно е, че различни хора търсеха имена на депутати и така стигаха до нашата платформа. На 17 октомври пуснахме официално фейсбук страницата. Получихме доста внимание, за един ден имахме 1000 лайка. Октомври-ноември месец правих платежна система да можем да получаваме дарения. Декември месец положих доста усилия да обработвам стенограмите. Имаме стенограми от 20 години назад,. Решихме да работим в този времеви период. Технически, една стенограма е един блок от текст, не е структурирана информация. А за целите на платформата ни трябваше база данни. Написах алгоритъм, който взема името на народния представител и това, което е казал. По този начин - свързвайки изказването с дадена идентичност, ние можем да имаме поименна база данни от изказванията. Т.е. можеш да отвориш конкретен народен представител и да видиш това, което той е казал, независимо на коя дата, защото иначе имаш изказванията само по заседания.



strazha.bg

Как получихте стенограмите – под каква форма, в какъв формат?

 

Това е нещо, за което може да бъде похвален парламентът, защото миналата година през лятото направиха сайта си на сингъл пейдж апп, което означава, че сайтът се свързва със сървър, за да сваля данните. По този начин информацията се сваля в json формат[2]. Преди сайтът беше структуриран така, че получаваш страницата с данните вече вътре, генериран html, и трябва оттам вече да си извлечеш каквото ти трябва. Сега сайтът си изтегля данните от API[3]. Така успях да се вържа директно към него и да сваля всички тези неща в машинно четим формат за нула време.


Как обработвате стенограмите?

 

От тях извличам изказванията. За последните 20 години имаше около 500 хил. изказвания, 74 милиона думи, 3 хил. заседания, т.е. огромен обем информация, от който трябва да извлека всички изказвания. В началото това изглеждаше много трудно, защото има много грешки в стенограмите. Много печатни грешки, грешки в имена и години, които пречат на алгоритъма еднозначно да определи кой какво е казал. Аз ръчно ги оправих всичките. И това е, което отнема много време.

 

Би било много хубаво един ден да имаме стенограми, в които има някакъв идентификационен код, например номерът на депутатската карта. Може би един ден ще се записва кой излиза да говори, колко време говори. В момента стенограмите са едни текстове. Ние сме говорили с администрацията на парламента дали може да се подобри записът и те казват, че стенографският отдел, който съществува от 100 години и повече, много трудно може да промени начина си на работа. Единственото, за което успяхме да се преборим успешно, беше да се скъси срокът за публикуване на поименните гласувания – от 7 дни на 24 часа


Това е така наречената „поправка СТРАЖА“?

 

Да, аз реших да я наричаме така, за да е по-ефектно. В началото на декември, когато избраха новия парламент, се сформира Комисия за изменение на правилника. Тогава видяхме възможност да пишем на тази Комисия да променят съответния член за сроковете на публикуване и поправката и беше приета. Много се зарадвахме, но за жалост поправката не се спазва изцяло, което за нас е много фрустриращо, защото има много интересни събития, за които ние искаме да се знае на следващия ден, за да могат хората да видят техният депутат, от техния район, как е гласувал, за да могат да му търсят отговорност. Когато информацията е достъпна след 7 дни, на хората вече не им е интересно. Гражданският контрол се губи, когато публикуването се бави. Имаше много скандални неща – например, гласуваха нещо за Украйна и после излизат в отпуска. И две седмици не публикуват нищо, а са длъжни до 24 часа. На мен лично ми пишат хората и казват: искам да видя това гласуване. И аз казвам – чакай малко сега, от парламента не са го публикували. И хората се ядосват.


Какви други набори от данни ползвате, за да генерирате тази информация, която виждаме на вашата платформа?

 

Първо, през сайта на парламента, през API-то, дърпаме списъци с депутатите, където има данни в кои парламентарни групи членуват и в кои комисии участват. След това, имаме информация за всяко заседание, т.е. стенограма – просто един голям текст, който се обработва с алгоритмите, за които споменах. Последното е един ексел файл (пускат го и в csv формат), в който пише всеки депутат как е гласувал поименно. Използваме този файл, за да генерираме поименните гласувания, които се виждат на сайта ни – за всеки вот всеки от депутатите как е гласувал в лично качество. Основно използваме тези 3 масива, като аз ги обновявам 2-3 пъти в седмицата, понеже самият парламент ги обновява на такъв интервал.


Какви трябва да са отворените данни?

 

Проблемът с данните, с които боравя, е че нямат структура. Аз трябва да извеждам тази структура на базата на някакви евристики. За да отнеса изказване към депутат, мога да свързвам данните, мога да ги структурирам, но по някакви много сложни начини. Например, някой ден много бих се радвал вместо да разполагаме със стенограмата, която да е просто един много дълъг текст, да имаме структурирани данни, т.е. изказване от даден депутат, започващо от тази минута, до тази минута. Тогава бихме могли да групираме изказванията, формирайки дебат по дадена тема, и да създаваме връзки – всяко гласуване да е свързано с определен законопроект, а самият законопроект да е в машинно четим вид. Реално, ако тези данни са представени по добър начин, ние ще можем да имаме платформа, където гражданинът да може да намери всичко за парламента. Да може да види, кога нещо е гласувано, кой е гласувал. Дори ако самите поправки в законите се правят в машинно четим вид, ще можем да отворим и да видим текста, който се гласува. Защото в момента дори със СТРАЖА е много трудно да се разбере какъв текст всъщност се гласува. Депутатът, като си дава гласа „за“, какъв текст подкрепя.

 

Би било хубаво да има една платформа за закони и да може да се види всяка поправка на всеки член. Това по принцип е възможно. Проблемът е, че тази информация се предоставя в сканиран вид, а не в машинно четим вид. Всичко това трябва да го прави държавата. Аз бих искал това, което прави СТРАЖА, да го прави държавата. Бих предпочел да живея в общество, в което СТРАЖА не се налага да съществува като фондация. Според мен нуждата от това е доста остра – от повече прозрачност в тази сфера.


Какво друго според Вас трябва да се подобри по отношение на публичните данни?

 

Аз лично мисля, че първият приоритет на държавните сайтове трябва да е информацията да бъде възможно най-достъпна за гражданите. Хората не обичат да четат глупости. Те искат да им е показано ясно, да им е цветно, да им е визуализирано. Това искат. Аз това искам. Трябва да има повече усилия тези неща да са най-достъпни. Всичките тези отворени данни сега  е хубаво, че се предоставят. Но ми се струва, че се предоставят за експерти най-вече, не за обикновени хора. Няма никакви усилия да са разбираеми за обикновените хора. Защо да не живеем в свят, където гражданинът да може сам да се осведомява, сам да си стига до заключения. Аз мисля, че за да се борим с дезинформацията, трябва да можем сами да се информираме. Защото човек най-вече вярва на очите си и на своя разсъдък.     


Какви са непосредствените планове за надграждане на платформата?

 

Аз мисля, че финансовата информация е много важна. Конкретно искам да може българските граждани много по-лесно да виждат тяхната държава колко харчи и за какво. Защото много хора просто не знаят, а и е трудно да се информират. Истината е, че просто не се полагат усилия тези неща да се показват разбираемо. Човек в крайна сметка иска да може да разгледа, да види разбивки откъде идват тези пари, къде отиват; да погледне нещата хем просто, хем когато иска, да може да задълбае в нещо. Затова някак си вярвам, че ще бъде много интересно да направя платформа за бюджета, всъщност вече работя върху нея, но още не е готова. Искам всеки да може да види консолидираната фискална програма и отчет за всички публични финанси, както и как са се променяли във времето. Например, покрай вота на недоверие излязоха едни твърдения, че Министерство на регионалното развитие и благоустройство искали много пари. Човек ги чува тези неща и как може да провери реално колко е бил бюджетът на Министерството на регионалното развитие преди. Аз самият не знам откъде да започна. И тук пак стигаме до това, че хората се информират от други хора. А човек може да каже каквото си иска. Може да бъде много по-различно, сами да преглеждаме данните.


Какви данни ще ползва  новата бюджетна платформа?

 

Планирам да взема отчетите на консолидираната фискална програма, държавния бюджет и изпълнението на държавния бюджет. Това са страшно много цифри. Моята цел е да направя тези цифри по-прегледни, да могат хората да ги видят, да се образоват. Ако човек се чуди колко харчи държавата за това или колко пари взема от този данък, да може да отвори и да види. Да се информира един данък примерно колко е важен за бюджета. Защото утре ще се обсъждат данъци, някой ще каже „дай да променим тоя данък“, друг ще излезе и ще каже – „ей, този данък, ако го промениш, ще нараниш фискалната стабилност на страната“. Сега, тези твърдения как да ги провери човек. Откъде да знае въобще. Когато нещата са толкова сложни, има много начини да бъдем подведени.

 

Моята кауза е тези данни да ги направя по-достъпни за гражданите. Наличието на данни, колкото да ги има, според мен не е достатъчно. Не мисля, че това решава проблема с прозрачността. Ако някой експерт прави анализи и заключения върху информационни масиви, за гражданина няма да е от полза. За да има гражданинът ползата от данните, трябва сам да ги вижда, така сам може да си извлече някакво заключение. За да има доверие в информацията, трябва да има визуализация и интерфейси, които да позволяват това.

 

 



[1] Сrowd funding – букв. „финансиране от тълпата”

[2] Текстово базиран отворен стандарт, създаден за човешки четим обмен на данни

[3] Приложен програмен интерфейс

© 2022 Програма Достъп до Информация
Материалите в Информационния бюлетин на Програма Достъп до Информация са обект на авторско право.
При цитиране позоваването на източника е задължително.