Automatizované čistenie verejných dát

Keby niekoho zaujímalo, čomu som sa približne 1 rok v rámci bakalárskej práce venoval, môže si ju prečítať. A veľmi sa poteším, ak bude moja práca niekomu nápomocná.

Anotácia

Mnohé štátne inštitúcie majú povinnosť zverejňovať údaje na webe. Kým rôzne registre a vestníky sú dôležité pre správnu obchodnú komunikáciu, ďalšie údaje umožňujú verejnú kontrolu fungovania štátnych inštitúcií. Napriek tomu, že tieto údaje sú verejne dostupné na webe, ich formát a štruktúra je často nevhodný pre strojové spracovanie. Našim cieľom je vyčistiť tieto údaje, aby sme umožnili ich ďalšie strojové spracovanie.

Po stiahnutí údajov z rôznych verejných webových zdrojov (napríklad obchodný register, živnostenský register, Štatistický úrad, Ministerstvo spravodlivosti, centrálny register zmlúv) v rôznych formátoch (html, pdf, xls), parsovaním extrahujeme štruktúrované údaje do vhodného formátu (relačná databáza). Následne vyvinieme metódu založenú na strojovom učení pre vyčistenie týchto údajov od preklepov a ďalších nejednoznačností (rôzne tituly, zmena adresy). Metódu overíme porovnaním s baseline algoritmom a ručne označenými dátami.

Veríme, že výsledok našej práce aspoň v malej miere pomôže organizáciám ako Aliancia Fair-play alebo Transparency International v úsilí o zvýšenie transparentnosti na Slovensku.

Stiahnutie

Automatizované čistenie verejných dát

Licencia

Creative Commons License
Automatizované čistenie verejných dát by Martin Lipták is licensed under a Creative Commons Attribution-NoDerivs 3.0 Unported License.
Permissions beyond the scope of this license may be available at https://martinliptak.wordpress.com/2012/05/18/automatizovane-cistenie-verejnych-dat/.

2 thoughts on “Automatizované čistenie verejných dát

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s