-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Zlepšit detekci znaků obcí #12
Comments
Při hledání jak je na tom se scrapovatelností REKOS a prohlížení ovm.json jsem narazil na to, že https://vdp.cuzk.cz/vdp/ruian/obce/554782 jde poslední číslo je kód obce tak se u docela dost záznamu objevuje znak a vlajka (nebo kombinace) ... problematické je, že v případě chybějícího obrázku se zobrazí hvězda, ale to by možná šlo nějak vyfiltrovat...
|
Udělal jsem malý experiment jak propojit VDP a REKOS: https://github.com/michto01/obce-symboly-experiment není to žádná sláva spíše jako proof-of-concept, ale pro inspiraci a diskuzi snad dobrý... výsledek pro 599140 (Stonava): {
vlajka: 'https://vdp.cuzk.cz/vdp/ruian/obce/599140/vlajka',
symbol: 'https://vdp.cuzk.cz/vdp/ruian/obce/599140/znak',
pou: 'Karviná',
kraj: 'Moravskoslezský kraj',
okres: 'Karviná',
name: 'Stonava',
LUA2: 'CZ0803599140',
REKOS: {
url: 'https://rekos.psp.cz/detail-symbolu/id/b708ccd5-8daf-4c0f-bd43-c51644008876',
content: {
znak: {
popis: 'V zeleném štítě stříbrný korunovaný gryf se zlatou zbrojí držící zlatý štítek s černým majuskulním "S".',
url: 'https://rekos.psp.cz/data/images/37527/800x500/stonava.jpg'
},
vlajka: {
popis: 'Zelený list s figurou ze znaku obce ᾢ zelený list s bílým gryfem se žlutou korunou a zbrojí, držící žlutý štítek s černým majuskulním "S". Poměr šířky k délce je 2:3.',
url: 'https://rekos.psp.cz/data/images/33138/800x500/599140.gif'
}
}
}
} |
V cityvizor/cityvizor#91 jsme nahodili základní verzi, která funguje takhle: Poloručním scrapingem jsme udělali seznam URL znaků na Wikimedia Commons. A když pro nějakou obec hledáme znak, tak zkusíme podle názvu obce najít její stránku na Wikipedii a pokud se tahle stránka odkazuje na některý z obrázků znaků, tak víme, že to bude její znak.
To je samozřejmě ohavný hack – jednak ten scraping proběhl napůl ručně, takže nereflektujeme žádné novější změny, jednak jsme načetli pouze znaky ve formátu SVG, zatímco řada z nich má formát PNG a JPEG, a jednak párujeme obce se znaky na základě názvu obce, který není jedinečný. I kdybychom zůstali u toho tahání znaků z Wikipedie (o lepším zdroji zatím nevím), furt je tu velký prostor pro zlepšení.
PS. A jelikož tady určitě nikdy nenajdeme vyčerpávající zdroj dat, bylo by dobré přidat též možnost ručního doplňování, tedy statickou mapu IČO obce → URL znaku, která se při zpracování dat sloučí do výstupu. (Anebo to nahrát na Wiki?)
PPS. To párování odkazu na znak s nějakým předem daným statickým seznamem sice dobře eliminuje různé false positives, ale možná by bylo perspektivnější udělat nějakou heuristiku na té stránce obce a vůbec nedělat seznam znaků.
The text was updated successfully, but these errors were encountered: