Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Zlepšit detekci znaků obcí #12

Open
zoul opened this issue Mar 18, 2020 · 2 comments
Open

Zlepšit detekci znaků obcí #12

zoul opened this issue Mar 18, 2020 · 2 comments
Labels
kvalita dat Co by mohlo být v datech líp?

Comments

@zoul
Copy link
Member

zoul commented Mar 18, 2020

V cityvizor/cityvizor#91 jsme nahodili základní verzi, která funguje takhle: Poloručním scrapingem jsme udělali seznam URL znaků na Wikimedia Commons. A když pro nějakou obec hledáme znak, tak zkusíme podle názvu obce najít její stránku na Wikipedii a pokud se tahle stránka odkazuje na některý z obrázků znaků, tak víme, že to bude její znak.

To je samozřejmě ohavný hack – jednak ten scraping proběhl napůl ručně, takže nereflektujeme žádné novější změny, jednak jsme načetli pouze znaky ve formátu SVG, zatímco řada z nich má formát PNG a JPEG, a jednak párujeme obce se znaky na základě názvu obce, který není jedinečný. I kdybychom zůstali u toho tahání znaků z Wikipedie (o lepším zdroji zatím nevím), furt je tu velký prostor pro zlepšení.

PS. A jelikož tady určitě nikdy nenajdeme vyčerpávající zdroj dat, bylo by dobré přidat též možnost ručního doplňování, tedy statickou mapu IČO obce → URL znaku, která se při zpracování dat sloučí do výstupu. (Anebo to nahrát na Wiki?)

PPS. To párování odkazu na znak s nějakým předem daným statickým seznamem sice dobře eliminuje různé false positives, ale možná by bylo perspektivnější udělat nějakou heuristiku na té stránce obce a vůbec nedělat seznam znaků.

@zoul zoul changed the title Zlepšit automatické doplňování znaků obcí Zlepšit detekci znaků obcí Mar 18, 2020
@zoul zoul added the kvalita dat Co by mohlo být v datech líp? label Mar 22, 2020
@michto01
Copy link
Contributor

michto01 commented Apr 26, 2020

Při hledání jak je na tom se scrapovatelností REKOS a prohlížení ovm.json jsem narazil na to, že https://vdp.cuzk.cz/vdp/ruian/obce/554782 jde poslední číslo je kód obce tak se u docela dost záznamu objevuje znak a vlajka (nebo kombinace) ...

problematické je, že v případě chybějícího obrázku se zobrazí hvězda, ale to by možná šlo nějak vyfiltrovat...

@michto01
Copy link
Contributor

michto01 commented Apr 27, 2020

Udělal jsem malý experiment jak propojit VDP a REKOS: https://github.com/michto01/obce-symboly-experiment není to žádná sláva spíše jako proof-of-concept, ale pro inspiraci a diskuzi snad dobrý...

výsledek pro 599140 (Stonava):

{
  vlajka: 'https://vdp.cuzk.cz/vdp/ruian/obce/599140/vlajka',
  symbol: 'https://vdp.cuzk.cz/vdp/ruian/obce/599140/znak',
  pou: 'Karviná',
  kraj: 'Moravskoslezský kraj',
  okres: 'Karviná',
  name: 'Stonava',
  LUA2: 'CZ0803599140',
  REKOS: {
    url: 'https://rekos.psp.cz/detail-symbolu/id/b708ccd5-8daf-4c0f-bd43-c51644008876',
    content: {
      znak: {
        popis: 'V zeleném štítě stříbrný korunovaný gryf se zlatou zbrojí držící zlatý štítek s černým majuskulním "S".',
        url: 'https://rekos.psp.cz/data/images/37527/800x500/stonava.jpg'
      },
      vlajka: {
        popis: 'Zelený list s figurou ze znaku obce ᾢ zelený list s bílým gryfem se žlutou korunou a zbrojí, držící žlutý štítek s černým majuskulním "S". Poměr šířky k délce je 2:3.',
        url: 'https://rekos.psp.cz/data/images/33138/800x500/599140.gif'
      }
    }
  }
}

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
kvalita dat Co by mohlo být v datech líp?
Projects
None yet
Development

No branches or pull requests

2 participants