Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Vytvořit ověřování rozparsovaných dokumentů #10

Open
suchoss opened this issue Nov 18, 2019 · 4 comments
Open

Vytvořit ověřování rozparsovaných dokumentů #10

suchoss opened this issue Nov 18, 2019 · 4 comments
Labels
enhancement New feature or request

Comments

@suchoss
Copy link
Member

suchoss commented Nov 18, 2019

Tohle není tak úplně pro OcrMinion, ale na server.
Je potřeba na serveru nastavit, aby jeden obrázek parsovali alespoň dva odlišné api klíče (kontrola), abychom odfiltrovali případné záškodníky, kteří by posílali pouze vadné dokumenty.

V případě shody bude obrázek uložen.
V případě neshody bude obrázek zahozen.

@suchoss suchoss added the enhancement New feature or request label Nov 18, 2019
@pdostal
Copy link

pdostal commented Nov 19, 2019

V případě neshody bude obrázek zahozen.

Podle mě bude takových případů spousta - OCR není dokonalá technologie.
Můj nápad je ulkádat si všechny odlišné verze a nad nimi dělat diff a případně další kouzla.

Nevím taky kolik toho umí tesseract-ocr ale třeba Abby umí říct nakolik si je jistý.

@suchoss
Copy link
Member Author

suchoss commented Nov 19, 2019

Určitě to budeme muset následně porovnávat nějakým algoritmem, ne jen (x1==x2). Myslím si, že Tesseract taky vrací pravděpodobnost.

@lukas-lansky
Copy link

Diffování je attack vector -- záměrně upravená smlouva, která je na 99 % podobná (tj. obsahuje o dvě nuly míň), je stejně nebezpečná, jako z 20 % podobná. Určitě nemůžete věřit žádné pravděpodobnosti, kterou vám vrátí jakýkoliv klient. Co byste teoreticky mohli vymýšlet je reputační systém pro nody, kde by spory řešily stroje, kterým věříte. ALE.

Nedeterminizmus je pro Tesseract AFAIK bug. Nedeterminizmus chápu jako dva rozdílné výsledky pro stejný obrázek zpracovaný stejnou verzí nástroje. To, že dva trochu odlišné obrázky můžou být zpracovány všelijak různě je samozřejmě pravda, ale to není náš problém. Problém je na pixel stejný vstup.

Pokud máte měření, že je ten nástroj pro dva totožné vstupy schopen vrátit odlišné výsledky, určitě by bylo zajímavé jej pro mě a budoucí generace přiložit.

@suchoss
Copy link
Member Author

suchoss commented Dec 3, 2019

@lukas-lansky díky za info. Určitě se na to zkusíme podívat. Osobně jsem zatím s Tesseractem moc nepracoval. Budu to muset prověřit.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

3 participants