-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Vytvořit ověřování rozparsovaných dokumentů #10
Comments
Podle mě bude takových případů spousta - OCR není dokonalá technologie. Nevím taky kolik toho umí |
Určitě to budeme muset následně porovnávat nějakým algoritmem, ne jen |
Diffování je attack vector -- záměrně upravená smlouva, která je na 99 % podobná (tj. obsahuje o dvě nuly míň), je stejně nebezpečná, jako z 20 % podobná. Určitě nemůžete věřit žádné pravděpodobnosti, kterou vám vrátí jakýkoliv klient. Co byste teoreticky mohli vymýšlet je reputační systém pro nody, kde by spory řešily stroje, kterým věříte. ALE. Nedeterminizmus je pro Tesseract AFAIK bug. Nedeterminizmus chápu jako dva rozdílné výsledky pro stejný obrázek zpracovaný stejnou verzí nástroje. To, že dva trochu odlišné obrázky můžou být zpracovány všelijak různě je samozřejmě pravda, ale to není náš problém. Problém je na pixel stejný vstup. Pokud máte měření, že je ten nástroj pro dva totožné vstupy schopen vrátit odlišné výsledky, určitě by bylo zajímavé jej pro mě a budoucí generace přiložit. |
@lukas-lansky díky za info. Určitě se na to zkusíme podívat. Osobně jsem zatím s Tesseractem moc nepracoval. Budu to muset prověřit. |
Tohle není tak úplně pro OcrMinion, ale na server.
Je potřeba na serveru nastavit, aby jeden obrázek parsovali alespoň dva odlišné api klíče (kontrola), abychom odfiltrovali případné záškodníky, kteří by posílali pouze vadné dokumenty.
V případě shody bude obrázek uložen.
V případě neshody bude obrázek zahozen.
The text was updated successfully, but these errors were encountered: