We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Umi-OCR_Paddle_v2.1.3_beta_1
win10
PaddleOCR
因为我自动化程序默认使用的是fullPage模式的,但是有个别保单文档出现关键的信息识别不全的情况,换了mixed模式又能正确识别。但是mixed模式也会有一部分保单文档识别不出。详见下面文件和截图。想问一下大佬,是否有解决方案能够自动化处理这种情况的? 目前大部分情况fullPage是可以的。少数的需要修改模式后再试一下。
这个文档是fullPage漏字,mixed模式识别可行 曹佩妮沪AF72353商业.pdf doc.extractionMode用fullPage模式下会漏掉识别保险期间的关键文字 fullPage下识别不全: 但是在mixed模式下识别是完整的:
下面这个文档是反之的情况: +上海哲珍车辆租赁有限公司沪GD0987交强.pdf mixed模式下几乎没有文字: 但是在fullPage模式下又可以了:
The text was updated successfully, but these errors were encountered:
您好,你上传的这两份样本有本质的不同。
第一份(AF72353)中的内容是编码文本,因此 mixed 模式能不经过OCR直接读取文本。fullPage会将页面渲染为图像后OCR,因此也能提取出文本。我这边测试,不管什么模式都没有漏字现象,保险期间自…………止 这句话都是存在的。你可以尝试导出一份txt格式的结果来检查。
保险期间自…………止
第二份(GD0987)则是一种更特殊的格式,其中所有的文本都是独立的矢量图形,既不是编码文本,也不是可提取图像,“不在三界内、跳出五行中”,因此 mixed 模式中程序无法辨别它。
因此,建议你主要使用 fullPage 模式以确保最大兼容性。个别文档出现信息识别不全的情况,请先辨别是以下哪种情况,然后再对症下药。
Sorry, something went wrong.
No branches or pull requests
Issues
Umi-OCR version 程序版本
Umi-OCR_Paddle_v2.1.3_beta_1
Windows version 系统版本
win10
OCR plugins Used 使用的OCR插件
PaddleOCR
Reproduction steps 复现步骤
因为我自动化程序默认使用的是fullPage模式的,但是有个别保单文档出现关键的信息识别不全的情况,换了mixed模式又能正确识别。但是mixed模式也会有一部分保单文档识别不出。详见下面文件和截图。想问一下大佬,是否有解决方案能够自动化处理这种情况的?
目前大部分情况fullPage是可以的。少数的需要修改模式后再试一下。
Problem screenshots or related files (optional) 问题截图或相关文件(可选)
这个文档是fullPage漏字,mixed模式识别可行
曹佩妮沪AF72353商业.pdf
doc.extractionMode用fullPage模式下会漏掉识别保险期间的关键文字
fullPage下识别不全:
但是在mixed模式下识别是完整的:
下面这个文档是反之的情况:
+上海哲珍车辆租赁有限公司沪GD0987交强.pdf
mixed模式下几乎没有文字:
但是在fullPage模式下又可以了:
The text was updated successfully, but these errors were encountered: