Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

有些保险保单的pdf文档,doc.extractionMode参数用fullPage模式会缺失有些信息,换mixed模式又可以识别出。 #740

Open
1 task done
Jerryyuanyuan opened this issue Dec 4, 2024 · 1 comment

Comments

@Jerryyuanyuan
Copy link

Issues

  • I have browsed through the Issues. 我已浏览过Issues,确定没有重复提问。

Umi-OCR version 程序版本

Umi-OCR_Paddle_v2.1.3_beta_1

Windows version 系统版本

win10

OCR plugins Used 使用的OCR插件

PaddleOCR

Reproduction steps 复现步骤

因为我自动化程序默认使用的是fullPage模式的,但是有个别保单文档出现关键的信息识别不全的情况,换了mixed模式又能正确识别。但是mixed模式也会有一部分保单文档识别不出。详见下面文件和截图。想问一下大佬,是否有解决方案能够自动化处理这种情况的?
目前大部分情况fullPage是可以的。少数的需要修改模式后再试一下。

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

这个文档是fullPage漏字,mixed模式识别可行
曹佩妮沪AF72353商业.pdf
doc.extractionMode用fullPage模式下会漏掉识别保险期间的关键文字
图片
fullPage下识别不全:
图片
但是在mixed模式下识别是完整的:
图片

下面这个文档是反之的情况:
+上海哲珍车辆租赁有限公司沪GD0987交强.pdf
mixed模式下几乎没有文字:
图片
但是在fullPage模式下又可以了:
图片

@hiroi-sora
Copy link
Owner

hiroi-sora commented Dec 5, 2024

您好,你上传的这两份样本有本质的不同。

第一份(AF72353)中的内容是编码文本,因此 mixed 模式能不经过OCR直接读取文本。fullPage会将页面渲染为图像后OCR,因此也能提取出文本。我这边测试,不管什么模式都没有漏字现象,保险期间自…………止 这句话都是存在的。你可以尝试导出一份txt格式的结果来检查。

第二份(GD0987)则是一种更特殊的格式,其中所有的文本都是独立的矢量图形,既不是编码文本,也不是可提取图像,“不在三界内、跳出五行中”,因此 mixed 模式中程序无法辨别它。

image

因此,建议你主要使用 fullPage 模式以确保最大兼容性。个别文档出现信息识别不全的情况,请先辨别是以下哪种情况,然后再对症下药。

  • 输出为txt或者jsonl格式时,真的缺失了部分文本?
  • 结果中文本没有缺失,而是位置不对,比如跳出了页面区域,导致你看不到?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants