有些保险保单的pdf文档，doc.extractionMode参数用fullPage模式会缺失有些信息，换mixed模式又可以识别出。 #740

Jerryyuanyuan · 2024-12-04T02:08:26Z

Issues

I have browsed through the Issues. 我已浏览过Issues，确定没有重复提问。

Umi-OCR version 程序版本

Umi-OCR_Paddle_v2.1.3_beta_1

Windows version 系统版本

win10

OCR plugins Used 使用的OCR插件

PaddleOCR

Reproduction steps 复现步骤

因为我自动化程序默认使用的是fullPage模式的,但是有个别保单文档出现关键的信息识别不全的情况，换了mixed模式又能正确识别。但是mixed模式也会有一部分保单文档识别不出。详见下面文件和截图。想问一下大佬，是否有解决方案能够自动化处理这种情况的？
目前大部分情况fullPage是可以的。少数的需要修改模式后再试一下。

Problem screenshots or related files (optional) 问题截图或相关文件（可选）

这个文档是fullPage漏字，mixed模式识别可行
曹佩妮沪AF72353商业.pdf
doc.extractionMode用fullPage模式下会漏掉识别保险期间的关键文字

fullPage下识别不全：

但是在mixed模式下识别是完整的：

下面这个文档是反之的情况:
+上海哲珍车辆租赁有限公司沪GD0987交强.pdf
mixed模式下几乎没有文字：

但是在fullPage模式下又可以了：

hiroi-sora · 2024-12-05T13:17:10Z

您好，你上传的这两份样本有本质的不同。

第一份（AF72353）中的内容是编码文本，因此 mixed 模式能不经过OCR直接读取文本。fullPage会将页面渲染为图像后OCR，因此也能提取出文本。我这边测试，不管什么模式都没有漏字现象，保险期间自…………止 这句话都是存在的。你可以尝试导出一份txt格式的结果来检查。

第二份（GD0987）则是一种更特殊的格式，其中所有的文本都是独立的矢量图形，既不是编码文本，也不是可提取图像，“不在三界内、跳出五行中”，因此 mixed 模式中程序无法辨别它。

因此，建议你主要使用 fullPage 模式以确保最大兼容性。个别文档出现信息识别不全的情况，请先辨别是以下哪种情况，然后再对症下药。

输出为txt或者jsonl格式时，真的缺失了部分文本？
结果中文本没有缺失，而是位置不对，比如跳出了页面区域，导致你看不到？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

有些保险保单的pdf文档，doc.extractionMode参数用fullPage模式会缺失有些信息，换mixed模式又可以识别出。 #740

有些保险保单的pdf文档，doc.extractionMode参数用fullPage模式会缺失有些信息，换mixed模式又可以识别出。 #740

Jerryyuanyuan commented Dec 4, 2024

hiroi-sora commented Dec 5, 2024 •

edited

Loading

有些保险保单的pdf文档，doc.extractionMode参数用fullPage模式会缺失有些信息，换mixed模式又可以识别出。 #740

有些保险保单的pdf文档，doc.extractionMode参数用fullPage模式会缺失有些信息，换mixed模式又可以识别出。 #740

Comments

Jerryyuanyuan commented Dec 4, 2024

Issues

Umi-OCR version 程序版本

Windows version 系统版本

OCR plugins Used 使用的OCR插件

Reproduction steps 复现步骤

Problem screenshots or related files (optional) 问题截图或相关文件（可选）

hiroi-sora commented Dec 5, 2024 • edited Loading

hiroi-sora commented Dec 5, 2024 •

edited

Loading