chinese-pdf-ocr

对中文PDF文件进行OCR。使用了DayBreak-u/chineseocr_lite的OCR模型。

环境要求

Python >= 3.8

测试环境

x64 Windows 11
- Python 3.8.0
- Python 3.11.3
x64 Ubuntu 22.04.2
- Python 3.10.12

项目目录结构

chineseocr_lite/
引用自DayBreak-u/chineseocr_lite实现的轻量级中文OCR模型。
pdfocr.py
对PDF文件进行OCR的核心逻辑。先对PDF某一页进行OCR，基于识别结果使用图形学算法对PDF该页划分段落，最后把OCR结果按段落组合。
requirements.txt
记录了chineseocr_lite/和pdfocr.py所需要的Python包。
demo_gui/
一个简单的小程序。对给定的PDF的若干页进行OCR，然后将结果输出至终端，并在新的窗口中可视化显示当前页面的OCR结果。
demo_web/
在浏览器上运行的网页应用。可以在网页上打开PDF进行OCR，鼠标点击识别结果可以将OCR文字复制到剪贴板。

安装基础依赖包

项目目录下的requirements.txt 记录了chineseocr_lite/和pdfocr.py所需要的Python包。执行以下命令来安装：

pip3 install -r requirements.txt

运行demo_gui

切换目录

cd demo_gui/

安装poppler

用于PDF转图片，被Python的pdf2image包使用。各平台的安装方法。

安装额外的依赖包

demo_gui/requirements.txt 记录了demo_gui/所需要的额外Python包。执行以下命令来安装：

pip3 install -r requirements.txt

运行主程序

python3 main.py --file <PDF文件路径> --start <OCR开始页码> --end <OCR结束页码> [--text-only]

📘 示例

查看帮助信息
python3 main.py -h
对当前目录下的1.pdf文件进行OCR，页码从150开始，到155结束。打印识别文字到终端，并将结果展示为图片
python3 main.py --file ./1.pdf --start 150 --end 155
仅打印识别文字到终端，不展示结果图片
python3 main.py --file ./1.pdf --start 150 --end 155 --text-only

效果图

点击识别后的图片，然后按键盘上任意键即可识别下一页。

运行demo_web

切换目录

cd demo_web/

安装额外的依赖包

本示例使用了Flask包来编写Python网页后端。

pip3 install -r requirements.txt

运行主程序

python3 main.py

访问网页

要访问该服务，在浏览器中输入如下网址（无需互联网连接）：

http://127.0.0.1:5000

默认情况下，该服务只能通过本机地址127.0.0.1的5000端口访问。如果需要让局域网内的其它设备也能访问该网页，或是需要不同的端口号，请将demo_web/main.py的最后一行修改为：

app.run(host='0.0.0.0', port=<端口号>)

⚠️注意：
本服务使用了Flask自带的网页服务器。该服务器仅供开发使用，不能在实际生产环境中使用。如需将服务发布在公网，可以参考我的另一个项目NJUST_HomeworkCollector。

效果图

打开网页后，先点击左上角的Upload PDF按钮上传PDF文件到本机浏览器。然后点击Previous或Next按钮切换PDF上/下页。最后点击右上角的OCR按钮，对当前页进行OCR。识别到的文本会由红框标出，点击对应的方框即可复制其中的文字。双击Page:后的当前页码，可以编辑并跳转到指定页。

Name		Name	Last commit message	Last commit date
Latest commit History 54 Commits
assets		assets
chineseocr_lite		chineseocr_lite
demo_gui		demo_gui
demo_web		demo_web
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.en.md		README.en.md
README.md		README.md
pdfocr.py		pdfocr.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

chinese-pdf-ocr

环境要求

测试环境

项目目录结构

安装基础依赖包

运行demo_gui

切换目录

安装poppler

安装额外的依赖包

运行主程序

效果图

运行demo_web

切换目录

安装额外的依赖包

运行主程序

访问网页

效果图

About

Releases

Packages

Languages

License

NewComer00/chinese-pdf-ocr

Folders and files

Latest commit

History

Repository files navigation

chinese-pdf-ocr

环境要求

测试环境

项目目录结构

安装基础依赖包

运行demo_gui

切换目录

安装poppler

安装额外的依赖包

运行主程序

效果图

运行demo_web

切换目录

安装额外的依赖包

运行主程序

访问网页

效果图

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages