You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
// 引入 ollamaimport{Ollama}from'ollama/browser'// 浏览器端import{Ollama}from'ollama'// node端接入// 其它代码constresponse=awaitollama.generate({model: 'llama3.2-vision:11b',// 也可以是 LLava 等其它 Ollama 支持的模型prompt: 'Please look at this image and extract all the text content. Structure the output as JSON',stream: false,images: [图片的base64数据],// 以 json 形式输出识别结果,也可以通过 prompt 让 llama 以 markdown/text 等格式输出结果format: 'json'// format 是 ollama 的接口参数})console.log(response?.response)// 输出识别结果
目前,在日常工作中需要经常用到 OCR,而目前一些在线工具已不能满足需求,需要更高效的 OCR 工具来解决日常工作需要,于是把探究方向转向了视觉大模型。
OCR及其原理
OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文字转换为可编辑文本的技术。广泛应用于文档数字化、车牌识别、手写识别等领域。其核心流程包括图像预处理、文本检测、字符识别和后处理:
传统的 OCR 识别技术主要分为三类,对比如下:
典型的开源方案代表是 Tesseract。此外,主要大厂也都提供了相关的 API 服务。
新方向:视觉模型
基于视觉模型的 OCR 识别依靠深度学习、统一框架等原理,采用端到端的方式,直接从图像中提取文本信息。对于复杂场景(如自然场景文本、多语言、手写体)有更强的适应能力,并且不需要人工预先设计识别规则和字符特征,模型会自动学习最优特征。
与传统 OCR 识别的对比如下:
2. 对噪声、形变、字体变化等鲁棒性较低
3. 计算速度较快,适合实时性要求高的场景
2. 泛化能力有限,难以适应新场景和新字体
2. 印刷体文本识别
3. 对实时性要求高的场景(如车牌识别)
2. 对噪声、形变、字体变化等有更强的鲁棒性
3. 计算速度较慢,但随着模型优化和硬件加速,逐渐接近实时性要求
2. 泛化能力强,能够适应多种场景、语言和字体
2. 多语言、多字体文本识别
3. 手写体识别
4. 复杂背景下的文本提取
开源的视觉模型很多,代表有 Qwen2-VL 、LLAMA 以及 PaddleOCR。此外,很多云服务也都提供了相关的 API 接口,如 Google Vision API
本地接入视觉模型
以 Meta 的 LLAMA 为例,介绍本地接入模型的流程:
ollama run llama3.2-vision:11b
以上,就可在本地接入模型。也可以在 docker 搜索:
debounce/ollama-ocr
,快速运行 demo。OCR 识别 PK
在工作中我用到 OCR 的场景主要有两个:
结合这两个具体场景,对各方案进行一个识别对比:
从上述对比结果看,有如下结论:
DeepSeek
DeepSeek 上月开源了两款模型:DeepSeek-VL2 和 DeepSeek-V3。V3 的发布在国内外的 AI 领域都引发了很多的讨论,它以一个极低的训练成本达到了极佳的训练效果,无论是和 Meta 的开源模型 LLaMA3.1 还是和闭源模型 GPT-4o/Claude-3.5 对比,各项测评指标都不分伯仲或略微领先,但训练成本预估是后三者的 1/11 - 1/8,人送 AI 界的「拼多多」, 每百万输入 tokens 的价格低到了 0.1 CNY。
VL2 是视觉模型,我用上面三张图测试了 VL 的第一个版本 ,从测试结果看,第一个版本对中文的识别跟 llama 不分上下😂😂😂。鉴于 DeepSeek-V3 相较于 DeepSeek-V2 有了很大的飞跃,我对于 VL2 的改进也有所期待,后续可以研究一下怎么进行本地接入。
我也拿图片去试了 DeepSeek-V3 模型,发现其识别结果也不错(从上到下,依次是上面四张图的结果):
看来在日常工作中,大语言模型也是 OCR 识别应用的一个方向。如果想体验 DeepSeek V3,可以下载 VSCode 的 Cline 插件,配置 DeepSeek 作为接口服务方用于日常工作:
资源
The text was updated successfully, but these errors were encountered: