这样是否可以保证 OCR 识别率接近百分之 100

2025 年 9 月 22 日
 Suinn

受前段时间看过的一篇帖子启发,同时用 ocr 和视觉大模型进行识别,结果相同的才输出,输出质量感觉会非常高,缺陷是可能存在没输出的情况

9710 次点击
所在节点    程序员
48 条回复
8355
2025 年 9 月 22 日
这样的策略本质上是通过降低识别率来提高正确率
按我的理解一定是没有只使用 ocr 来的好
Suinn
2025 年 9 月 22 日
@8355 主要是有些业务场景,人家的要求是要么不识别,要么就要识别准,所以我才会有了这个方案
RotkPPP
2025 年 9 月 22 日
vlm 还真没有 ocr 好用,而且 vlm 如果能正确识别出来,ocr 一定可以,但 ocr 能识别的,vlm 还真不一定。主要看业务场景吧
Suinn
2025 年 9 月 22 日
@RotkPPP 对,主要就是如果单纯只用 ocr 识别,光看置信度不能保证出来的一定准,这种做法相当于用 VLM 加了一层校验
huangzhiyia
2025 年 9 月 22 日
在 GitHub 上看到个挺有意思的开源解决方案 iOS OCR Server ,它把 iPhone 手机变成强大的本地 OCR 服务器。

基于苹果的 Vision Framework 实现高精度文字识别,支持多语言自动检测,只需在同一网络下通过 IP 地址访问即可使用。

GitHub: http://github.com/riddleling/iOS-OCR-Server
gpt5
2025 年 9 月 22 日
这本来就是通过提高 frr 来降低的 far ,“缺陷”当然就是 frr 高了。far/frrd 的平衡,一般看具体场景。
Suinn
2025 年 9 月 22 日
@gpt5 是的,主要还是预设业务场景属于要么不识别,要么尽量百分百识别的那种。所以想请各位大佬看看这个方案是否存在大的问题
cctrv
2025 年 9 月 22 日
VLM 的問題主要在 OCR 精度問題。
我是把 OCR 文本和圖像一併送入 VLM 。

那麼就可以完美降低 VLM 的 OCR 錯誤問題。
paopjian
2025 年 9 月 22 日
前两天才看到的逆天例子 https://www.zhihu.com/question/302170944/answer/1952029733140268672, 日常里 OCR+VLM 应该是没问题, 恶意攻击那可真是防不胜防
对于清晰文字, 普通 OCR 已经很能打了, 手写识别这种上 VLM 可以解决部分, 但是两个一起问题就是 VLM 的准确性了, 差一个字这种你就舍弃会被认为阈值过高
2en
2025 年 9 月 22 日
@RotkPPP 识别模糊粘连的号码 ocr 不如视觉模型
Suinn
2025 年 9 月 22 日
@paopjian 对,因为主要是账单的数字识别,文本上不会有太多
Julaoshi
2025 年 9 月 22 日
忘了哪里看到的,似乎可以先放大再进行 OCR ,这样识别准确率就会提高
ltmst
2025 年 9 月 22 日
阿里已经有了
我前些阵子测试了一下
效果只能说一般
Suinn
2025 年 9 月 22 日
@gbw1992 一般主要是体现在出现了大量的 False Rejection 吗,其实这个方案只有能保证识别出来的没问题,我觉得就 ok 了
surbomfla
2025 年 9 月 22 日
但这样做计算开销比较大
InkAndBanner
2025 年 9 月 22 日
我们使用了 QwenVL2.5 7B 在资质图片场景下做了大量的结构化信息提取 ,总的效果还是比 OCR 要好的,但是存在一定幻觉 比如信息自动补全,和联想的情况。如果图片重点字段出现的位置类似 可以在对话的时候 提供左上和右下两个点位的坐标 来提示模型提取重点区域 会优化提取效果。至于 ocr 信息辅助模型进行提取,也是已经验证过的好办法,但是模型结果用来和 ocr 做对比 我觉得只会在一些对准确容忍度非常低的场景 如金融票据才会采用。但是金融票据往往是标准票据 ocr 已经很能打了,非标场景才是 VL 模型的发挥阵地
Suinn
2025 年 9 月 22 日
@InkAndBanner 感谢分享,vlm 这块你们有试过 InternVL 或者 glmVL 吗,看最近的分数都挺高但是不知道实际能力和 qwen 比如何
dem0ns
2025 年 9 月 22 日
既然是代码+代码实现 100%,那为什么不一步到位?既然能够一步到位,那么早就该有 100%的 OCR 。
MIUIOS
2025 年 9 月 22 日
还有一个缺陷吧,速度下去了
InkAndBanner
2025 年 9 月 22 日
@dem0ns #18 抱歉 没有 我们是阿里系的 优先用 qwen

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/1160962

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX