• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Beeethoven
V2EX  ›  程序员

国内有什么好用的 PDF 文档 OCR 产品吗

  •  
  •   Beeethoven · Aug 6, 2020 · 4198 views
    This topic created in 2130 days ago, the information mentioned may be changed or developed.

    项目语言是 Java,运行在 CentOS6.9 服务器上,主攻业务就是可搜索 PDF ( SearchablePDF )的处理和归档

    最近来了个需求,需要将纯图片 PDF ( ImagePDF )在项目里 OCR,然后继续处理。

    筛选了市面很多产品,最终锁定 ABBYY 的开发者 SDK,可以集成进项目,效果也不错,算市面同类产品独一档。本来和那边客服改谈的都谈好了,Demo 写完了,就等 license 买下来开搞,最后因为是国外软件,不好申请科研经费,方案惨遭腰斩。

    问题来了,现在国内有什么好用的 PDF 文档 OCR 产品?
    几个硬性要求:
    1.可以是 Windows 上的桌面软件(最迫不得已的方案。退而求其次,让用户手动去转),最好是 Linux 上的 SDK
    2.桌面软件支持批量处理,SDK 用多线程操作或者批量操作不会有太大的性能问题
    3.可以保存为可搜索 PDF
    4.除了识别 PDF 页面中的文字,也能识别 PDF 页面中的图片和表格
    5.对 PDF 字体大小和位置敏感,OCR 结果排版应该和原文一致

    福昕应该是国内 PDF 这一块做的最好的了,可惜它只有 Windows 版的 SDK 才支持 OCR 。不知道还有什么选择推荐,先在这里谢谢了

    14 replies    2021-09-09 16:01:35 +08:00
    Doldrums
        1
    Doldrums  
       Aug 6, 2020
    万兴? PDFelement
    tfdetang
        2
    tfdetang  
       Aug 6, 2020
    这种 pdf 的 sdk 大概多少钱啊?
    Threeinchtime
        3
    Threeinchtime  
       Aug 6, 2020
    我司 intsig
    Morriaty
        4
    Morriaty  
       Aug 6, 2020
    ABBYY 似乎要有个物理 U 盘狗才能用?

    国内的话,庖丁科技有个完整的产品叫 PDFlux,demo 看起来很牛逼,不知道有没有付费 sdk
    rocky55
        5
    rocky55  
       Aug 6, 2020
    或许我能做,现在的输出是 xml 能定位图片和文字表格,目前的输出是 xml, 主要是 C++ 和 python 写的,实在有需要可以 [email protected]
    jilu171990
        6
    jilu171990  
       Aug 6, 2020
    ABBYY 谈下来啥价?
    aosp
        7
    aosp  
       Aug 7, 2020
    百度开源的 PaddleOCR 可以自己改造一下
    walkfish
        8
    walkfish  
       Aug 7, 2020
    @Threeinchtime 在合合摸鱼,你领导知道么
    Threeinchtime
        9
    Threeinchtime  
       Aug 7, 2020
    @walkfish 哟?报上名来
    Gathaly
        10
    Gathaly  
       Aug 9, 2020
    专业领域的需要特定业务判断进行版面分析
    开源做的最好的就 tessercert 了
    对于 api caller 而言,遇到表格、图文混合的十有八九会有乱码的
    Beeethoven
        11
    Beeethoven  
    OP
       Aug 10, 2020   ❤️ 1
    @jilu171990 每年 10W 页 7000 刀左右
    Beeethoven
        12
    Beeethoven  
    OP
       Aug 10, 2020
    @Morriaty 下了一个看了看 重点在表格提取上 ocr 功能挺弱的.. 表格提取我喜欢开源的 tabula 随便按照需求魔改
    johnsonshu
        13
    johnsonshu  
       Aug 20, 2020
    @Beeethoven tabula 不能处理图像吧。 只能处理文字型的 PDF
    OumaeKumiko
        14
    OumaeKumiko  
       Sep 9, 2021
    怪不得 MarginNote 一直没上线桌面端的 ABBYY OCR 功能,这价格确实贵。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2848 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 56ms · UTC 04:06 · PVG 12:06 · LAX 21:06 · JFK 00:06
    ♥ Do have faith in what you're doing.