FinalDream
V2EX  ›  Java

怎么从PDF中取出数据

  •  1
     
  •   FinalDream · Nov 22, 2013 · 4468 views
    This topic created in 4581 days ago, the information mentioned may be changed or developed.
    需要取出标题,章节信息,有这方面的开源包吗
    6 replies    1970-01-01 08:00:00 +08:00
    bombless
        1
    bombless  
       Nov 23, 2013
    在一个C++群里面看过讨论。
    似乎所有文字都是一个一个按坐标定位上去的,所以第一步是对整个排版做分析,把页面分块成几个章节。总之就是没有完全可靠的方法,特别是在排版比较灵活或者在一些微妙的地方分页了的情况特别容易出错。
    crazybubble
        2
    crazybubble  
       Nov 23, 2013
    parse PDF的话有这样的包:http://www.unixuser.org/~euske/python/pdfminer/
    只不过因为某些奇怪的原因,所有fi连在一起的情况,会被parse成一个奇怪的unicode
    sun1991
        3
    sun1991  
       Nov 23, 2013
    pdf是没有标题, 章节信息的。 所有的字符都是按照坐标画到屏幕上去的。 我还碰到pdf过为了显示粗体, 在横向纵向坐标上微微偏移一点位置反复画同一段文字的。。。
    FinalDream
        4
    FinalDream  
    OP
       Nov 23, 2013
    我试着按坐标字体去分析章节信息,需要处理的PDF排版基本是固定的,现在主要不知道表格怎么去处理
    starfish
        5
    starfish  
       Nov 24, 2013
    如果用java的话,这方面的开源库很多的。例如,apache pdf-box, iText等。google一下有一堆。我以前用过apache tika来抽取文档中文本信息,tika用的是pdf-box,效果还是不错的。
    FinalDream
        6
    FinalDream  
    OP
       Dec 4, 2013 via iPhone
    @starfish PDF-box , itext 都只能提取出文字,没有其它任何信息,我需要标题、章节信息
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1381 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 17:06 · PVG 01:06 · LAX 10:06 · JFK 13:06
    ♥ Do have faith in what you're doing.