• 请不要在回答技术问题时复制粘贴 AI 生成的内容
dying4death
V2EX  ›  程序员

Pocket 这种稍后阅读是怎么实现的?内容方面

  •  
  •   dying4death · Jul 26, 2019 · 1416 views
    This topic created in 2509 days ago, the information mentioned may be changed or developed.

    添加网页到 Pocket 后,从 pocket 内打开就不是原来的网页了,仅保留了主体内容,标题正文以及图片。样式也是 pocket 的样式。

    想问一下是怎么实现的,是获取到链接后爬取主要内容吗?怎么爬呢,爬取内容不是要分析 html 结构吗?不可能全部网站的结构都一样吧?

    求大佬给点思路

    justfly
        1
    justfly  
       Jul 26, 2019   ❤️ 1
    关键字: 正文提取算法
    dying4death
        2
    dying4death  
    OP
       Jul 26, 2019
    @justfly 牛逼了哥,就是这个,感谢
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3134 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 14:08 · PVG 22:08 · LAX 07:08 · JFK 10:08
    ♥ Do have faith in what you're doing.