xiaoyu9527
V2EX  ›  问与答

scrapy 如何在抓取链接的部分就确认链接已经抓取了。

  •  
  •   xiaoyu9527 · Jun 1, 2017 · 1309 views
    This topic created in 3293 days ago, the information mentioned may be changed or developed.

    最近想搞一个项目。

    抓一个 1000W 数据的站点。

    前期考虑分批抓取。 这时候就有问题了。

    有时候可能会碰到抓取链接重复的问题。

    我现在想知道的是。 如何再抓取链接的部分就把重复链接进行放弃呢?

    我看了很多方案都是抓取到最后的时候进行排除。

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2703 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 10:38 · PVG 18:38 · LAX 03:38 · JFK 06:38
    ♥ Do have faith in what you're doing.