66beta
V2EX  ›  问与答

[求推荐] 整站Url抓取工具,只要Url,不要页面内容

  •  
  •   66beta · Oct 22, 2013 · 4667 views
    This topic created in 4613 days ago, the information mentioned may be changed or developed.
    有个客户网站,栏目都没有列表页,很多页面都藏得很深。(无法进后台,无法看数据库)

    有没有这样的工具,可以抓取全部的URL,就可以自己整理了:

    http://localhost/aaa/001
    http://localhost/aaa/002
    http://localhost/aaa/003
    http://localhost/aaa/004

    http://localhost/bbb/001
    http://localhost/bbb/002
    http://localhost/bbb/003

    就可以统计出aaa栏目下有哪些URL,bbb栏目下有哪些URL

    现在进入http://localhost/aaa/,是直接跳转到aaa下最新的一篇,太苦逼了
    5 replies    1970-01-01 08:00:00 +08:00
    wenjuncool
        1
    wenjuncool  
       Oct 22, 2013
    自己开发吧
    soho176
        2
    soho176  
       Oct 22, 2013
    用火车头 采集网址吧
    manoon
        3
    manoon  
       Oct 22, 2013
    循环生成
    aaa/001
    aaa/002
    aaa/nnn

    循环访问aaa/nnn
    如果404 退出
    如果200 加到列表
    最后你需要的列表


    应该很清晰了吧。
    nsxuan
        4
    nsxuan  
       Oct 22, 2013
    wget 即可把 有个 不下载 写入列表
    66beta
        5
    66beta  
    OP
       Oct 23, 2013
    @wenjuncool @manoon 不会写啊,会写就不来问了~

    @soho176 试了下,不会玩,貌似不能自动向下采集URL

    @nsxuan wget如何做到?google了下没找到
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2201 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 61ms · UTC 16:12 · PVG 00:12 · LAX 09:12 · JFK 12:12
    ♥ Do have faith in what you're doing.