PySpider 怎样爬一个已知的、不断生成的 URL 列表？

def urls(self):
    i=1
    while i<7000000:
        yield "http://example/item/%d" % (i)
        i += 1

@every(minutes=24 * 60)
def on_start(self):
    self.crawl(self.urls(), callback=self.index_page)

URL

生成

self

pyspider

6 replies • 2018-12-29 09:55:50 +08:00

binux

Aug 31, 2016

```
def on_start(self):
for i in range(10000):
self.crawl('data:,step%d' % i, callback=self.gen_url, save=i)

@config(priority=0)
def gen_url(self, respond):
for i in range(respond.save * 700, (respond.save + 1) * 700):
self.crawl("http://example/item/%d" % i, callback=self.parse_page)

@config(priority=1)
def parse_page(self, respond):
pass
```

PythonAnswer

Aug 31, 2016

@binux 好巧妙，有这个 save 参数。多谢！！

另请教老大一下，如果是个不断增长的 url 怎么办呢？现在 700w ，但是每天都在不断增长，我怎么追踪才好？

提前致谢

binux

Aug 31, 2016

@PythonAnswer 接着 self.crawl 提交就好了啊

PythonAnswer

Aug 31, 2016

多谢，我继续研究一下吧。认真看源码，发掘各种功能。

非常好用的软件~

figofuture

Aug 31, 2016

mark

ddzzhen

Dec 29, 2018

mark 很好的使用方法