如何在前端用 api 同时调用多个 scrapy 编写的爬虫？

最近在学习爬虫，使用了 scrapy。一个需要是，用户在浏览器输入关键词，然后返回爬取的 url 给用户。调研发现了 scrapyd 和 scrapyrt 但是发现 scrapyd 没有办法返回自定义的 response. 于是又使用了 scrapyrt，但是发现无法同时处理多个用户的请求。所以来求助各位 orz 总结一下，我的问题是:

如果使用 scrapyd，除了返回 response 给前端的方式，还有什么办法可以将爬到的 url 给前端？以及，scrapyd 是否能够支持同时处理多个 request?
如果使用 scrapyrt，如何支持同时处理多个 request ？
如果不使用 scrapyd/scrapyrt，是否有一些 python web 的 framework 可以实现我这个需要。
目前已经将爬虫部署在了 docker 中，用户不会很多，如果上述方案都比较麻烦难以实现，我启动多个 docker 来处理，这个方案是否现实？

scrapyd

scrapyrt

爬虫

Scrapy

2 replies • 2018-11-08 14:19:44 +08:00

locoz

Nov 8, 2018

挽尊
这个需求不太适合直接使用 scrapy 来做，可以用 web 框架+http 请求库，把爬虫做成接口的形式。比如使用 flask+requests，简单粗暴就能实现；或者是用 tornado 这种自带 server 和 client 的，又不需要特殊处理性能问题、又能在不依赖其他 http 请求库的情况下发出 http 请求。
部署方面多容器做负载均衡是可以的，但是如果是在同一台机器下启动多个的话其实意义不大。

midasplus

Nov 8, 2018

@locoz 感谢回复. 确实发现直接使用 scrapy 不太合适了. 不过当时需求比较紧急，就暂时使用了启动多个 docker 实例来同时处理请求的解决办法，前端用循环队列每次发 request 到一个不同的端口．可能是由于需要同时用的人不会很多，所以效果还挺好的．不过这肯定不是长久之计，现在已经按照你的思路，使用了 django + scrapyd，做成了接口的形式．