scrapy 多站点爬虫问题请教

目前需要：
有 1000+以上的网站需要爬，并且经常要增加减少。有部分网站是通用类型，直接通过摘要提取 html 内容，不用 xpath。部分需要自写 xpath 提取。不需要分布式。
抓取的只要标题，内容，图片。

对 scrapy 刚接触，网上搜索下，有以下方式：
1.自定义项目命令
2.process.crawl 方式
3.Scrapyd 方式

现在个人想法是
所有网站都用一个 scrapy 来做，通用 items，每一个网站写一个 spider 蜘蛛，通用的网站用一个 spider。

问题：
1.是否 scrapy 适应以上任务。
2.如果合适，怎么样的项目方案合适？同时要启动多个 spider，怎么样方式合理？
谢谢

Scrapy

spider

xpath

网站

5 replies • 2018-09-17 17:11:46 +08:00

simonliu2018

Sep 17, 2018

>有 1000+以上的网站需要爬，并且经常要增加减少
把这些网址存在数据库里，定期重启 spider 来加载到 start requests 里

>有部分网站是通用类型，部分需要自写 xpath 提取
自定义几个 middleware 区分不同的业务；也可以写不同的 spider

>同时要启动多个 spider
我之前是写一个小工具来生成多个 spider 启动脚本，用 daemontools 管理这些脚本

raysmond

Sep 17, 2018

scrapy-redis 了解一下，spider 常驻了，start_urls 放在了 redis 里，需要抓取时塞进去

lixuda

Sep 17, 2018

@simonliu2018 好的，谢谢

chengxiao

Sep 17, 2018

@raysmond 要抓多个站点的话或者多个 spider 的话, scrpy-redis 该怎么部署呢?

lixuda

Sep 17, 2018

@simonliu2018 感谢，另外通用型的网站 LinkExtractor 要增加，其他都是一样