目前需要:
有 1000+以上的网站需要爬,并且经常要增加减少。有部分网站是通用类型,直接通过摘要提取 html 内容,不用 xpath。部分需要自写 xpath 提取。不需要分布式。
抓取的只要标题,内容,图片。
对 scrapy 刚接触,网上搜索下,有以下方式:
1.自定义项目命令
2.process.crawl 方式
3.Scrapyd 方式
现在个人想法是
所有网站都用一个 scrapy 来做,通用 items,每一个网站写一个 spider 蜘蛛,通用的网站用一个 spider。
问题:
1.是否 scrapy 适应以上任务。
2.如果合适,怎么样的项目方案合适?同时要启动多个 spider,怎么样方式合理?
谢谢
有 1000+以上的网站需要爬,并且经常要增加减少。有部分网站是通用类型,直接通过摘要提取 html 内容,不用 xpath。部分需要自写 xpath 提取。不需要分布式。
抓取的只要标题,内容,图片。
对 scrapy 刚接触,网上搜索下,有以下方式:
1.自定义项目命令
2.process.crawl 方式
3.Scrapyd 方式
现在个人想法是
所有网站都用一个 scrapy 来做,通用 items,每一个网站写一个 spider 蜘蛛,通用的网站用一个 spider。
问题:
1.是否 scrapy 适应以上任务。
2.如果合适,怎么样的项目方案合适?同时要启动多个 spider,怎么样方式合理?
谢谢