URLError: <urlopen error timed out>
[boto] ERROR: Unable to read instance data, giving up
爬取的是豆瓣图书 Top250 ( https://book.douban.com/top250 ) 一直提示超时。
但是爬取豆瓣 9 分书单( https://www.douban.com/doulist/1264675/ ) 时就不会有问题。
两个页面的结构基本一样,代码只是稍微不同,大致是一样的。
但是在爬取时, Top250 的那个就一直报错, 9 分书单的那个可以正常爬取完成。
import scrapy
from scrapy.contrib.spiders import CrawlSpider
from scrapy.http import Request
from scrapy.selector import Selector
from douban_book.items import DoubanBookItem
class Douban(CrawlSpider):
name = "dbbook"
start_urls = (
'https://book.douban.com/top250'
)