新手用 Scrapy 写爬虫时，一直提示 URLError: <urlopen error timed out>求大神指导

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3639 days ago, the information mentioned may be changed or developed.

URLError: <urlopen error timed out>

[boto] ERROR: Unable to read instance data, giving up

爬取的是豆瓣图书 Top250 （ https://book.douban.com/top250 ）一直提示超时。

但是爬取豆瓣 9 分书单（ https://www.douban.com/doulist/1264675/ ）时就不会有问题。

两个页面的结构基本一样，代码只是稍微不同，大致是一样的。

但是在爬取时， Top250 的那个就一直报错， 9 分书单的那个可以正常爬取完成。

import scrapy
from scrapy.contrib.spiders import CrawlSpider
from scrapy.http import Request
from scrapy.selector import Selector
from douban_book.items import DoubanBookItem

class Douban(CrawlSpider):
    name = "dbbook"
    start_urls = (
        'https://book.douban.com/top250'
    )

Supplement 1 · Jun 22, 2016

感谢各位的指导。爬虫已可以正常运行。
谢谢！

4 replies • 2016-06-22 16:55:51 +08:00

laozhao0

Jun 22, 2016

add "DOWNLOAD_HANDLERS = {'s3': None, }" to settings.py

brucedone

Jun 22, 2016

记得加上请求头，还有一些其它的参数都要填全

cashew

Jun 22, 2016

@laozhao0
@brucedone
请求头已加入。

File "/home/cashew/Codes/douban_book/douban_book/spiders/dbbook.py", line 37, in parse
item['bookesInfo'] = booksInfo
File "/usr/lib/python2.7/dist-packages/scrapy/item.py", line 63, in __setitem__
(self.__class__.__name__, key))
KeyError: 'DoubanBookItem does not support field: bookesInfo'

又报错了。

laozhao0

Jun 22, 2016

你的 DoubanBookItem 里没有 bookesInfo 字段，但是在 spider 里写了 item['bookesInfo'] = 'xxx' ?