大家是怎样爬取亚马逊(美国)的数据?爬取速度怎么样?

2017 年 8 月 24 日
 adapalene
我在爬取亚马逊(美国)详情页时发现反扒虫比较厉害,因此购买了某代理爬取,但每天只能爬取 15w 条 ASIN 的数据。请教各位都是怎样爬取的?爬取速度如何?
7874 次点击
所在节点    Python
9 条回复
JerryKwan
2017 年 8 月 24 日
@adapalene amazon 的反扒机制是挺有意思的,如果有大量信息要爬取的话,不仅仅需要采用代理,还需要注意代理的使用策略
free9fw
2017 年 8 月 24 日
要注意请求频率和速度,amazon 上有很多 ajax 的数据,可以直接拉取
huangfs
2017 年 8 月 24 日
难道是昨天那个抓取外包的活?
cqcn1991
2017 年 8 月 24 日
我是数据量很小,大概 1w 条,所以基本不需要做反爬,控制时间就好了…
nicktogo
2017 年 8 月 24 日
我好像前年这个时候也用 ASIN 爬过美亚数据(怀念当时做的课程项目 233 ),当时是用美亚的 API,楼主可以查查看
adapalene
2017 年 8 月 24 日
@JerryKwan 谢谢,能稍具体介绍下使用策略吗?
adapalene
2017 年 8 月 24 日
@huangfs
不是,我已经爬了快 3 个月了
adapalene
2017 年 8 月 24 日
@nicktogo
谢谢,我看下 API
qq12345454
2017 年 8 月 24 日
我也想爬点数据,不过爬了不晓得怎么换钱

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/385343

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX