想爬点 ZOL 的手机数据,看到 http://detail.zol.com.cn/robots.txt 上面似乎限制爬虫爬取
Disallow: https://detail.zol.com.cn/*
我理解,这样爬虫就无法访问产品数据了?这怎么办呢?有什么变通方法可以爬取。
Disallow: https://detail.zol.com.cn/*
我理解,这样爬虫就无法访问产品数据了?这怎么办呢?有什么变通方法可以爬取。
1
Ethanp Jul 18, 2018 via Android
你都知道看 robots 了不小白了
|
2
alvin666 Jul 18, 2018 via Android
悄悄,慢慢地爬,自己用,或者换网站。
人家不让你爬,无解 |
3
xpresslink Jul 18, 2018
那个 robots.txt 主要是给搜索引擎来指引的。和你没有什么关系。
|
4
geekcorn Jul 18, 2018 via iPhone
robots.txt 只是对搜索引擎爬虫的建议性限制吧,理论上正常用户在客户端浏览器能看到什么,操作什么,机器就可以做到什么
|
5
b821025551b Jul 18, 2018 robots.txt 只是君子协议。。。就比如你家门开着,贴张纸,写着小偷别进来,小偷就真不进了么。。。
|
6
0x5f Jul 18, 2018
伪造正常浏览器 ua 啊
|
7
liupanhi Jul 18, 2018
你确实是小白,哈哈哈
|
11
arctanx Jul 18, 2018
楼主很有节操 233
|
12
ml1344677 Jul 18, 2018
破坏计算机信息罪了解一下 23333
|
13
musclepanda Jul 18, 2018
你用 scrapy 的? scrapy 在设置文件里面设置下就好了,有一个 Allow_robots 这样的设定,关了就好
|
16
frmongo OP @musclepanda 我用的 python2 的 request,写了个很简单的,伪装成 360 的 agent,可以用
|