网站日志找到大量 Python -urllib/2.7 之类的,是爬虫吗?

2017 年 5 月 4 日
 tianxiacangshen
2017-05-04 06:08:14 120.xx.xxx.xxx GET / - 80 - 58.211.2.120 Python-urllib/2.7 200 0 0 54

持续两三天了,每秒钟几十次记录,这是网站被攻击还是有人采集内容?
7838 次点击
所在节点    PHP
32 条回复
misaka19000
2017 年 5 月 4 日
这爬虫还把自己给暴露出来。。。神奇
woshinide300yuan
2017 年 5 月 4 日
这不是明显的该屏蔽的吗 - -
billlee
2017 年 5 月 4 日
耿直的爬虫
notes
2017 年 5 月 4 日
目测新手,用的还是自带的 urllib
bytenoob
2017 年 5 月 4 日
脚本小子
wspsxing
2017 年 5 月 4 日
UA 都不改一下,差评妥妥的。
ywgx
2017 年 5 月 4 日
留着过年?
LokiSharp
2017 年 5 月 4 日
估计故意的。。。看看有没有人处理
richardma
2017 年 5 月 5 日
猖狂的爬虫,23333
tonychow
2017 年 5 月 5 日
显然爬虫, 都不知道隐藏下 UA
araraloren
2017 年 5 月 5 日
~~
再明显不过的爬虫了。。
封了 IP 呗
crackhopper
2017 年 5 月 5 日
666666
yanzixuan
2017 年 5 月 5 日
连 UA 都不知道改的,估计是新手。另外你们的网站不设置一个 Limiter,限制一下一天的总的访问次数么?
如果对方换 IP,你就限制下 1 分钟 /1 小时之内的访问次数吧。
tttty
2017 年 5 月 5 日
请问一下,如果遇到爬虫直接封 IP,这样不是会导致共用公网 IP 的用户误伤吗.. 比如校园网、网吧什么的?
hard2reg
2017 年 5 月 5 日
弱弱的问下,requests 的默认 ua 是啥
jy02201949
2017 年 5 月 5 日
真是耿直啊,而且还在用 urllib,新手随便抄了网上哪个教程弄的爬虫吧
eycfsjd
2017 年 5 月 5 日
使用验证码机制啊
pyufftj
2017 年 5 月 5 日
@hard2reg 和 urllib 差不多,也带着 python 字样的,反正一眼就能识别出来的那种。。
pyufftj
2017 年 5 月 5 日
@tttty 只封一个不就行了吗。。
kinghui
2017 年 5 月 5 日
@tttty 有可能封一个省市, 因为某些省市的某个运行商可能就一个出口 ip.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/359181

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX