云爬虫 与 爬虫软件的认真探讨

2017 年 5 月 3 日
 GrahamCloud

今年是造数云爬虫快速测试的一年

如今爬虫方面的同行很多,例如 import.io 等等。V 站也看到了非常好的作品,比如 hicrawler 等等。

学到很多。

这个帖子希望和大家一起探讨,各种爬虫的应用场景以及利弊等等。

11888 次点击
所在节点    推广
65 条回复
nicoljiang
2017 年 5 月 4 日
缺乏场景,性价比极低。只能说,鼓励一下。
GrahamCloud
2017 年 5 月 4 日
@acoder2013 这个也特别想听听大家怎么说,我们马上要推出一版。
GrahamCloud
2017 年 5 月 4 日
@nicoljiang 感谢
shenfu1991
2017 年 5 月 4 日
问个喜感的问题:抓取彩票数据能不能预测彩票?(手动滑稽,没有其他意思。。。)
wuhx
2017 年 5 月 4 日
CloudMonad 走的是另外一个思路,还特地和造数比较了一下

https://v2ex.xtra.eu.org/t/356871
GrahamCloud
2017 年 5 月 5 日
@shenfu1991 依据有限的数据啥都能预测,然而 有用没用,你懂得
GrahamCloud
2017 年 5 月 5 日
@wuhx 学习!
GrahamCloud
2017 年 5 月 5 日
@wuhx 求联系,微信:Zaoshuio
Moker
2017 年 5 月 5 日
为什么我觉得 LZ 是在 SEO 每篇帖子都带不一样描述指向同样的链接?
GrahamCloud
2017 年 5 月 5 日
@Moker SEO 不主要,主要的是产品内容不能光靠我们自己想,得不停增加大家交流的空间。
15015613
2017 年 5 月 6 日
@GrahamCloud
问题太多了,直接没办法用。

举个例子吧。
http://book.sfacg.com/
抓取每日首页推荐情况。
之前便有人反映过,页面的弹出层无法点击去除,现在这个问题还在,没有改善。
不过这个问题不太影响本次抓取,便不说了。

先选取首页的轮播图,只能得到图片的 url 和小说页面的 url,得不到小说的名称,但原始数据里头是含有小说名称的。
```
<img data-original="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" alt="无敌的我选择种田" src="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" style="display: inline;">
```
然后下面的 人气风向标、最近有意思的新书,由于有重叠层,选取的数据有错误,基本不能用。

仅仅最后 封面推荐爬取的还算符合要求。

再打开小说详情页,不支持异步加载,评论数量完全无法抓取。

还有选取的数据不支持后期处理,不支持分组。
不支持图片的爬取下载,只能爬取文字资料。

就这服务水平、服务质量也好意思大言不惭的说,“所有你需要的功能”、“最好的云爬虫工具”。

价格 1 元 50 个页面,太贵了,这样的质量也好意思收费这么贵?

对了还不支持登录爬取,这点忘了。

@Moker
我也是这样觉得,看他们隔两天上来发一次广告,真是烦人的很。
15015613
2017 年 5 月 6 日
@GrahamCloud
总体来说,和刚出来时没有多少提高,刚刚出来功能不完善可以理解,但过了这么久还没有提高,那就太……
GrahamCloud
2017 年 5 月 8 日
@15015613 评论很中肯,说的很对,感谢花这么多时间整理意见。我们会针对你的问题做一些改进。定价 我个人也觉得高了,尝试阶段~
求加 微信:Zaoshuio
buseni
2017 年 5 月 8 日
牛逼,我看国外有个东西,你随便给一个地址,人家就能给你爬下来
ua
2017 年 5 月 8 日
@buseni 比如?
GrahamCloud
2017 年 5 月 8 日
@buseni 说的是 import io 吧
GrahamCloud
2017 年 5 月 8 日
@buseni 怎么看到的
tonyaiken
2017 年 5 月 8 日
开的同类帖子太多,广告嫌疑
GrahamCloud
2017 年 5 月 8 日
@tonyaiken 这个帖子不是广告,同类产品 都列出来 求探讨了。
liuxu
2017 年 5 月 8 日
不是广告为啥要顶置。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/358781

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX