你们都用什么来做爬虫的

2013 年 3 月 12 日
 46fo
你们都用什么语言来做爬虫的,有什么好的介绍。。。
19503 次点击
所在节点    程序员
48 条回复
for4
2013 年 3 月 12 日
Python
+requests
+lxml
+celery
46fo
2013 年 3 月 12 日
@for4 -.-! 要学这么多东西啊
for4
2013 年 3 月 12 日
@xdeng
第一个是编程语言
后面三个是可能需要用到的库

这是我认为的写一个爬虫最简单易学的搭配
xieren58
2013 年 3 月 12 日
Node + jquery
liuxurong
2013 年 3 月 12 日
我是 requests + pyquery

另外
@for4 celery通常用来做什么
46fo
2013 年 3 月 12 日
@xieren58
@liuxurong 这个网站里的全都是 做网页的么
shinwood
2013 年 3 月 12 日
试过python + Scrapy,感觉不错。

http://scrapy.org/
greatghoul
2013 年 3 月 12 日
@shinwood 这个用起来的确骚爽。
colincat
2013 年 3 月 12 日
java
for4
2013 年 3 月 12 日
@liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑
wingoo
2013 年 3 月 12 日
scrapy
twm
2013 年 3 月 12 日
JAVA PHP
dulao5
2013 年 3 月 12 日
PHP + curl_multi_*

不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。
xjay
2013 年 3 月 12 日
scrapy
不解释
PrideChung
2013 年 3 月 12 日
ruby+norogiri
http://nokogiri.org/
amxku
2013 年 3 月 12 日
Python
+curl
+celery
1up
2013 年 3 月 12 日
cloverstd
2013 年 3 月 12 日
Python: urllib, urllib2, re
run2
2013 年 3 月 12 日
前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
cheerio很好用阿,完全是jQuery的语法。

require('http');require('cheerio');require('iconv').Iconv;require('mongodb');
chuck911
2013 年 3 月 12 日
还有人写个爬虫还非要用芹菜...

Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/62657

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX