你们都用什么来做爬虫的

2013 年 3 月 12 日

46fo

你们都用什么语言来做爬虫的，有什么好的介绍。。。

19503 次点击

所在节点

程序员

48 条回复

for4

2013 年 3 月 12 日

Python
+requests
+lxml
+celery

46fo

2013 年 3 月 12 日

@for4 -.-! 要学这么多东西啊

for4

2013 年 3 月 12 日

@xdeng
第一个是编程语言
后面三个是可能需要用到的库

这是我认为的写一个爬虫最简单易学的搭配

xieren58

2013 年 3 月 12 日

Node + jquery

liuxurong

2013 年 3 月 12 日

我是 requests + pyquery

另外
@for4 celery通常用来做什么

46fo

2013 年 3 月 12 日

@xieren58
@liuxurong 这个网站里的全都是做网页的么

shinwood

2013 年 3 月 12 日

试过python + Scrapy，感觉不错。

http://scrapy.org/

greatghoul

2013 年 3 月 12 日

@shinwood 这个用起来的确骚爽。

colincat

2013 年 3 月 12 日

java

for4

2013 年 3 月 12 日

@liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑

wingoo

2013 年 3 月 12 日

scrapy

twm

2013 年 3 月 12 日

JAVA PHP

dulao5

2013 年 3 月 12 日

PHP + curl_multi_*

不过以后应该尝试nodejs了，并发容易实现，解析页面里的js更有优势。

xjay

2013 年 3 月 12 日

scrapy
不解释

PrideChung

2013 年 3 月 12 日

ruby+norogiri
http://nokogiri.org/

amxku

2013 年 3 月 12 日

Python
+curl
+celery

1up

2013 年 3 月 12 日

http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python

cloverstd

2013 年 3 月 12 日

Python: urllib, urllib2, re

run2

2013 年 3 月 12 日

前几天用nodejs写个玩，但不知道怎么部署在只有web服务的 PaaS上－，－
cheerio很好用阿，完全是jQuery的语法。

require('http');require('cheerio');require('iconv').Iconv;require('mongodb');

chuck911

2013 年 3 月 12 日

还有人写个爬虫还非要用芹菜...

Scrapy爽是因为它基于事件驱动的Twisted，我以前也很爱Scrapy，后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/62657

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.