This topic created in 4106 days ago, the information mentioned may be changed or developed.
16 replies • 2015-04-01 13:33:25 +08:00
 |
|
2
cxshun Mar 11, 2015 1
正则表达式会慢很多,既然是HTML,建议用xpath。
|
 |
|
3
JoeShu Mar 11, 2015
1. 用scrapy 2. 用requests+beautifulsoup+multiprocess
|
 |
|
6
egrcc Mar 11, 2015
确定是正则表达式的问题?正则的速度应该不慢才对
|
 |
|
7
chevalier Mar 11, 2015
用scrapy自带的xpath试试,也很快
|
 |
|
8
ericls Mar 11, 2015
如果想学习 建议asyncio + 各种选择器
|
 |
|
9
icedx Mar 11, 2015
Python 的正则能用?
|
 |
|
10
binux Mar 12, 2015 3
你的问题出在 .+? 和 re.DOTALL 上
.+? 全字符匹配,导致匹配栈太深 re.DOTALL 导致文字过长
一般情况下,正则是比建树要快的,但是你正则写得太烂也没有办法
|
 |
|
13
StrayBugs Mar 12, 2015
大致看了一下,主要应该不是正则的问题,而是你把所有的结果都合并成一条 string 了。页与页都是独立的,你用 list 放每个页面,再分别匹配就好啦。
|
 |
|
16
ming2281 Apr 1, 2015
一般爬虫运行得比较慢的话,我基本转向threading和multiprocessing
|