xiaoshangmin
V2EX  ›  PHP

php curl 出现 couldn`t connect to host

  •  
  •   xiaoshangmin · Dec 22, 2016 · 3255 views
    This topic created in 3458 days ago, the information mentioned may be changed or developed.

    最近在抓取一个网站内容大概有 400 多万条数据
    用的是 php 的 curl 但是抓了大概 800 多条就出现 couldn`t connect to host
    谷歌了下有说伪造 IP curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
    但是也是没用 出现这个错误时等过段时间又可以访问 不清楚这是为什么
    还有棘手的问题就是网站没有接口 它使用 thinkphp 模板生成 只能抓网页
    太频繁访问会有验证码 v 友有这方面的经验吗 求指教

    6 replies    2016-12-23 10:13:02 +08:00
    mansur
        1
    mansur  
       Dec 22, 2016
    挂代理
    RE
        2
    RE  
       Dec 22, 2016
    如果手头上没有稳定的代理池,还是不建议上代理了,超时和不稳定等问题让你更头痛。
    可以试试淘宝上的拨号 VPS ,随时换 IP ,可以日租,很便宜。
    另外 400 多万总数、 800 条就挂,这样的频率用 PHP 抓取真的好吗…
    xiaoshangmin
        3
    xiaoshangmin  
    OP
       Dec 22, 2016 via iPhone
    @RE 不用 php 是用 py 吗 求指教
    RE
        4
    RE  
       Dec 22, 2016
    @xiaoshangmin
    确实是有很多爬虫用 py ,不过… 我不会……
    考虑到我上面说的那种 VPS ,一般都是 windows 系统,这种需求我习惯用 .net 写…
    xiaoshangmin
        5
    xiaoshangmin  
    OP
       Dec 23, 2016 via iPhone
    @RE 那可以说下抓取的思路吗
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5527 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 03:26 · PVG 11:26 · LAX 20:26 · JFK 23:26
    ♥ Do have faith in what you're doing.