爱意满满的作品展示区。
8bits

Spiderless - 一个基于 AWS Lambda 的"即点即爬"爬虫应用

  •  
  •   8bits · Dec 15, 2018 · 7109 views
    This topic created in 2740 days ago, the information mentioned may be changed or developed.

    网站跑在 AWS S3 上面不知道能否访问: https://kmppp.com

    技术栈介绍和价值一个亿的核心代码开源在: https://github.com/slashbit/spider-less

    至于功能,动图走起!

    spiderless.gif

    Supplement 1  ·  Dec 16, 2018

    附上架构图 Serverless Application Architecture (1).png

    24 replies    2019-02-20 22:06:42 +08:00
    rayhy
        1
    rayhy  
       Dec 15, 2018
    弱弱地问一下楼主有没有试过用国内的云服务商提供的类似功能(比如腾讯云的云函数)来做这件事情?
    d5
        2
    d5  
       Dec 15, 2018 via iPhone
    支持
    rayingecho
        3
    rayingecho  
       Dec 15, 2018
    思路很棒,已 star
    8bits
        4
    8bits  
    OP
       Dec 15, 2018
    @rayhy 目前还没有用过国内的 Serverless 服务,如果有机会做小程序开发的话,倒还真想体验下腾讯云函数
    abmin521
        5
    abmin521  
       Dec 15, 2018 via Android
    量大的话需要 MQ 吧
    isCyan
        6
    isCyan  
       Dec 15, 2018
    AWS 全家桶实战,支持一个
    8bits
        7
    8bits  
    OP
       Dec 15, 2018
    @abmin521 Message Queue 吗?嗯,可以用 AWS 的 SQS ( Simple Queue Service ),cron 函数将需要爬的任务筛选出来后,将消息扔到队列中,scrape 函数由队列消息触发
    Senventise
        8
    Senventise  
       Dec 15, 2018 via Android
    建议防一下滥用,貌似可以访问墙外地址
    miao
        9
    miao  
       Dec 15, 2018
    只能爬文字?
    8bits
        10
    8bits  
    OP
       Dec 15, 2018
    @Senventise 的确哈,因为爬虫访问“外网”是不受限制的...
    8bits
        11
    8bits  
    OP
       Dec 15, 2018
    @miao 嗯,目前只支持静态网页,在 AWS Lambda 上用 puppeteer 比较费劲
    binarymann
        12
    binarymann  
       Dec 15, 2018
    不错不错,正好学习下 serverless
    8bits
        13
    8bits  
    OP
       Dec 15, 2018
    @d5
    @rayingecho
    @isCyan
    @binarymann
    谢谢支持!😊
    tedd
        14
    tedd  
       Dec 15, 2018
    已订阅了个站的更新,谢谢分享🙏
    bbmmwan886
        15
    bbmmwan886  
       Dec 16, 2018 via Android
    貌似面向国外的 不知道会不会更新中文的 英文用起来还是不太习惯😅😅😅
    8bits
        16
    8bits  
    OP
       Dec 16, 2018
    @bbmmwan886 操作很简单啦 😊
    landi
        17
    landi  
       Dec 17, 2018
    网站很漂亮啊,ui 是自己设计的吗。。。
    8bits
        18
    8bits  
    OP
       Dec 17, 2018
    @landi 谢谢,嗯 😊
    dezhou9
        19
    dezhou9  
       Dec 17, 2018 via Android
    有点简单啊,高中生水平,朋友。已 star
    evanvane
        20
    evanvane  
       Dec 18, 2018 via Android
    请问下,第二张图是怎么生成的?
    8bits
        21
    8bits  
    OP
       Dec 18, 2018
    @dezhou9 谢谢支持 😊嗯嗯主要展示一个完整的 Serverless 应用案例。
    8bits
        22
    8bits  
    OP
       Dec 18, 2018
    @evanvane 在这里画的: https://cloudcraft.co/
    dezhou9
        23
    dezhou9  
       Dec 18, 2018 via Android
    @8bits 我的发展建议是做一个可编程的信息流网站,根据不同的 parser,以从右向左的方式滚动
    evanvane
        24
    evanvane  
       Feb 20, 2019
    @8bits 多谢
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5488 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 52ms · UTC 07:38 · PVG 15:38 · LAX 00:38 · JFK 03:38
    ♥ Do have faith in what you're doing.