baijiahei
V2EX  ›  问与答

爬虫问题:只爬取标题,url 是否构成侵权?

  •  
  •   baijiahei · Dec 3, 2020 · 2774 views
    This topic created in 2013 days ago, the information mentioned may be changed or developed.
    • 爬虫频率设置的很低 10 分钟一次 不对源站造成性能问题
    • 抓取标题 URL 本地存储 用户点击跳转到源站 是否构成侵权
    • 我知道这个是 百度(蜘蛛) 的做法,但是他们是大厂 个人这样做是否有问题
    • 麻烦大家帮我科普一下
    19 replies    2020-12-04 10:29:42 +08:00
    baijiahei
        1
    baijiahei  
    OP
       Dec 3, 2020
    咋都是进来瞄一眼就跑的啊,没人帮忙解答一下吗?

    之前 RSS 很多被下架 原因都是什么
    natashahollyz
        2
    natashahollyz  
       Dec 3, 2020
    个人觉得不构成。
    流量还是回到源站的话,这没什么问题。
    转载注明出处也没啥问题。源站注明拒绝转载除外。
    baijiahei
        3
    baijiahei  
    OP
       Dec 3, 2020
    @natashahollyz 我也是这么想的 但是 RSS 类的为啥被下架那么多呢 是因为不受控 有外网内容?
    natashahollyz
        4
    natashahollyz  
       Dec 3, 2020
    @baijiahei 苹果说有违反中国法律的内容。。。大概能猜到是什么了
    jr55475f112iz2tu
        5
    jr55475f112iz2tu  
       Dec 3, 2020
    10 分钟一次,这个频率挺高了其实
    只抓标题,理论上肯定比抓全文风险更低
    natashahollyz
        6
    natashahollyz  
       Dec 3, 2020
    @baijiahei 抓全文可能涉及到版权,抓标题应该不涉及。如果源站不让抓,通知你一下,你不抓就是了。法律风险微乎其微
    ztxcccc
        7
    ztxcccc  
       Dec 3, 2020
    看 robot.txt 做事
    频率合理
    只爬公开页面
    不直接盈利

    至少被告的时候还能抗诉下
    westoy
        8
    westoy  
       Dec 3, 2020   ❤️ 1
    通用搜索引擎并不是定向爬取+定向利用

    定向爬取定向利用是有争议的, 对方是有机会搞你的

    feed 是平台主动把数据展示给你

    几个性质不一样的
    baijiahei
        9
    baijiahei  
    OP
       Dec 3, 2020
    @natashahollyz 大概是想象的样子 毕竟 rss 是用户自定义 不可控
    baijiahei
        10
    baijiahei  
    OP
       Dec 3, 2020
    natashahollyz
        11
    natashahollyz  
       Dec 3, 2020 via iPhone
    @baijiahei 时政别碰,搞不好喝茶。其它的不要怕
    baijiahei
        12
    baijiahei  
    OP
       Dec 3, 2020
    @natashahollyz 没这想法 很多东西是红线
    opengps
        13
    opengps  
       Dec 3, 2020
    爬虫现在没有明确边界,除了已经想到的问题,多关注这一行里的新闻及时调整吧
    opengps
        14
    opengps  
       Dec 3, 2020
    文中有看到类比百度,这是个不太合适的类比,毕竟百度给源站带去流量,可能是源站期望的效果。
    jones2000
        15
    jones2000  
       Dec 3, 2020
    找个律师事务所咨询下不就可以了。
    2088TXT
        16
    2088TXT  
       Dec 3, 2020
    百度也是 看 robot.txt 协议吧
    Ayersneo
        17
    Ayersneo  
       Dec 4, 2020 via Android
    @2088TXT 百度看 但是百度好像看不懂 User-agent:* Disallow: /
    baijiahei
        18
    baijiahei  
    OP
       Dec 4, 2020
    @Ayersneo 百度对一些站根本不鸟 robots
    zerofancy
        19
    zerofancy  
       Dec 4, 2020
    @baijiahei 不抓正文感觉问题不大吧。RSS 在中国流行不起来我感觉有一个重要原因是 RSS 是会被阅读器缓存的。假如微博热搜提供 RSS,那么怎么撤热搜?事实上现在提供 RSS 的基本也就是一些博客或者技术性的论坛了,这些基本都没有删文章的需求。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3346 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 10:54 · PVG 18:54 · LAX 03:54 · JFK 06:54
    ♥ Do have faith in what you're doing.