• 请不要在回答技术问题时复制粘贴 AI 生成的内容
molvqingtai
V2EX  ›  程序员

AI 驱动浏览器操作实现原理?

  •  
  •   molvqingtai ·
    molvqingtai · Dec 22, 2024 · 3764 views
    This topic created in 535 days ago, the information mentioned may be changed or developed.

    最近看到 google 的一个 AI 插件,可以让 AI 操作浏览器收集信息,对 AI prompt 了解甚少,对它的实现原理很感兴趣

    插件视频: https://www.youtube.com/watch?v=2XJqLPqHtyo

    7 replies    2024-12-23 08:59:27 +08:00
    clhcowboy
        1
    clhcowboy  
       Dec 22, 2024
    浏览器插件可以获取到你需要的信息
    herich
        2
    herich  
       Dec 22, 2024
    比较关注的是 AI 驱动的浏览器能否高正确率的通过各种网站的 anti bot 机制
    hongjic93
        3
    hongjic93  
       Dec 22, 2024
    AI (文本加视觉模型)+ 浏览器自动化工具。

    工具比如 browserbase: https://github.com/browserbase/stagehand
    有用是有用,但可靠度要看不同厂商在对自家内容平台保护的力度。道高一尺魔高一丈
    kulove
        4
    kulove  
       Dec 22, 2024
    之前做过类似的 Demo ,读取 HTML 网页+截图来做的(单一的不准确),因为插件不能注入代码,所以封装了诸如点击、滚动、输入的各种事件,效果么还行,就是成本爆炸,所以没有上线。
    lizhenda
        5
    lizhenda  
       Dec 23, 2024
    一般是基于视觉,感觉成本很高啊。并且获得的数据准确性存疑。
    YuanJiwei
        6
    YuanJiwei  
       Dec 23, 2024
    哈哈,巧了,我现在正在探索利用 pupputeer 实现 Google Mariner 的各种方案
    macaodoll
        7
    macaodoll  
       Dec 23, 2024 via Android
    程序驱动浏览器有成熟的方案,只是难的是让模型读懂页面
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5994 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 67ms · UTC 06:14 · PVG 14:14 · LAX 23:14 · JFK 02:14
    ♥ Do have faith in what you're doing.