现在 AI 大模型的语料收集是一个难题:绝大多数平台,登录、甚至是下载 APP 才能访问其提供的内容。当然,搞逆向工程也能去抓取数据,但是平台那边肯定不能容忍这种行为的。如果是用户按照一般的方式访问,获取内容应该更加顺利。因此我就有了该构想。
用户访问内容的时候,这个工具可以读取访问的文本、图像、视频等信息,收集给工具的提供方,由提供方处理分析,获得能够用于训练的语料。读取方式包括但不限于:读取页面文本等信息、读取浏览器已下载的内容、截屏 OCR 。
这个工具可以做成浏览器、浏览器插件或者是 App ,用户能够通过该工具获得一定的报酬。
这种方式的优势基本上就是稳定、不容易被拦截,可以以众包的方式做到大范围的抓取,比较容易防止千人千面、大数据杀熟等情况对收集得到的信息造成影响。
但是劣势也非常明显:极易侵犯用户的隐私。
不知道是否有已经做这种东西的,先写出来看看大家的想法吧。