https://www.anthropic.com/news/claude-fable-5-mythos-5
发布如此强大的模型伴随着风险。如果没有安全措施,Fable 5 在网络安全等领域的能力可能会被滥用,造成严重损害。因此,我们在发布该模型时配备了安全机制:当用户查询某些主题时,系统将改用我们次强模型 Claude Opus 4.8 进行回复。为了在安全的前提下快速发布模型,我们采取了较为保守的安全设定——这些机制有时会误拦截无害请求(尽管平均触发率低于 5%)。随着未来几个月内更强大模型的陆续推出,我们正努力改进安全措施,降低误报率。
我们此前已发现,有大规模尝试从 Claude 中提取(“蒸馏”)其能力,用于在威权国家训练竞争模型。对 Fable 5 能力的蒸馏可能间接导致近前沿 AI 能力的扩散——而这些能力可能在缺乏适当安全措施的情况下被释放。被我们的分类器标记为属于此类蒸馏尝试的请求,将回退到 Opus 4.8 。