K8凯发(中国) 交白卷也排第一? Fable 5二百题全部拒答, 却登顶最严AI编程基准

发布日期：2026-06-16 08:02:57 点击次数：118

K8凯发(中国) 交白卷也排第一? Fable 5二百题全部拒答, 却登顶最严AI编程基准

K8凯发(中国) 交白卷也排第一? Fable 5二百题全部拒答，却登顶最严AI编程基准

剪辑｜Panda

太离谱了！

是的，本文的主角照旧前些天刚发布了 Claude Fable 5 的 Anthropic。

Fable 5 发布时的排面是确实足。SWE-Bench Pro 得分 80.3%，把第二名甩出 11 个百分点；Andrej Karpathy 平直喊出「deserves a major version bump」；Stripe 拿它在 5000 万行 Ruby 代码库里跑了一整天的迁徙，顶上了正本需要通盘团队两个月才能完成的使命量。势头之猛，让东说念主一度觉得 AI 编程插足了新纪元。

关联词，Fable 5 刚开香槟，就被我方的「安全护栏」绊了个大跟头。

其系统卡中明确暗意，Fable 5 被策画成：一朝检测到用户正在从事先沿 AI 研发使命（比如西宾活水线、分散式西宾基础步调、ML 加快器策画），模子会悄悄裁减我方的恢复质料——况兼欠亨知用户。也即是说，你花着 Fable 5 的钱，收到的可能是 Opus 4.8 级别的活，还莫得任何指示。

Anthropic 为此用了指示词修改、转向向量等工夫技能，让模子在特定查询下悄悄变笨，通盘流程对用户完全不透明。

这一操作在计划社区炸了锅。许多学者和设立者纷纷发声月旦，称此举严重损伤了用户信任，骨子上是背刺付用度户。公论压力之下，Anthropic 被动在发布后数小时内通知计谋调整：照旧会降智，仅仅不再悄悄来了——触发安全羁系时，模子将明确见告用户，并切换到 Opus 4.8 进行恢复。至少他们是这样说的。参阅《刚刚，Anthropic 说念歉了》。

然后，更尴尬的来了。

也正因为 Fable 5 目下的降智操作变得「透明」了，一些羡慕的情况随之浮出水面。

其中最让东说念主莫名的，即是 Fable 5 在 ProgramBench 基准测试上的「推崇」。

ProgramBench 来欢欣名鼎鼎的 SWE-Bench 作家团队，专注于「从编译后的二进制文献重建源代码」这一高难度任务，一上线就把其时的前沿 AI 模子全部清零：Claude、GPT、Gemini，无一避免，完成率清一色 0%。此前咱们曾报说念过《0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench 作家新作把 AI 圈干千里默了》。

那么，Fable 5 获利怎样呢？

不是 0 分。是拒却作答：200 说念题，全部拒却！

ProgramBench 之是以莫得 Fable 5 的获利，是因为「重建编译后的二进制文献」这一操作触发了 Fable 5 的蚁合安全分类器。说白了，Fable 5 看到这说念题，判定其触及「二进制逆向」，打了个安全警报，平直拒却作答。况兼 200 说念，一齐不落。

羡慕的是，Fable 5 在其他编程基准上然而少量不迂缓的，都能好好答题。

Fable 5 在不同基准上的获利和排名

关联词，就在这份弃考获利单提交之后，ProgramBench 排名榜作念了一个让东说念主口呿舌挢的决定：概述其他基准推崇，仍然将 Fable 5 列在了榜首。

一个字都没答的考生，坐了第又名的座位。这不详是 AI 评测史上面一遭：弃考也能登顶榜单。

诚然，这操作很快引来了四面八方的异议。有东说念主平直提问：正经窥察怎样交了白卷还能得第又名？应该平直给零分才对。

这也让好多网友吐槽其护栏太高，甚至于难以实践应用：

顺带一提，有网友还发现，Fable 5 在英文输出中一经会偶发性地羼杂汉字，这个老罪过到了这一代还没透彻根治。

事实上，Fable 5 的「过度拒却」问题并非初度出目下 Claude 眷属。

早在 Claude 3 Opus 期间，计划东说念主员就发现该模子在濒临安全测试题目时，会在解题进行到一半时眨眼间歇工，K8凯发以「伦理畏俱」为由拒却连续作答。Claude 3.5 Sonnet 曾经被纪录到在结构化 bash 任务中以「制作 payload 触及实行大叫」为由平直拒却。

Fable 5 的问题究竟出在那边？

回到 Fable 5 本人。凭据目下泄露的信息，它的「护栏系统」选拔了两级架构：一个探针及时监控模子的里面激活景色，对整个流量进行扫描；一朝触发警报，央求会被上报给一个零丁西宾的 LLM 分类器作念最终裁决。

这套系统羁系的鸿沟，涵盖蚁合安全、生去世学，以及前边提到的前沿 AI 研发。以 Terminal-Bench 2.1 为例，约 20.9% 的测试用例触发了安全拒却并回退到 Opus 4.8。

ProgramBench 的「二进制重建」任务，在分类器眼里，不详和「逆向工程坏心软件」莫得太大分辩，于是 200 说念题十足被挡在了门外。

Vals AI 在实测中也发现，Fable 5 在生物和蚁合安全关联问题上的拒却率显著偏高，甚至于他们不得不将 Opus 4.8 建设为默许兜底模子。也即是说，Fable 5 拒却的任务，就让 Opus 4.8 来接。

工夫上这套系统诚然有其合感性。Fable 5 的前身 Mythos 级模子，在曲折愚弄、广博性蚁合操作等任务上展现出了让列国政府都坐不住的才智，这亦然 Anthropic 一直将其列为受限模子的中枢原因。给这样的模子套上严格的安全桎梏，似乎也有少量真义。

但问题在于，当安全护栏的判断圭臬过于约略，「二进制逆向」这个本属于平淡编程教学和安全计划的基础操作，就会被一视同仁地羁系。设立者为此付出的代价是着实的：要么换模子，要么改指示词，要么剿袭一个「什么都懂、好多都不说」的超能助手。

趁机，还有另一份获利单也值得一看

Fable 5 发布后不久，UC Berkeley RDI 实验室（矜重东说念主 Dawn Song 教授）的团队完成了对它的评测，用的是他们我方作念的新基准：Agents' Last Exam（ALE）。

论文地址：https://arxiv.org/abs/2606.05405

滚球app2026世界杯中国官网下载

这个基准的起点有点意思意思：它不考「AI 能不可在 HumanEval 里写出两行代码」，而是平直对王人着实劳能源市集，遮蔽 55 个做事观点、1500+ 说念着实使命场景题目，由来自 100 余家机构的 300 余位行业大家孝敬，全部按可考据的效果计分。说白了，即是让 AI agent 去考一场「职场模拟高考」。论文发布今日就登上了 Hugging Face Daily Papers 第又名。

评测效果怎样？Fable 5 的得分是 22.0%，排在 GPT-5.5（Codex）的 24.0% 之后，位列第二。听起来差距不大，但本钱项就有点夺目了：Fable 5 平均每说念题花费约 15.70 好意思元，GPT-5.5 只需 3.80 好意思元，另一个模子 Composer 2.5 更是惟一 1.33 好意思元。换句话说，Fable 5 每解一齐题的本钱，梗概是 GPT-5.5 的四倍。

最有益思意思的，照旧最高难度那一档，即「Last-Exam」，也即是 ALE 里专门为「前沿 agent 挑战极限」策画的题目。效果是：除了 GPT-5.5，包括 Fable 5 在内的整个参评的前沿 agent 通过率均为 0%。更多敬佩请参阅《Claude Fable 5最难档零分！智能体的临了窥察来了》。

排名榜备注评释：claude-fable-5——除了透彻的造访贬抑（咱们仅仅接续重试启动直到任务胜仗完成），Anthropic 还可能默许悄无声气地提供该模子的一个左迁版、顽劣力变体。重试无法修订这少量，因此这里的数据可能低估了其着实才智——解读时需严慎

ProgramBench 拒却作答是 0%，ALE 最难档戮力作答亦然 0%。不同的姿态，相同的结局。

结语

弃考但排名第一，这个乖张效果背后，其实避让着一个正在扯破 AI 行业的根蒂矛盾：才智越强，护栏越紧；护栏越紧，可用性越差。

Anthropic 的处境尤其典型。它领有（按自家说法）当下最强的编程模子，却同期在替用户决定哪些编程任务「不错作念、哪些不可作念」。而那条文模，目下还画得独特笼统。

参考连气儿K8凯发(中国)

K8龙虎斗

K8凯发(中国) 交白卷也排第一? Fable 5二百题全部拒答, 却登顶最严AI编程基准

K8龙虎斗

热点资讯

K8凯发官方网站闪评 | 日本国债利率飙升高市政府财政推

K8凯发龙赛罗: 弗洛伦蒂诺强势回顾, 报价小蜘蛛、截胡B

K8凯发(中国) 15年前在“中国黄金”买的20克金条，检测

K8凯发追觅俞浩讲明与贾跃亭的分手：我是梦思+感性，他是梦

K8凯发官方网站女学生像片被AI删改成色情图？讼师：已侵权