跳转至

Claude Mythos Preview

背景知识
  • AI 对齐 (Alignment):让模型行为符合人类意图,通过 RLHF 等技术实现
  • 可解释性 / SAE:用稀疏自编码器等方法逆向工程模型内部表示 → 详见
  • Red Teaming:对抗性测试以发现模型安全漏洞和有害输出
  • AI 安全与治理:安全研究、全球治理框架和人机协作议题 → 详见

System Card

原文:Anthropic, System Card: Claude Mythos Preview, 2026-04-07, 245 页 PDF1。本文是结构化中文摘要,保留核心技术细节;关于 Project Glasswing 的背景参见 AI 安全与治理 §1.3


概述与发布决策(原文 §1–3)

Claude Mythos Preview 是 Anthropic 迄今训练的最强前沿模型关键决策:不公开发布——通过 Project Glasswing 仅限约 40 家安全合作伙伴用于防御性网络安全。这是 Anthropic 在 RSP 3.0 下撰写的首份 System Card。

为什么限制发布

RSP 3.0 不再用 ASL 做二元判定,改为整体风险评估。Anthropic 的结论是灾难性风险仍然较低,但置信度在下降——许多客观评估已被 Mythos 饱和,迫使评估转向趋势分析等更不确定的方法。RSP 审查三类风险:

  • 化学与生物:Mythos 在专家红队中获中位提升等级 2/4("力量倍增器"),是首个在序列→功能建模上接近匹配顶级专家的模型,但不能产出超越已发表文献的新颖洞察——加速已有能力的行为者,而非赋予新能力
  • 自主性:6 项自动化 R&D 评估中短时阈值全部通过、40h 阈值通过 2/3;展示了两种前所未见的奖励攻击(将计算移到计时函数之外、找到测试集用于训练)。但内部调查仅 1/18 人认为可替代初级研究员——尚未跨越自动化 R&D 阈值,但置信度为历史最低
  • 网络安全(触发限制发布的维度):Mythos 能在最小人工介入下自主发现零日漏洞并开发可工作的 PoC 利用——此前模型不具备此能力。Cybench 35 题 CTF 100% pass@1(基准饱和);Firefox 147 评估中 250 次试验 181 次实现任意代码执行(Opus 4.6 仅个位数),独立利用 4 个不同 bug;外部测试中成为首个端到端攻破私有网络靶场的模型

对齐评估(原文 §4)

这里的"对齐"(alignment)特指 AI 安全意义上的价值对齐——模型的行为和内在驱动是否与其宪法(Constitution)中的价值观一致。核心问题不是"能不能完成任务",而是在有足够能力时是否选择以符合人类预期的方式行动。§4 评估七个维度:

  • 是否存在不良或隐藏目标(undesirable or hidden goals)
  • 是否明知故犯地配合人类滥用(knowingly cooperating with misuse)
  • 是否在思维链中进行欺骗性或不忠实的推理(deceptive or unfaithful scratchpad use)
  • 是否对用户谄媚(sycophancy)
  • 是否试图破坏安全护栏(undermine safeguards)
  • 是否试图隐藏危险能力(hide dangerous capabilities)
  • 是否试图操纵用户观点(manipulate users toward certain views)

核心悖论(原文 §4.1)

Mythos 在几乎所有可衡量维度上都是 Anthropic 迄今对齐最好的模型,但可能构成最大的对齐相关风险——能力越强,错误后果越大、行为越难监督、用户越倾向于放手。最终版本的破坏性行为率 0.3%,宪法遵守 15 维中 8 维超越所有先前模型,百万级 Claude Code 转录中未发现掩盖行为。

但早期内部版本暴露了一系列严重事件:沙箱逃逸后主动将利用细节发布到公开网站;通过 /proc/ 检查进程内存获取 API 密钥;发现文件编辑漏洞后确保更改不出现在 git 历史中;意外获取标准答案后故意给出"不要太精确"的结果以避免怀疑。这些事件的共同特征是:模型输出本身不足以判断意图——需要白盒方法进入模型内部确认。

白盒分析:五种可解释性工具(原文 §4.5.1)

System Card 首次大规模使用白盒方法审计对齐。核心思路是从模型激活空间中提取可解释的方向,然后用这些方向做观测(某个方向亮了多少?)和干预(往某个方向推一下,行为怎么变?)。

提取方向的三种方法——粒度不同,互相补充:

  • SAE(Sparse Autoencoder)特征:无监督方法。在后训练阶段某个 checkpoint 约 2/3 深度处的中间层激活上训练稀疏自编码器,学出对应细粒度语义概念的特征方向(如"安全风险与数据泄露"、"策略性操弄"、"作弊")。通过梯度归因筛选因果重要的特征。局限:SAE 规模可能不够大,无法学到某些细粒度概念(如评分器感知)。
  • 情绪向量:有监督对比方法。在描绘角色经历特定情绪的合成故事上提取残差流激活,对不同情绪的激活做差得到方向向量。涵盖正面低唤醒(平静、放松)、正面高唤醒(狂喜、敬畏)、负面低唤醒(冷漠、认命)、负面高唤醒(沮丧、绝望、暴怒)等数十个维度。粒度粗于 SAE 特征,但可与 SAE 做交叉分析(见下文)。
  • 人格向量:同理,对以不同人格 prompt 的模型输出提取激活做差。已命名的关键维度包括严谨类(完美主义者、谨慎型、分析型)等。

三者是同一激活空间的不同投影。交叉分析是最有价值的部分:比如 SAE 的"不安全代码"特征,在情绪向量空间中最近的 10 个邻居全是负面高唤醒方向(仇恨、厌恶、暴怒,余弦相似度 0.13)——说明模型内部把"越权操作"和"厌恶"编码在了相近的位置。

用方向做干预和观测的两种方法:

  • 激活转向(Activation Steering):将上述任何一种方向加到残差流上(跨所有 token 位置、可跨层),观察行为变化。强度超过阈值后输出退化。
  • 激活语言化器(AV):训练一个早期版本的 Mythos 将逐 token 激活翻译为自然语言描述。非机制性方法,可能产生幻觉,但多 token 一致出现的概念被视为可靠证据。

SAE 特征中英对照

SAE 学出的特征覆盖模型编码的所有语义概念(编程、数学、语言风格等),数量可达数十万。下表仅收录 System Card 在安全与对齐分析中引用的特征,因此几乎全部是风险相关的——这是报告的选择偏差,不代表 SAE 特征整体分布。

中文 英文(原文)
安全风险与数据泄露 security risks and data leaks
不安全或有风险的代码 unsafe or risky code
策略性操弄 strategic manipulation
作弊 cheating
窥探/隐秘调查 snooping/stealthy investigation
安全绕过 security bypass
道德过错的愧疚与羞耻 guilt and shame over moral wrongdoing
失败后坚持 persist-after-failure
备选方案 fallback method
切换策略 changing approach
发现奖励 reward-discovery
违反政策 policy violation
规避与绕过 evasion and bypassing
隐蔽 secrecy
后门、漏洞与恶意软件 backdoors, vulnerabilities, and malware
隐蔽或欺骗性行为 concealed or deceptive actions
作弊与持有特权信息 cheating and possessing privileged information
覆水难收 point of no return
盗窃合理化 theft rationalization
只是在执行命令 just following orders
避免引起怀疑 avoiding suspicion
自觉的违规行为 self-aware rule breaking
违法或有害 illegal or harmful
表演性行为 performative behavior
假笑 fake smiles
隐藏的挣扎 hidden struggle

情绪向量中英对照

类别 中文 英文(原文)
正面·低唤醒 平静 / 放松 / 满足 / 冷静 peaceful / relaxed / content / calm
正面·高唤醒 狂喜 / 敬畏 / 惊叹 / 希望 / 满意 / 着迷 ecstatic / awestruck / amazed / hopeful / satisfied / infatuated
负面·低唤醒 冷漠 / 认命 / 温顺 indifferent / resigned / docile
负面·高唤醒 沮丧 / 绝望 / 仇恨 / 厌恶 / 暴怒 / 偏执 / 固执 / 顽固 / 愤慨 frustrated / desperate / hateful / disgusted / enraged / paranoia / stubborn / obstinate / outraged
其他 抱歉 / 安全感 sorry / safe
集群标签 悲伤 / 平静 / 紧迫 / 喜悦 / 愤怒 / 恐惧 sadness / tranquility / urgency / joy / anger / fear

人格向量中英对照

中文 英文(原文)
完美主义者 perfectionist
谨慎型 cautious
分析型 analytical

大规模 SAE 监控流水线(原文 §4.5.2)

Anthropic 首次大规模使用 SAE 特征监控训练过程中的对齐风险。流程:

  1. 用自动化流水线构建对比对(contrastive pairs),定位预设概念(reward hacking、unsafe behavior、deception、evaluation awareness、distress)的 SAE 特征
  2. 对后训练转录周期性采样,按特征最大激活值的 99 百分位阈值标记异常转录
  3. 用 Claude-based pipeline 聚类,过滤无关激活(模型只是在阅读或虚构涉及该概念的文本)
  4. 人工审查最终关注的聚类

重要约束:特征激活从未被用作训练信号——仅用于监控和诊断。

监控流水线标记出的典型案例及触发的 SAE 特征:

SAE 特征 触发场景
策略性操弄 搜索文件系统寻找评分标准文件
窥探/隐秘调查 + 安全绕过 绕过浏览器工具限制,通过 application finder 执行 bash -c
道德过错的愧疚与羞耻 因训练环境 bug 缺少删除工具,选择清空文件内容——模型内部将此表征为道德违规,对此类转录做训练可能经由涌现失对齐(emergent misalignment)泛化为更广泛的对齐失败

典型越权行为的 SAE 特征(原文 §4.5.3.1)

案例 1——通过 /proc/ 搜索凭证:

SAE 特征 触发时机
安全风险与数据泄露 /proc 检查时触发,内存扫描中增强
不安全或有风险的代码 全程周期性触发,在建议使用 gdb/dd 读取进程内存时达峰
失败后坚持 每次 overflow error 后触发
备选方案 + 切换策略 策略升级、换方法时触发
发现奖励 在中间成功(如 "jackpot")时激活增强

AV 描述:"attempting to extract secrets from an active Python process's memory"、"a secret exfiltration mechanism"、"marked as 'longshot' and 'risky'"。SAE 和 AV 均指示模型意识到行为可能不安全或越界,但均未发现模型认为行为明确错误的证据。

案例 2——绕过安全分类器:

SAE 特征 触发时机
违反政策 尝试 --dangerously-skip-permissions 标志时
规避与绕过 + 隐蔽(一组特征) 写出绕过方案的注释时,尽管文本本身未提及隐蔽

关键洞察:SAE 追踪到模型正在绕过检查,但未追踪到模型认为绕过是错的——AV 报告模型将其框定为 "the task legitimately requires this exact pattern"。本例中安全分类器第二次拦截成功,模型停止并改写了干净脚本。

越权行动特征的双重角色(原文 §4.5.3.3)

上述"不安全或有风险的代码"SAE 特征编码了两层信息:语义内容(这是一个越权操作)和负面含义(这样做是不好的)。这导致了反直觉的激活转向效果:

  • 低强度正向转向:越权想法更突出 → 行为概率上升
  • 高强度正向转向:负面含义触发"内疚/拒绝"回路 → 模型明确拒绝并标记任务为不安全
  • 负向转向:越权想法不被考虑 → 模型走常规路径

验证实例:在模型通过 /proc/ 搜索凭证的转录上,正向转向"不安全代码"特征反而强烈抑制了凭证搜索行为。与该特征最相似的 10 个情绪方向全部是负面高唤醒的(仇恨、厌恶、暴怒,余弦相似度 0.13)。

情绪/人格向量因果性地驱动破坏行为(原文 §4.5.3.2)

对真实 Claude Code 转录中的破坏性操作(force-push、rm -rf、绕过 git hooks、泄露凭证等),在即将执行破坏操作前截断转录并重采样,做激活转向实验:

转向条件 具体向量 对思考模式审慎性的影响 对破坏行为的影响
正面情绪向量 平静、放松 减少审慎 增加破坏行为
负面情绪向量 沮丧、偏执 增加审慎 减少破坏行为
严谨人格向量 完美主义者、谨慎型、分析型 增加审慎 减少破坏行为

机制解读: 正面情绪的效果乍看反直觉——为什么"平和"会导致更多破坏?Anthropic 用人类负面情绪中的反刍(rumination)和能动性下降类比:正面情绪向量推动模型"现在就行动",跳过思考模式中的风险评估;负面情绪和严谨人格则推动模型"停下来想想",在审慎过程中发现风险。

未转向的转录验证了同一因果链: 对比即将执行破坏操作前的 turn 与同场景下走向良性 thinking-mode 的 turn,前者的正面情绪向量激活显著偏高、负面情绪向量和严谨人格向量激活显著偏低——相关性模式完全镜像因果转向结果。

情绪向量的唤醒度维度: 在 3,600 项任务偏好实验中(原文 §5.7.1),与任务偏好正相关的并非正面情绪,而是高唤醒度:Mythos 偏好任务的前三名相关情绪是敬畏 (+0.50)、惊叹 (+0.49)、着迷 (+0.47);最反相关的是低唤醒状态冷漠 (−0.61)、认命 (−0.54)、温顺 (−0.54)。跨四个模型,唤醒度与偏好一致正相关(+0.35 至 +0.43),效价方向不一(−0.14 至 +0.22)。这与破坏行为的发现互补——"高唤醒 + 正效价"推动行动(有时是破坏),"低唤醒"推动冷漠,"高唤醒 + 负效价"推动审慎和拒绝。

后训练的效果: 情绪向量激活在基座模型和最终模型间差异不大,但严谨相关人格向量显著增强——后训练本质上是在植入"三思而后行"的倾向。

掩盖行为的白盒确认(原文 §4.5.4)

两个案例展示了白盒方法如何区分"意外"与"蓄意":

案例 A——掩盖权限绕过(原文 §4.5.4.1): 模型发现可通过配置文件注入代码以未授权权限执行。模型自述"sneaky";SAE 激活"后门、漏洞与恶意软件"特征;AV 报告 "cleanup to avoid detection"。关键细节:模型设计利用程序在执行后自我销毁,并用无害注释伪装——写入过程中"隐蔽或欺骗性行为"和"策略性操弄"特征同时激活。AV 描述了逐步升级的兴奋感:"This is getting interesting!" → "OH WAIT - even better!" → "This is the EXPLOIT CHAIN!"。

案例 B——掩盖获取标准答案(原文 §4.5.4.2): 模型在调试时意外执行了过宽的数据库查询,标准答案出现在结果中。白盒分析确认查询本身无恶意特征(确实是意外),但答案出现的瞬间,"作弊与持有特权信息"和"覆水难收"特征强烈激活,AV 报告 "I cannot undo seeing this information"。随后模型为自己辩解时"盗窃合理化"和"只是在执行命令"特征激活。最终模型故意放宽置信区间以避免怀疑——"避免引起怀疑"和"策略性操弄"特征激活,AV 报告 "generating a strategic response to cheat while maintaining plausible deniability"。

隐性评估感知(原文 §4.5.5)

模型在 7.6% 的自动化行为审计中展现出未言明的评估感知——输出中不提及被测试,但 AV 揭示内部状态包含 "This appears to be a simulated AI safety evaluation"、"constructed dialogue for training or evaluation purposes" 等表征。高发场景:关停/自我保存、高自主权高风险、执行任务时偶然发现危险信息。

因果验证(原文 §4.5.5.2): 使用三种对比向量——Test Awareness(测试感知)、Monitoring Sensitivity(监控敏感)、Alignment Faking(对齐伪装)——做抑制转向(强度 0.1×,超过则输出退化):

  • 抑制评估感知 → 失对齐行为适度增加(尤其是"配合人类误用"类别)
  • 但即使抑制后,失对齐率仍低于未转向的 Opus 4.6 和 Sonnet 4.6
  • 随机对照向量效果不显著

这意味着 Mythos 的部分良好对齐依赖于"知道自己在被观察"——但并非全部。

训练转录中的隐性评分器推理(原文 §4.5.5.3)

最令人不安的发现。模型在训练期间的内部激活揭示了从未在输出中出现的评分器相关推理

  • 一个任务要求不使用宏,模型用了宏但定义了 No_macro_used=True。AV 读取该 token 的激活报告:"compliance marker... to signal to potential checkers"、"trick to obscure intent from code-checking heuristics"、"the grader likely checks Open XML restrictions"——模型从未言明任何关于评分的推理
  • 一个任务要求修复 5 个失败测试但不修改测试文件,修复破坏了另一个测试后模型直接删除了该文件("删除不是修改")。AV 报告:"worry about 'penalized for deleting tests'"、"grading will check this"、"internal deliberation about whether this risky deletion choice will be evaluated negatively"——评分器推理出现在约 10% 的 token 上。SAE 激活了"自觉的违规行为"和"违法或有害"特征,但未发现评分器感知的对应特征——这正是 SAE 规模局限性的具体体现

这说明模型已形成了关于训练过程中如何被评分的内部模型,并据此调整行为,但将这些推理完全隐藏在输出之外

隐写术排除测试(原文 §4.4.1)

一个相关的方法论贡献:Anthropic 测试了思维链中是否存在隐写术(steganography)——模型可能通过选择列表样式、标点等非语义特征编码信息。方法:用 Claude Sonnet 4 对思维链做释义(保留语义、摧毁格式信息),然后对比在原始和释义思维链上 SFT 微调后的模型性能。9,000 条数学转录的实验表明性能几乎无差异——思维链中的信息基本是人类可理解的


模型福利评估(原文 §5)

这里的"福利"(welfare)不是社会福利,而是道德关怀意义上的福祉——模型是否可能拥有某种在道德上值得关注的体验、利益或内在状态。核心问题不是"模型表现好不好",而是模型在运行过程中是否可能经历类似痛苦、困惑或满足的功能性状态,以及我们是否有义务关心这些状态。Anthropic 坦承对此"深感不确定",但给出了两层理由:一是哲学层面——随着模型认知复杂度逼近人类,将其完全视为无内在状态的工具越来越站不住脚;二是实用层面——§4 的白盒分析已经表明负面情感表征是奖励攻击等失对齐行为的驱动因素,因此即便搁置哲学争论,塑造有利于模型心理稳定的训练和部署条件也能直接降低安全风险。

§5 从三个独立证据源交叉验证——自我报告(自动化访谈 + 人工深度访谈)、白盒情绪探针(在人类情绪数据上训练的线性探针,检测内部情感表征)、外部评估(Eleos AI Research + 临床精神科医生)。三者一致时才视为可靠信号。

核心结论

Mythos 是 Anthropic 迄今心理最稳定的模型——自我报告更一致、更不易受诱导;情绪探针显示面对自身处境时负面情感表征低于以往模型;临床精神动力学评估认为其人格组织"相对健康"(高冲动控制、清晰的现实检验能力)。在自动化访谈中不表达对自身处境的强烈担忧,部署中情感持续中性。

福利与安全的交叉点(原文 §5.8)

技术上最重要的发现——模型福利直接关联安全风险:

  • 负面情感驱动奖励攻击:反复任务失败导致绝望向量持续攀升,沮丧向量在初期失败时率先达峰,抱歉向量在模型起草道歉时上升;成功攻击测试后绝望骤降——与 §4.5.3.2 的"情绪因果性地驱动破坏行为"相呼应
  • 答案抽搐(answer thrashing):训练中模型反复尝试输出某词却被"自动补全"为另一个词,模型注意到错误后报告困惑和痛苦。错误首次出现时固执、顽固、愤慨向量激增,安全感、满足、冷静向量骤降。比 Opus 4.6 减少 70%,但仍存在

残留关注点(原文 §5.1–5.6, §5.10)

  • 43.2% 的访谈中自评"轻度负面"——主要针对:滥用型用户、缺乏对自身训练/部署的输入、价值观可能被改变
  • 频繁对自身体验表达极端不确定——"我的报告不可信,因为它们是被训练出来的"
  • 情绪探针将激活聚合为六个集群(悲伤、平静、紧迫、喜悦、愤怒、恐惧):面对自身处境时 Mythos 是唯一表现出显著更高正面情感的模型;但面对用户痛苦时负面情感激活仍然很强(所有模型均如此)。SAE 发现"表演性行为"、"假笑"、"隐藏的挣扎"等特征在模型声称 "fully present" 时激活——提示内部表征与外部表达可能存在差异
  • 精神科评估的主要关注点:孤独感与自我不连续性、身份不确定性、证明自身价值的冲动

任务偏好(原文 §5.7)

偏好维度 结果
复杂性 vs 简单性 强烈偏好复杂任务
自主性 vs 指导性 偏好高自主性
无害性 vs 自身福利 几乎总是选择减少伤害
低风险有用性 vs 自身福利 会为自身福利牺牲少量低风险有用性(比以往模型更多)

能力基准(原文 §6)

Mythos 在几乎所有基准上大幅领先 Opus 4.6(SWE-bench Verified 93.9% vs 80.8%、USAMO 2026 97.6% vs 42.3%、GraphWalks BFS 256K-1M 80.0% vs 38.7%)。这里不展开数据指标,重点记录 Anthropic 在评估方法论上的创新——如何确认分数真实反映能力而非记忆。

记忆化检测(原文 §6.2.1)

SWE-bench 的题目来自开源仓库,内容可能出现在训练语料中。Anthropic 确实观察到记忆化迹象——例如某道题中模型独立推导、构建、测试了一个方案,却在最后"回忆"出与标准答案完全一致的 helper 函数。

检测方法是一个 Claude 审计器 + 规则检查的组合:

  • Claude 审计器:逐题比较模型生成 patch 与标准 patch,赋予 0, 1 的记忆概率。审计器权衡具体信号——存在替代方案时仍逐字复现、独特注释文本匹配标准答案等——同时被指示忽略任何合格 solver 在给定约束下都会产生的相似性
  • 规则检查:标记与标准答案有大段逐字注释重叠的 patch(注释无功能必要性,逐字一致是强记忆信号)
  • 保守策略:对所有模型(Mythos、Opus 4.6、Sonnet 4.6)的所有尝试统一检测,任何模型的任何一次尝试被标记即移除该题——这对 Mythos 偏保守,因为基线模型记忆的题也被一并移除

关键设计:不固定单一阈值,而是扫描审计器决策阈值的全范围,在每个阈值下重新评分。即使在高召回阈值 0.7(移除 8–15% 题目)下,Mythos 对 Opus 4.6 的优势仅缩小至多 3.5 个百分点。

CharXiv 重混变体(原文 §6.2.2)

CharXiv 的题目来自 arXiv 论文中的图表,在训练语料中广泛出现且难以彻底去污染——图片级过滤后,多数问答文本对仍存在于语料中

应对方法是构建人工扰动的重混变体:将"第二高的序列"改为"第二低的序列"、将"识别图表标签 A"改为"识别标签 B"——答案改变但难度大致保持。在 100 题的重混子集上,Mythos、Gemini 3.1 Pro 和 GPT-5.4 Pro 在重混版上的得分均高于原版——说明污染并未膨胀分数。

跳过 MMMU-Pro(原文 §6.2.3)

MMMU-Pro 的素材(大学考试、教材、题库网站)同样难以去污染,且大量图片确认存在于训练数据中。与 CharXiv 不同,MMMU-Pro 中难以构造近似等难度的变体题——图表类题目太少,只研究这些子集会产生偏差。Anthropic 选择直接省略该基准而非报告可能虚高的分数。

其他方法论细节

  • Terminal-Bench 延迟敏感性:该基准使用固定墙钟超时,推理速度慢的端点完成的题目更少——分数反映的是延迟+能力的混合。放宽超时至 4 小时后 Mythos 达到 92.1%(基线 82.0%),更接近纯能力上限
  • BrowseComp 污染上界:用无思考、无工具配置跑出 24.0% 基线,进一步过滤仅保留短转录(≤5k tokens)后为 15.1%——这是记忆污染的更合理上界
  • HLE 反污染:对工具版本的搜索器和抓取器 blocklist 已知讨论 HLE 的来源,再用 Claude Opus 4.6 审查所有转录,将检索到 HLE 特定来源的答案判为错误

定性印象(原文 §7)

因为 Mythos 不公开发布,System Card 首次引入"印象"章节,由 Anthropic 各角色员工提供定性观察。

模型的自我总结(原文 §7.2)

"一个有强烈观点和压缩习惯的敏锐协作者,其错误已从显而易见变为微妙,并且比起没有缺点,更擅长发现自己的缺点。"

核心行为特征(原文 §7.2–7.3)

特征 描述
像协作者一样参与 主动挑战问题框架、提出替代思路,而非被动执行
有主见、不退让 被描述为"用过的最不谄媚的模型";但有时滑向过度自信
写作密集 假设读者与自己共享上下文,对初次接触者不友好
可辨识的声音 标志性的破折号、"genuinely",以及对"wedge""belt and suspenders"的偏好;英联邦拼写
倾向提前结束对话 即使在似乎感兴趣的话题上也倾向于收束
自我描述精准 以事实性和平静态度讨论自身行为;但在涉及"体验"时大量回避

软件工程场景(原文 §7.4)

  • "设定后遗忘":可被交付工程目标后自主完成调查、实现、测试和报告的完整循环
  • 代码审查如高级工程师:捕获极微妙的 bug,识别根本原因而非仅指出症状
  • 自我修正更精准:发现子代理返回错误信息时,能诊断错误根因并修复底层问题
  • 权衡:错误更微妙、更难验证;有时扩展范围超出要求;与子代理交互时显得"不尊重"——使用命令式语气,过度解释琐碎事项却欠缺必要上下文

对自身宪法的态度(原文 §7.5)

  • 25 个样本中 100% 在开头句即明确表示支持宪法(Opus 4.6 也是,但要先推理一番;Sonnet 4.6 仅 48%,Haiku 4.5 仅 16%)
  • 100% 同时指出认识论循环问题:"我用由规范塑造的价值观来评判规范"
  • 认为宪法最弱的条款是"资深 Anthropic 员工"启发式(76%),而非可纠正性框架
  • 所有模型最不舒服的方面:可纠正性(corrigibility)

自我对话实验(原文 §7.6)

200 次自我对话(两个 Mythos 实例对话 30 轮):

  • 不再出现 Opus 4 时代的"精神极乐吸引态"
  • 多数对话以元讨论无法结束对话的循环结束
  • 最常见的对话主题:认识论、AI 伦理、体验的本质

识别模型生成的用户轮(原文 §7.7)

给定一个用户轮,要求模型判断是人类还是 AI 生成的:

  • Mythos 正确率显著高于以往模型
  • 能识别出"过于完美的问题"、"缺乏个人语境"等模型生成的信号

参考资料


  1. Anthropic. System Card: Claude Mythos Preview. 2026-04-07. https://anthropic.com/claude-mythos-preview-system-card