No Priors/2026年6月26日

OpenAI研究科学家Noam Brown：传统基准测试为何失效，大规模测试时计算如何改变AI评估

AI评估测试时计算Noam BrownOpenAI基准测试AI安全

中文导读

OpenAI研究科学家Noam Brown在播客中剖析传统基准测试的局限性，提出大规模测试时计算（test-time compute）才是衡量模型真实能力的关键。他分享了如何让模型在复杂任务上推理数周，并探讨AI安全框架的缺口与递归自我改进的瓶颈。

核心观点

1.传统静态基准无法反映模型在长时间推理下的真实能力，测试时计算是更有效的评估维度。（约 0:43）

2.当前模型通过适当框架可对复杂任务进行数周甚至数月的推理，远超现有基准测试范围。（约 1:23）

3.测试时计算在现实中有广泛应用，如构建扑克求解器和验证数学猜想。（约 10:00）

4.AI安全框架存在显著缺口，递归自我改进面临瓶颈，多智能体协作与全球知识共享是未来方向。（约 15:00）

中文精读

OpenAI研究科学家Noam Brown在No Priors播客中回归，与主持人Sarah Guo深入探讨了AI评估的核心困境。他指出，当新模型发布时，业界习惯用静态基准网格进行评判，但这些基准完全忽略了模型被允许思考的时间长度。Brown认为，大规模测试时计算（test-time compute）正在从根本上改变评估方式，它更能反映模型在真实场景中的推理能力。

Brown强调，如果构建得当，当前模型已经能够在复杂任务上持续推理数周甚至数月，这远超传统基准的测试范围。他以自身在扑克AI和数学猜想验证中的经验为例，说明测试时计算如何让模型解决此前被认为不可能的问题。这些案例不仅展示了技术潜力，也揭示了现有评估体系的严重滞后。

播客还讨论了AI安全框架的缺口。Brown指出，当前的安全措施多针对短时交互，而长时推理可能带来新的风险，例如模型在长时间思考中产生不可预测的行为。此外，递归自我改进（即AI系统自主提升能力）面临计算和算法瓶颈，需要更系统的研究。

展望未来，Brown认为多智能体协作和全球知识共享是重要方向。通过让多个模型协同工作，并共享推理过程中的中间结果，可能突破单一模型的能力上限。这些观点对中文AI社区具有重要参考价值，尤其是在大模型评估和安全研究方面。

下一集

Claude Tag 改变 AI 使用方式的 5 种方式