
AI不再只是答题高手,而是学会在反复试错中逼近最优解,这对关注技术演进的科研同行来说是个清晰的信号。

AI开始接管科研中最苦的活 事件脉络与关键事实
Einsia AI旗下Navers Lab发布名为Frontier-Eng的新基准测试,旨在衡量AI在真实科研与工程任务中的长期优化能力。与传统评估模型一次性输出正确答案不同,该基准要求AI代理在量子计算、机器人控制、光学通信等47个任务中,通过反复试错、仿真反馈和策略调整持续优化结果。这一方法被称为‘生成式优化’,标志着AI智能评估从‘答对题’转向‘不断变好’的范式转移。研究发现,深度迭代推理比广度尝试更有效,预示下一代AI架构将更注重推理能力而非提示工程。该基准为AI for Science的发展提供了可量化的路径。
事实
- Einsia AI发布Frontier-Eng基准测试,评估AI在真实工程任务中的持续优化能力
- 该基准包含47个跨领域任务,涵盖量子计算、机器人控制、光学通信等
- 研究发现深度迭代推理比并行尝试更有效,验证了‘慢思考’的重要性
Canto 的可视化新闻解读。制作过程可能有 AI 辅助。 编辑政策





