PhyX: Does Your Model Have the “Wits” for Physical Reasoning?

标题:PhyX:你的模型具有”智慧”进行物理推理吗?

摘要:
现有基准测试未能捕捉到智能的一个关键方面:物理推理能力,即综合运用领域知识、符号推理和对现实世界约束的理解的综合能力。为解决这一问题,本文首次推出PhyX,这是第一个能大规模评估模型在视觉场景中物理推理能力的基准。PhyX包含3000个精心策划的多模态问题,涵盖25个子领域和6个核心物理领域(热力学、电磁学、力学、现代物理、光学和波及声学)的6种推理类型。在全面评估中,最先进的模型在物理推理方面仍显著挣扎。GPT-4o、Claude3.7-Sonnet和GPT-o4-mini的准确率分别仅为32.5%、42.2%和45.8%,与人类专家相比存在超过29%的差距。通过细粒度统计分析、详细案例研究和多种评估范式,我们揭示了当前模型的关键局限性:过度依赖记忆的专业知识、过度依赖数学公式以及仅进行表面级视觉模式匹配而非真正的物理理解。为确保可重复性,我们基于广泛使用的工具包(如VLMEvalKit)实现了一个兼容性评估协议,可一键进行评估。

科技领域英文高频短语:
1. state-of-the-art models(最先进的模型)
– 解析:在科技论文中常指当前性能或技术最出色的模型/系统,用于强调研究对象的前沿性。
– 例句:Comparative analysis between state-of-the-art models and phyX benchmark results.

  1. physics-grounded reasoning(物理基础推理)
    • 解析:强调逻辑推理需严格基于物理定律和自然法则的特性,与纯数据驱动的模型形成对比。
    • 例句:Developing models with robust physics-grounded reasoning is crucial for autonomous systems.
  2. surface-level visual pattern matching(表面级视觉模式匹配)
    • 解析:描述AI仅识别表层视觉特征而不理解物理本质的问题,常用于批判模型的浅层学习。
    • 例句:Current visual models often rely on surface-level pattern matching rather than contextual understanding.
  3. domain-specific knowledge(领域特定知识)
    • 解析:指专业应用场景的专有知识体系,在跨学科研究中常用于讨论知识迁移的局限。
    • 例句:Benchmark results reveal over-reliance on domain-specific knowledge rather than generalizable principles.
  4. multiple evaluation paradigms(多评估范式)
    • 解析:指采用多种科学验证方法进行模式论证,在评估体系设计中体现方法的全面性。
    • 例句:We use multiple evaluation paradigms to ensure the validity of our benchmarking framework.

Tag标签:
#物理推理基准 #AI模型评估