Misaligning Reasoning with Answers — A Framework for Assessing LLM CoT Robustness

文章内容提取与翻译:
arXiv:2505.17406v1 公告类型:新
摘要:大型语言模型(LLMs)的决策过程缺乏透明度,催生了如思维链(Chain-of-Thought)等解释性技术。为探究答案与推理之间的关联,我们设计了一种新颖的评估框架,名为MATCHA。在教育和医疗等关键领域,推理能力是提升模型可信度的核心。MATCHA揭示,LLMs在输入扰动(input perturbations)的条件下,可能产生不一致或不合逻辑的推理。此外,我们利用LLM评审员(LLM judges)跨模型评估推理鲁棒性。实验结果表明,LLMs在多步骤任务和常识任务中相较于逻辑任务对输入扰动的脆弱性更高。我们还展示了成功案例向黑盒模型的非平凡迁移率(non-trivial transfer rates)。该评估框架有助于更深入理解LLM的推理机制,并指导未来模型向更鲁棒、以推理为导向的架构发展,强化答案与推理之间的一致性。


科技领域英文高频短语及讲解:

  1. Chain-of-Thought (CoT)
    含义:思维链,指LLMs生成答案时通过分步骤逻辑推理的过程。
    领域作用:常用于增强模型的可解释性,尤其在复杂任务中引导模型显式展示中间推导步骤。

  2. Input Perturbations
    含义:输入扰动,指对输入数据引入微小噪声、修改或干扰,以测试模型鲁棒性。
    领域作用:评估模型在应对异常或对抗性输入时的稳定性,是验证系统安全性的关键技术。

  3. LLM Judges
    含义:LLM评审员,指通过其他LLM实例对模型的推理过程和输出质量进行自动评估的方法。
    领域作用:弥补人工评估成本高的问题,提供跨模型的一致性考核标准,尤其适用于大规模实验验证。

  4. Reasoning-Driven Architectures
    含义:以推理为导向的模型架构,强调在模型设计中优先强化逻辑推导能力。
    领域作用:针对需要严谨推理的高要求场景(如科学计算、医疗诊断),提升模型生成答案的可信度和一致性。


Tag标签:
LLM_Reasoning_Robustness
Evaluation_Frameworks