Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

文章内容完整提取如下:

大型语言模型在长周期和复杂推理任务中展现出卓越的能力。然而,它们经常表现出对熟悉的推理模式的过度依赖,这种现象被称为推理刚性(reasoning rigidity)。尽管用户提供了明确指令,这些模型往往仍会忽视明确的条件,转而依赖习惯性推理轨迹,导致产生错误结论。这种行为在数学运算与逻辑谜题等需要严格遵循指定约束条件的领域中尤为突出。为系统性研究推理刚性这一在前期工作中鲜少探索的行为,本文提出了一套由专家精心编制的诊断集。该数据集包含现有数学基准测试AIME和MATH500的特殊变体,并重新设计了知名逻辑题目以强制模型偏离常规推理策略。通过该数据集,我们确定了当模型默认使用固有推理方式时产生的常见污染模式,具体将其分为三类:(i) 解释过载(Interpretation Overload),(ii) 输入不信任(Input Distrust),以及(iii) 部分指令关注(Partial Instruction Attention),这三种模式都会导致模型忽视或曲解用户提供的指导。我们将公开发布该诊断集,以促进未来对减轻语言模型推理刚性的研究。

科技领域英文高频短语:
1. Large language models(大型语言模型)
2. Reasoning rigidity(推理刚性)
3. Expert-curated diagnostic set(专家编制的诊断集)
4. Mathematical benchmarks(数学基准测试)
5. Contamination patterns(污染模式)
6. Habitual reasoning trajectories(习惯性推理轨迹)
7. Adherence to constraints(约束条件遵循)
8. Instruction overriding(指令覆盖)
9. Precision in reasoning(推理精确性)
10. Language model mitigation(语言模型缓解)

Tag标签:
1. #推理刚性
2. #指令覆盖诊断

(注:原文未提及具体图片路径,故未添加图片引用)