Where You Go is Who You Are: Behavioral Theory-Guided LLMs for Inverse Reinforcement Learning

【文章内容提取与概述】
本文探讨了大规模轨迹数据在人类出行分析中的潜力及其应用限制。核心挑战在于轨迹数据缺乏关键旅行者属性(尤其是性别、年龄、职业等社会人口学信息),这限制了其在行为驱动应用中的价值(如交通规划)。为解决这一问题,研究团队提出了SILIC(Sociodemographic Inference with LLM-guided Inverse Reinforcement Learning and Cognitive Chain Reasoning),这是一个基于行为理论的框架,结合了LLM的引导式逆强化学习(IRL)和认知链推理(CCR)。
SILIC的创新之处在于:
1. 理论支撑:以《计划行为理论》(Theory of Planned Behavior, TPB)为核心,建模个体出行决策背后的潜在认知过程。
2. 技术改进:利用LLM的启发式引导解决逆强化学习在大规模无结构奖励空间中初始化和优化的难点(如非适定性问题)。
3. 实验验证:在2017年普吉特湾地区委员会家庭出行调查数据中,SILIC的预测性能显著优于现有方法,证明其在轨迹数据社会人口学属性重构中的有效性。


【科技领域英文高频短语与讲解】
1. Behavioral theory-guided
意义:行为理论指导的(技术),强调将心理学或社会学原理融入算法设计逻辑。
科技应用:在AI研究中,理论引导的方法可提升模型可解释性,例如将认知模型与强化学习结合。

  1. LLMs for inverse reinforcement learning
    意义:语言模型(LLMs)在逆强化学习中的应用,RRR通过观察行为反推奖励函数的机器学习分支。
    科技关联:LLMs能通过自然语言理解潜在意图,为IRL提供先验知识,缓解其奖励函数估计的不足(中文翻译已优化后内容完整,不截断)

  2. Ill-posedness of IRL
    意义:逆强化问题具有”非适定性”,即可能无解或解不唯一。
    科技挑战:这是IRL的核心难点之一,需通过约束条件(如SILIC中的LLM引导)求解合理奖励函数。

  3. Reward function initialization
    意义:奖励函数的初始化设置,直接影响强化学习模型的训练稳定性与收敛效果。
    提升方法:本文通过认知推理框架约束初始参数空间,减少随机初始化导致的误差扩散。

  4. Cognitive chain reasoning
    意义:认知链推理,模拟人类决策中的心理链式反应(如Attitudes → Subjective Norms → Perceived Control → Behavioral Intention)。
    行为科学结合:TPB理论框架的科学性为机器学习模型提供决策路径的建模依据。


【Tag标签】
1. #InverseReinforcementLearning
2. #BehavioralTheoryInAI