时间,这一日常生活中再基础不过的概念,对于大语言模型(LLM)而言,却成为难以跨越的理解障碍。由于训练语料库的静态性,存在知识截断时间,且在非时间顺序的语料训练中,模型难以在事件与对应时间间建立可靠逻辑映射,即便现有时间对齐、外部知识库等方法,也无法实现全链路突破。
如今,伊利诺伊大学香槟分校研究人员带来新突破,发布 Time-R1 模型。令人惊叹的是,它基于仅 3B 的小模型,通过三阶段课程强化学习,实现对过去的理解、未来的预测以及创造性生成的大一统。
Time-R1 的实现分为三个阶段:第一阶段通过时间戳推理、时间差计算、事件排序、时间实体补全等四个子任务强化微调,构建时间认知基础;第二阶段在隔离未来数据前提下,基于第一阶段模型继续微调,训练预测未来能力;第三阶段则直接进行零样本创意生成,推演未来场景。
Time-R1 成功的关键,在于精心打磨的奖励机制。研究人员为每个子任务定制了超 1200 行代码的奖励函数,涵盖通用奖惩设计,如格式遵循奖励、标签结构奖励、长度与重复惩罚等,以及针对各任务特性的精准奖励。例如,时间戳推断奖励基于推断日期与真实日期差距的指数衰减函数,并动态调整;时间差估计综合事件日期与时间差准确性,引入不一致性惩罚;事件排序考虑日期推断与排序准确性,设置不一致性和多样性惩罚;掩码时间实体补全综合日期与实体补全准确性,对月份计算 “循环差异”。此外,第一阶段还引入动态奖励机制,依据任务难度和训练进程,动态调整日期准确性奖励部分的衰减系数 α,助力模型 “冷启动”。
实验结果令人瞩目,Time-R1 (3B) 在第一阶段基础时间理解任务综合表现超越参数量超其 200 倍的 DeepSeek-V3-0324 模型。后续训练中,在未来事件时间预测、创造性场景生成任务上,Time-R1 也领先多数基线模型,展现强大泛化能力。
这一成果标志着大模型在时间推理能力上取得重大进展,为实现真正具备时间意识的人工智能提供实用且可扩展路径。目前,研究团队已全面开源,发布 Time-Bench 大型多任务时间推理数据集、Time-R1 完整训练代码及各阶段模型检查点,推动相关研究进一步发展 。
来【龙头AI网】了解最新AI资讯!
暂无评论
发表评论