推理作为 LLM 的核心能力,在很多任务上仍面临挑战。原因在于训练数据的稀疏和零散。 近日,来自 DeepSeek、上海交通大学和香港科技大学的研究人员推出全新力作 CODEI/O,通过代码输入/输出提炼 LLM 推理模式,在逻辑、数学等推理任务上取得显著进步。 CODEI/O 的有效性在于其多样化的原始代码来源,涵盖了 CodeMix、PyEdu-R 等,合并后产生约 810.5K 个代码文件。收集到的原始代码文件经 DeepSeek-V2.5 预处理,转换成统一格式,强调主要逻辑功能,使其可执行并收集输入-输出对。 在构建输入输出预测样本时,研究团队采用有监督微调过程,每个训练样本都需提示和响应。通过直接提示和充分利用代码两种方式构建所需的 CoT 响应,生成 CODEI/O 和 CODEI/O++数据集。 实验表明,CODEI/O 在各项基准测试中性能提升,优于单阶段基线模型和其他数据集,展现持续改进趋势。同时,CODEI/O++系统性超越 CODEI/O,提升数据质量和跨领域推理能力。 为研究新方法中不同关键方面的影响,研究人员进行了多组分析实验。 在消融实验中,输入/输出预测研究显示总体得分相似,但在不同任务上各有优势。拒绝采样虽能过滤不正确响应,但导致性能下降。 在不同合成模型效果研究中,WebInstruct-DS25 表现不及 CODEI/O,突显代码中多样化推理模式和训练任务选择的重要性。 CODEI/O 在不同训练数据量下均有良好表现,且在输入-输出对维度上的数据 scaling 也显示出一定益处。 在不同数据格式研究中,将查询和参考代码放在提示中,思维链放在响应中效果最佳。 多轮迭代结果显示,第一轮修订纠正效果明显,第二轮改进有限。 最后,两阶段训练必要性的实验表明,所有两阶段变体模型表现优于单阶段训练。 |