2025年是大语言模型飞速发展且充满变数的一年,我们取得了丰硕的成果。以下是我个人认为值得关注且稍感意外的“范式变革”,这些变革改变了格局,至少在概念层面让我印象深刻。 长期以来,这是训练生产级大语言模型的稳定且成熟的技术堆栈。到了2025年 ...
RLHF(人类反馈强化学习):2022 年开始广泛流行。 而到了 2025 年,RLVR 开始加入其中。 模型通过在可自动验证的奖励环境中进行强化学习训练,会自发地形成推理策略,比如将问题分解为中间计算、循环计算等,具体可参考 DeepSeek R1。 而这些策略如果用旧范式 ...