据消息,OpenAI近日发布了一项重要研究报告。报告指出,DeepSeek和Kimi两家机构通过独立研究,成功利用思维链学习方法,在数学解题与编程挑战中显著提升了模型的综合表现。
Kimi的研究员Flood Sung在随后的发文中详细阐述了这一发现。他提到,长思维链的有效性在内部实验中已经得到了验证。在实际训练过程中,研究人员发现模型的表现会随着训练的深入而不断提升,并且token数也在不断增加。这一现象表明,在强化训练的过程中,模型能够自我涌现,进一步提升其解题能力。
值得注意的是,就在1月20日,DeepSeek和Kimi在同一天发布了各自的推理模型R1和k1.5。这两款模型的发布,无疑是对其研究成果的进一步验证和展示。
此次DeepSeek与Kimi的研究不仅揭示了o1的秘密,更为人工智能领域的发展带来了新的启示。思维链学习方法的成功应用,为提升AI模型的解题能力和编程能力提供了新的思路和方法。
全部0条评论
快来发表一下你的评论吧 !