您的当前位置:首页>科技咨询>资讯详情

月之暗面:很早就验证过长思维链,因成本高不够

发表于:2025-02-17 11:00:04 浏览:26次 发布者: 网易互联网

三言科技 2月17日消息,上个月Kimi 发布的多模态推理模型k1.5,今日月之暗面官方分享了k1.5模型诞生的过程。

月之暗面研究员Flood Sung表示,去年9月12号OpenAI o1发布,长思维链(推理模型背后的关键技术)的有效让他陷入反思。

因为长思维链的有效性其实在一年多前就已经知道了,月之暗面Kimi联合创始人Tim周昕宇很早就验证过,使用很小的模型,训练模型做几十位的加减乘除运算,将细粒度的运算过程合成出来变成很长的思维链数据做监督微调,就可以获得非常好的效果。“我依然记得当时看到那个效果的震撼。”

“我们意识到长上下文的重要性,所以率先考虑把文本搞长,但却对长思维链这件事情不够重视。其实主要还是考虑了成本问题。”他表示,长上下文主要做的是长文本输入,有Prefill预填充,有Mooncake加持,成本速度可控,而长思维链是长文本输出,成本高很多,速度也要慢很多。在这种情况下,把输出搞长就没有成为一个高优选项。

该研究员称还有什么比性能更重要呢?成本和速度有摩尔定律加持,可以不断下降,只要把性能搞上去,剩下的都不是主要问题。“所以,我们得搞长思维链,搞 o1。”

他还提到在实际训练的过程中有了重要的发现:模型会随着训练提升性能也不断增加token数,也就是这是RL训练过程中模型可以自已涌现的,“这个和友商 Deepseek的发现几乎是一样的。”

猜你喜欢

吉林省:让更多吉林制造、吉林优品通过跨境电商
吉林省:让更多吉林制造、吉林优品通过跨境电商
发表于:2025-07-27 浏览:1 发布者: 网易互联网
百世跨境:打造业内首个全球国际零担快运网络
百世跨境:打造业内首个全球国际零担快运网络
发表于:2025-07-25 浏览:3 发布者: 网易互联网
美法官裁定 Meta 用受版权保护书籍训练 AI 属合
美法官裁定 Meta 用受版权保护书籍训练 AI 属合
发表于:2025-06-29 浏览:9 发布者: 网易科技
TikTok网站恢复正常!在美应用程序商店仍无法下
TikTok网站恢复正常!在美应用程序商店仍无法下
发表于:2025-01-21 浏览:37 发布者: 网易互联网
澳洲团队造出会打小游戏的生物计算机 用人脑细
澳洲团队造出会打小游戏的生物计算机 用人脑细
发表于:2025-03-07 浏览:23 发布者: 网易科技
马斯克X平台遭遇攻击,奇安信:与春节攻击DeepS
马斯克X平台遭遇攻击,奇安信:与春节攻击DeepS
发表于:2025-03-11 浏览:18 发布者: 网易互联网
算法推荐乱象凸显,中央网信办督导抖音、小红书
算法推荐乱象凸显,中央网信办督导抖音、小红书
发表于:2025-05-22 浏览:13 发布者: 网易互联网
闲鱼CEO丁健:闲置经济看似是“物的流通”,本
闲鱼CEO丁健:闲置经济看似是“物的流通”,本
发表于:2025-06-12 浏览:11 发布者: 网易互联网
iPhone 17 Air比想象更薄 苹果为纤薄大砍规格
iPhone 17 Air比想象更薄 苹果为纤薄大砍规格
发表于:2024-11-27 浏览:73 发布者: PChome
梁文锋倒逼OpenAI重新Open
梁文锋倒逼OpenAI重新Open
发表于:2025-05-13 浏览:12 发布者: 网易互联网