您的当前位置:首页>科技咨询>资讯详情

苹果MTP技术:大语言模型响应速度最高提升5倍

发表于:2025-08-09 14:00:06 浏览:2次 发布者: 网易互联网

据报道,苹果提出“多token预测”(MTP)技术,在不牺牲输出质量的情况下,可将大语言模型响应速度提升2至3倍,特定场景下最高可达5倍。传统大语言模型逐个输出token,速度受限。苹果研究发现模型内部蕴含对后续多个词的潜在判断能力,据此提出MTP框架,支持模型一次生成多个词。该技术通过“掩码”token作为占位符,并行推测后续多个词,并在推测结果与标准自回归解码结果不符时自动回退,确保输出质量。实验基于开源模型Tulu3 - 8B进行,训练其最多推测8个后续token,在问答和对话等通用任务中,响应速度平均提升2至3倍;在代码生成、数学推理等结构化场景中,提速可达5倍。

猜你喜欢

京东携手小红书推 “红京计划”:小红书广告直
京东携手小红书推 “红京计划”:小红书广告直
发表于:2025-05-29 浏览:21 发布者: 网易互联网
多个电商平台已无罗马仕旗舰店
多个电商平台已无罗马仕旗舰店
发表于:2025-07-07 浏览:10 发布者: 网易互联网
今年“双11”,主打一个“友好”
今年“双11”,主打一个“友好”
发表于:2024-11-05 浏览:41 发布者: 网易互联网
科技早报 | 微信对讲功能仍在灰度上线中;京东
科技早报 | 微信对讲功能仍在灰度上线中;京东
发表于:2025-07-24 浏览:10 发布者: 网易互联网
科学家断定月球上最古老最大撞击点年代
科学家断定月球上最古老最大撞击点年代
发表于:2024-10-28 浏览:58 发布者: 网易科技
xAI推出名为Deepsearch的Grok-3智能搜索引擎
xAI推出名为Deepsearch的Grok-3智能搜索引擎
发表于:2025-02-18 浏览:33 发布者: 网易互联网
委员建议:直播打赏建立“消费冷静期”,设上限
委员建议:直播打赏建立“消费冷静期”,设上限
发表于:2025-03-10 浏览:22 发布者: 网易互联网
谷歌史上最强推理模型全面屠榜!击败DeepSeek断
谷歌史上最强推理模型全面屠榜!击败DeepSeek断
发表于:2025-03-26 浏览:19 发布者: 网易互联网
雷军开车直播被指存在违规行为遭抖音封禁,机器
雷军开车直播被指存在违规行为遭抖音封禁,机器
发表于:2025-01-26 浏览:30 发布者: 网易互联网
第七届进博会中国馆布展基本完成 提前“剧透”
第七届进博会中国馆布展基本完成 提前“剧透”
发表于:2024-11-02 浏览:48 发布者: 环球网