您的当前位置：首页>科技咨询>资讯详情

苹果MTP技术：大语言模型响应速度最高提升5倍

发表于：2025-08-09 14:00:06 浏览：2次发布者：网易互联网

据报道，苹果提出“多token预测”（MTP）技术，在不牺牲输出质量的情况下，可将大语言模型响应速度提升2至3倍，特定场景下最高可达5倍。传统大语言模型逐个输出token，速度受限。苹果研究发现模型内部蕴含对后续多个词的潜在判断能力，据此提出MTP框架，支持模型一次生成多个词。该技术通过“掩码”token作为占位符，并行推测后续多个词，并在推测结果与标准自回归解码结果不符时自动回退，确保输出质量。实验基于开源模型Tulu3 - 8B进行，训练其最多推测8个后续token，在问答和对话等通用任务中，响应速度平均提升2至3倍；在代码生成、数学推理等结构化场景中，提速可达5倍。

猜你喜欢

: 京东携手小红书推 “红京计划”：小红书广告直; 发表于：2025-05-29 浏览：21 发布者：网易互联网

: 多个电商平台已无罗马仕旗舰店; 发表于：2025-07-07 浏览：10 发布者：网易互联网

: 今年“双11”，主打一个“友好”; 发表于：2024-11-05 浏览：41 发布者：网易互联网

: 科技早报 | 微信对讲功能仍在灰度上线中；京东; 发表于：2025-07-24 浏览：10 发布者：网易互联网

: 科学家断定月球上最古老最大撞击点年代; 发表于：2024-10-28 浏览：58 发布者：网易科技

: xAI推出名为Deepsearch的Grok-3智能搜索引擎; 发表于：2025-02-18 浏览：33 发布者：网易互联网

: 委员建议：直播打赏建立“消费冷静期”，设上限; 发表于：2025-03-10 浏览：22 发布者：网易互联网

: 谷歌史上最强推理模型全面屠榜！击败DeepSeek断; 发表于：2025-03-26 浏览：19 发布者：网易互联网

: 雷军开车直播被指存在违规行为遭抖音封禁，机器; 发表于：2025-01-26 浏览：30 发布者：网易互联网

: 第七届进博会中国馆布展基本完成提前“剧透”; 发表于：2024-11-02 浏览：48 发布者：环球网

推荐文章

