苹果FastVLM视觉语言模型开放试用:视频字幕生
发表于:2025-09-02 15:00:03
浏览:1次
来源:环球网
【环球网科技综合报道】9月2日消息,据外媒9to5Mac报道,苹果此前发布了视觉语言模型FastVLM,现在用户已可以在Hugging Face平台上找到该项目。
据悉,FastVLM能够提供近乎即时的高分辨率图像处理,可将视频字幕生成速度提高 85 倍,同时体积比同类模型小 3 倍以上。
外媒称,现在在 Hugging Face 上,用户可以直接在浏览器内加载更轻量级的 FastVLM-0.5B 版本。根据9to5Mac实测,其在16GB M2 Pro MacBook Pro 上加载需要几分钟,加载完成后,模型就开始准确地描述用户的外貌、身后的房间、周围物体等。
外媒表示,因为它在浏览器本地运行,这意味着数据永远不会离开设备,甚至可以离线运行。这会在可穿戴设备和辅助技术场景展现潜力,因为轻便性和低延迟对于上述应用场景至关重要。(思瀚)