实测豆包1.6,最火玩法all in one!Seedance登
明敏 发自 凹非寺
量子位 | 公众号 QbitAI
不愧是字节,一发大模型,各模态榜单格局全部被重构!
最新豆包大模型1.6系列,“小版本”更新但推理、数学、多模态能力全部冲入全球第一梯队
海淀区高考模拟卷,豆包1.6文理科成绩全部突破700分,理科成绩更是比去年的豆包提升了154分。
视频领域,Seedance 1.0 Pro亮相即登顶全球竞技场文生视频、图生视频双料第一。
多镜头切换的电影质感大片信手拈来:
目前已上线即梦(视频生成选择对应模型)、豆包APP(打开对话框,选择“照片动起来”,输入文字指令或上传图片)即可体验。
如此效果,在火山引擎ToB的价格却打到了行业最低
Seedance 1.0 pro模型每千tokens 0.015元,相当于每生成一条5秒的1080P视频只需3.67元。1万元可以生成2700条视频。
豆包大模型1.6系列,直接重新定义行业定价模式。
统一定价,不论用户是否开启深度思考、不论是文本还是视觉任务,tokens价格都完全一样,定价参考改为“输入长度”区间。
输入区间0-32K范围内,豆包大模型1.6综合成本比豆包1.5·深度思考模型、DeepSeek R1降低63%。
这还没完,还有特惠区——对于输入32k、输出200以内的任务,豆包大模型1.6的价格进一步降低到每百万tokens输入0.8元、输出2元。
这意味着,使用豆包1.6的价格和豆包1.0一样低
熟悉的模式,熟悉的感觉——
1年之前,正是火山引擎开启大模型价格“厘时代”,做到了比行业价格低99.3%。
1年之后,字节重新定义大模型商业价格模式。这一回,又预示哪些新动向?
豆包更有人味儿、即梦更像导演
看懂变化,还得从底层模型开始。
此次新发布,字节一共带来3款不同模态的新模型。
- 豆包大模型1.6系列
- 豆包视频生成模型Seedance 1.0 Pro
- 豆包语音播客模型
豆包大模型1.6系列
豆包大模型1.6系列由3个模型组成,分别是主力综合模型、深度思考模型以及极速版。
- doubao-seed-1.6
- doubao-seed-1.6-thinking
- doubao-seed-1.6-flash
doubao-seed-1.6是主力模型,它主打all in one,也就是啥都能干。是国内首个支持256k上下文的思考模型,支持深度思考、多模态理解、图形界面操作等。
比如使用DeepResearch功能,可以生成一份详尽的操作指南。
任务:请教我如何在火山方舟上开通Doubao-Seedance视频生成模型,并给出在python IDE中进行API调用的示例代码,最终生成分步骤的操作指南报告。
模型会首先进行任务规划,将任务划分为具体四步。
在用户确认规划没有问题后,点击开始,模型才会开始执行。
可以看到过程中,它调用了知识库,最后给出了完善的操作指南。
多模态方面也进行了全面升级,支持视频理解、多图理解等。
比如可以让它看视频生成票圈文案,豆包1.6思考后会给出不同的风格供挑选,文案都是根据视频内容细节而来。
企业端也能基于多模态理解做更多事,比如电商商品审核、自动驾驶标注、安全巡检等。
同时,豆包也具备了像人一样的操作能力,即GUI操作能力
只需输入“预定2人6月20日德国法兰克福五星级酒店,要求有健身房、且有浴缸”,它就能自己打开酒店预定网站、输入目的地、入住时间、勾选相应筛选条件。
并且会像人一样浏览不同酒店开始挑选,查看图片确认是否包含浴缸,最后才确认下单,当然付款这些最终决策还是由人类操作。
豆包视频生成模型Seedance 1.0 Pro
视频生成方面,字节这次也是狠狠发力了。
刚刚在第三方权威榜单Artificial Analysis上拿下双料第一的Seedance 1.0 pro主要具备三大特性:
- 无缝多镜头叙事
- 多动作及随心运镜
- 稳定运动与真实美感
我们通过实测发现,Seedance视频模型可能是选择了和OpenAI走相同的路线。即优先拉高模型的智商,具体表现在模型的精准指令遵循、生成内容更合理化、符合现实世界逻辑、带有人类的思考。
比如生成“侦探正在思索”的视频,模型会将人物的面部表情变得严肃而不是优哉游哉的,前者更符合基本逻辑。
另外值得关注的是,Seedance 1.0 Pro的生成速度也非常快。最快40秒可生成5秒1080P视频。
目前该模型已在即梦和豆包APP上线,人人都能体验。
豆包语音播客模型+实时语音模型ToB开放
最后在语音模态方面,两款豆包语音播客大模型上新。
几天前,我们已经实测了豆包语音播客模型。它支持秒级生成双人对话播客,效果相当逼真,而且操作非常简单,只需输入一句话、一个网页、一个文档或者长文本即可。
另外,最近被网友们玩疯了的AI克隆声音打电话,其底层模型豆包实时语音模型也全量上线火山方舟,向企业用户开放使用。
它支持自然语言高级指令控制,具备唱歌表演、声线模仿、方言演绎等多种能力。
实际上,包括豆包1.6系列、Seedance 1.0 Pro,也都全量上线火山方舟,为ToB用户提供更先进AI能力。
与此同时,火山方舟还带来了一系列全新工具,将Agent开发门槛一降再降。
更轻松构建生产级Agent
ToB维度,今年最火的AI趋势莫过于Agent开发。
火山引擎此次在MaaS、数据、AI Infra三方面发布的新产品,几乎都是为此而来。
首先,为加速企业构建Agent,火山引擎带来多款产品:
- 火山引擎MCP服务
提供200+MCP服务,与TRAE、火山方舟、扣子打通,开发者还可通过MCP控制火山引擎的云服务组件,加速产品落地。
- PromptPilot
帮助开发者优化提示词,将模糊需求转化为具象化目标。支持自动撰写和优化提示词,针对badcase自动优化以实现精准调控,具备多轮对话、视觉理解、复杂工具调用优化能力,以及自主判断是否开启模型精调等功能。
- AI知识管理产品
帮助企业管理内部知识,进一步将本地资源与互联网内容整合。支持文本、图像、音频、视频等多模态内容对话式输入,并且能够把输出的数据组织为更易于理解的图表。首创可交互的推理“做个计划”功能,实现人机协作制定、修改计划。
- 开源veRL强化学习框架
veRL是字节内部在2023年开发的强化学习框架。它可轻松扩展各种强化学习算法,能将现有LLM基础设施与模块化API无缝集成,具备灵活的设备映射,支持将模型放置到不同的GPU租上。同时具备极强吞吐性能,并使用3D-HybridEngine进行高效的Actor模型重新分片。
基于以上多方面能力,可以实现自动化生成研究报告、匹配PPT,并自动发送邮件。
开发一个网站,也只需要用纸笔画个草图,其他都能交给AI。
从设计稿解析、代码生成到公网可访问网页,这些流程都能全自动化部署。
AI Infra方面,火山引擎将三个基础能力原子化,对外发布。
- AgentKit:面向企业级Agent打造的全栈开发和服务工具链。
- TrainingKit:面向预训练实现高达60%+的MFU(算力利用率);面向后训练实现Sandbox百万核秒并发能力等。
- ServingKit:面向推理,从模型部署、在线推理、服务运维三个阶段进行加速和提效。
最后,在数据方面,推出多模态数据湖和Data Agent,实现从“支持BI”到“支持AI”。
One More Thing
在整场发布中,字节还披露了一个尤为关键的数字——
截至2025年5月底,豆包大模型日均tokens使用量超过16.4万亿,较去年5月刚发布时增长137倍
IDC数据显示,2024年中国公有云大模型调用总量达到114.2万亿 Tokens,其中火山引擎占据46.4%的市场份额,几乎占据半壁江山。
火山引擎总裁谭待也在采访中表示,大模型产品带来的业绩收入是火山引擎所有产品中增速最快的,也是毛利最好的业务之一。
整场发布中,穿插在字节最新技术之间的,就是各个行业的大客户了。其中包括联想、宝马、奔驰、微博、瑞幸、百胜中国肯德基等等。
嗯,也不意外,更硬技术+更优成本带来的更高增长,已经开始对外显现。
不过对于火山引擎内部,现在的目光可能更聚焦在未来。
谭待表示,当下正是从生成式AI向Agentic AI逐渐过渡转变。深度思考、多模态理解、工具自主调用是关键方向。
火山引擎智能算法负责人吴迪也很肯定,今年AI三大技术主线就是:
- 带有多模态理解能力的Reasoning模型
- 视频生成模型的能力提升
- 多步骤复杂任务能力的成熟和渗透
这种肯定甚至可以细化到:
“2025年会以每个月至少2次的节奏,出现模型基础能力与应用方面的交错浪潮。
最后3个月,你可以放心地把价值50元的事交给AI端到端处理,它能实现80-90%的准确率。”
所以,期待吧。
大模型时代的探险家们,已经抢先用望远镜看到了新风景,而这些风景可能比我们预期中来得更快、也更普惠。