您的当前位置:首页>科技咨询>资讯详情

腾讯混元上新:话没说完,图就生成了

发表于:2025-05-16 20:00:43 浏览:15次 发布者: 网易互联网


(文/万肇生 编辑/张广凯)

5月16日,腾讯发布最新混元图像2.0模型,该模型号称改变传统“抽卡—等待—抽卡”的方式,在行业内率先实现实时生图,带来交互体验革新。

目前市面上的各类大模型中,除了非推理语言大模型的生成外,几乎所有模态大模型的生成过程,都或多或少需要经历等待。尤其在文生图领域,抽卡一样重复生成多个结果,严重影响效率。然而据腾讯介绍,该混元图像2.0就主打一个“快”,支持文生图和绘画生图。且无论是输入文字指令、语音指令,或上传本地图、在线绘制图,“都能毫秒级获得高质感图像”。


根据演示案例显示,用户在输入“一位女士”时,模型首先生成了一张证件照。此时在输入框内继续输入“…风景照、沙漠中”,画面的背景于是瞬间变成翠绿色,紧接着又秒变成沙漠黄。继续再输入“扎着头发、回眸一笑”,画面也飞速切换,最终随着输入操作的结束,画面直接生成完毕。


在另一个生成“爱因斯坦在东方明珠前自拍”的案例中,该模型也非常迅速的展现出整个生成的过程。

除了文生图外,该模型还支持在图片上使用画笔修改的“实时绘画板”,同样迅速可以生成结果。


通常情况下,绘画过程中的即时反馈可以让用户对作品迅速做出调整,但AI图像生成的修改往往是反复投喂产出。因此,如果在生成的过程中可以实时进行修改,效率则将极大提高。

腾讯表示,相比前代模型,该模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领先模型。在同类商业产品每张图推理速度需要5到10秒的情况下,混元可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图。


而在评分方面,腾讯称,混元图像2.0模型在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准GenEval(Geneval Bench)上,准确率超过95%,远超其他同类模型。

目前,该模型的使用还需注册预约。

本文系观察者网独家稿件,未经授权,不得转载。

猜你喜欢

一件就减!天猫618立减8.5折,还能再叠加大额消
一件就减!天猫618立减8.5折,还能再叠加大额消
发表于:2025-05-09 浏览:16 发布者: 网易互联网
建仓、买飞机、培训司机,中国物流“卷”向墨西
建仓、买飞机、培训司机,中国物流“卷”向墨西
发表于:2025-02-11 浏览:24 发布者: 网易互联网
微信或迎史诗级“瘦身”!网友:内存有救了
微信或迎史诗级“瘦身”!网友:内存有救了
发表于:2024-11-24 浏览:61 发布者: 中国新闻网
突发!重大指数调整!
突发!重大指数调整!
发表于:2024-11-02 浏览:67 发布者: 网易新闻
给骑手“松绑”,美团公布“取消超时扣款”新进
给骑手“松绑”,美团公布“取消超时扣款”新进
发表于:2025-02-12 浏览:23 发布者: 网易互联网
将对话界面直接引入Web,微软开源NLWeb,实现Ch
将对话界面直接引入Web,微软开源NLWeb,实现Ch
发表于:2025-05-20 浏览:13 发布者: 网易互联网
刚刚!DeepSeek,突传重磅!
刚刚!DeepSeek,突传重磅!
发表于:2025-05-29 浏览:13 发布者: 网易互联网
苹果或再度考虑推出自有品牌电视 正在评估可能性
苹果或再度考虑推出自有品牌电视 正在评估可能性
发表于:2024-11-19 浏览:61 发布者: CNMO
百度高管之女开盒事件,“水面下的冰山”才更值
百度高管之女开盒事件,“水面下的冰山”才更值
发表于:2025-03-21 浏览:30 发布者: 网易互联网
美法官裁定 Meta 用受版权保护书籍训练 AI 属合
美法官裁定 Meta 用受版权保护书籍训练 AI 属合
发表于:2025-06-29 浏览:9 发布者: 网易科技