您的当前位置:首页>科技咨询>资讯详情

腾讯混元又更新,可让高达跳舞的图生视频功能上

发表于:2025-03-07 10:00:05 浏览:18次 发布者: 网易互联网

3月6日,腾讯混元保持此前的高强度更新,又正式推出了开源的图生视频模型,同步开放视频生成、对口型及动作驱动等趣味功能,并支持2K高清视频与智能背景音效生成。用户现可通过官网或API接口快速体验这一创新技术。

本次更新的核心功能亮点是静态图转动态视频。在上传任意图片后,通过简单文字描述画面运动方式(如物体移动轨迹或镜头运镜),模型即可生成5秒动态短视频,并自动匹配契合场景的背景音效。智能口型同步。

上传人物肖像后,输入文字内容或音频文件,AI将精准驱动人物口型,实现说话或歌唱效果。结合预设舞蹈模板,静态图片人物还能一键生成流畅的舞蹈视频。开发者生态支持:

本次开源的130亿参数模型覆盖写实、动漫及CGI角色生成场景,提供完整模型权重、推理代码及LoRA训练代码。开发者可通过腾讯云API接入服务,或在GitHub、HuggingFace社区下载资源,基于基础模型训练定制化衍生模型(如专属LoRA),拓展多元视频创作可能性。

目前,个人用户可访问混元AI视频官网直接体验,企业级用户可通过腾讯云申请API集成服务。

在观察者网体验中,发现混元图生视频模型的人气火爆,实测中图生视频功能的任务已经“排起长队”,需要等待接近两个小时才能进行使用。


混元图生视频功能排起长队混元官网

具体的实际操作中,可以通过上传高达的静态图片,让高达跳起“魔性”的舞步。

也可以通过上传一辆汽车的图片,看到汽车高速行驶起来的视频。

混元开源技术报告显示,混元视频生成模型具备灵活的扩展性,图生视频和文生视频在相同的数据集上开展预训练工作。在保持超写实画质、流畅演绎大幅度动作、原生镜头切换等特性的基础上,让模型能够捕捉到丰富的视觉和语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的多维度控制。

混元视频生成模型开源以来,一直保持较高的热度,去年12月登顶huggingface(知名AI社区)全站趋榜第一,目前Github(知名程序平台)平台上Star数超过8.9K。多位开发者自发制作基于社区Hunyuanvideo的插件与衍生模型,积累超过900个衍生版本。更早开源的混元DiT文生图模型,在国内外衍生模型数量多达1600多个。

目前,混元开源系列模型已经完整覆盖文本、图像、视频和3D生成等多个模态,在Github累计获得超2.3万开发者关注和star。

本文系观察者网独家稿件,未经授权,不得转载。

猜你喜欢

微信小店的终局,谷歌已经写了一个版本
微信小店的终局,谷歌已经写了一个版本
发表于:2024-12-25 浏览:31 发布者: 网易互联网
明明在看“避雷贴”,怎么我却“踩雷”了?
明明在看“避雷贴”,怎么我却“踩雷”了?
发表于:2024-11-10 浏览:44 发布者: 网易互联网
再次挑战  小米自研移动芯片预计2025年量产
再次挑战 小米自研移动芯片预计2025年量产
发表于:2024-11-28 浏览:51 发布者: PChome
国家超算互联网平台:用户量已突破35万
国家超算互联网平台:用户量已突破35万
发表于:2025-04-11 浏览:19 发布者: 网易互联网
满血DeepSeek-R1+Cursor打通!无问芯穹上线API
发表于:2025-02-11 浏览:32 发布者: 网易互联网
喜马拉雅被腾讯音乐收购,商业化困境依旧难解
喜马拉雅被腾讯音乐收购,商业化困境依旧难解
发表于:2025-06-11 浏览:12 发布者: 网易互联网
一克商评|京东外卖低调入场,外卖江湖格局或迎
一克商评|京东外卖低调入场,外卖江湖格局或迎
发表于:2025-02-10 浏览:26 发布者: 网易互联网
竞争对手称谷歌(GOOGL.US)Chrome价值可能超500
竞争对手称谷歌(GOOGL.US)Chrome价值可能超500
发表于:2025-04-24 浏览:16 发布者: 网易互联网
ChatGPT新增购物推荐功能 OpenAI强调这不是广告
ChatGPT新增购物推荐功能 OpenAI强调这不是广告
发表于:2025-04-29 浏览:15 发布者: 网易IT
国内首款3D“球鞋博物馆”、首个AR试表功能…第
国内首款3D“球鞋博物馆”、首个AR试表功能…第
发表于:2024-11-08 浏览:39 发布者: 网易科技