腾讯混元又更新，可让高达跳舞的图生视频功能上

发表于：2025-03-07 10:00:05 浏览：18次发布者：网易互联网

3月6日，腾讯混元保持此前的高强度更新，又正式推出了开源的图生视频模型，同步开放视频生成、对口型及动作驱动等趣味功能，并支持2K高清视频与智能背景音效生成。用户现可通过官网或API接口快速体验这一创新技术。

本次更新的核心功能亮点是静态图转动态视频。在上传任意图片后，通过简单文字描述画面运动方式（如物体移动轨迹或镜头运镜），模型即可生成5秒动态短视频，并自动匹配契合场景的背景音效。智能口型同步。

上传人物肖像后，输入文字内容或音频文件，AI将精准驱动人物口型，实现说话或歌唱效果。结合预设舞蹈模板，静态图片人物还能一键生成流畅的舞蹈视频。开发者生态支持：

本次开源的130亿参数模型覆盖写实、动漫及CGI角色生成场景，提供完整模型权重、推理代码及LoRA训练代码。开发者可通过腾讯云API接入服务，或在GitHub、HuggingFace社区下载资源，基于基础模型训练定制化衍生模型（如专属LoRA），拓展多元视频创作可能性。

目前，个人用户可访问混元AI视频官网直接体验，企业级用户可通过腾讯云申请API集成服务。

在观察者网体验中，发现混元图生视频模型的人气火爆，实测中图生视频功能的任务已经“排起长队”，需要等待接近两个小时才能进行使用。

混元图生视频功能排起长队混元官网

具体的实际操作中，可以通过上传高达的静态图片，让高达跳起“魔性”的舞步。

也可以通过上传一辆汽车的图片，看到汽车高速行驶起来的视频。

混元开源技术报告显示，混元视频生成模型具备灵活的扩展性，图生视频和文生视频在相同的数据集上开展预训练工作。在保持超写实画质、流畅演绎大幅度动作、原生镜头切换等特性的基础上，让模型能够捕捉到丰富的视觉和语义信息，并结合图像、文本、音频和姿态等多种输入条件，实现对生成视频的多维度控制。

混元视频生成模型开源以来，一直保持较高的热度，去年12月登顶huggingface（知名AI社区）全站趋榜第一，目前Github（知名程序平台）平台上Star数超过8.9K。多位开发者自发制作基于社区Hunyuanvideo的插件与衍生模型，积累超过900个衍生版本。更早开源的混元DiT文生图模型，在国内外衍生模型数量多达1600多个。

目前，混元开源系列模型已经完整覆盖文本、图像、视频和3D生成等多个模态，在Github累计获得超2.3万开发者关注和star。

本文系观察者网独家稿件，未经授权，不得转载。

腾讯混元又更新，可让高达跳舞的图生视频功能上

猜你喜欢