英伟达展示人工智能新模型能修改声音生成新声

发表于：2024-11-27 19:00:11 浏览：41次发布者：网易IT

11月26日消息，美国芯片制造商英伟达于当地时间周一展示了一种新型人工智能模型，可生成音乐与音频。这项技术旨在服务于音乐、电影和视频游戏制作领域，能够调整声音并生成独特音效。

作为全球最大的人工智能系统芯片和软件供应商，英伟达表示，这项名为“Fugatto”（Foundational Generative Audio Transformer Opus 1）的技术目前尚无公开发布计划，尽管这一技术潜力巨大。

与Runway等初创公司和Meta等科技巨头展示的类似技术相比，英伟达的Fugatto模型具备独特功能：不仅能根据文本提示生成音频或音乐，还能实现创新音效，例如让小号发出狗叫声。

此外，Fugatto还可以处理现有音频。例如，它可以将钢琴旋律转换成人声演唱，或调整录音的口音与情感表达。

英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗（Bryan Catanzaro）表示：“过去50年的音乐因电脑和合成器发生了显著变化。我相信，生成式人工智能将为音乐、电子游戏以及普通创作者带来前所未有的能力。”

当前，OpenAI等公司正与好莱坞就生成式人工智能在娱乐行业的应用展开谈判。然而，随着好莱坞明星斯嘉丽·约翰逊（Scarlett Johansson）指责OpenAI模仿其声音，科技公司与好莱坞的合作关系变得日益紧张。

英伟达的新模型是基于开源数据训练的，公司表示仍在研究是否以及如何公开发布这项技术。

卡坦扎罗补充道：“任何生成式技术都存在被滥用的风险，例如生成虚假信息或侵犯版权内容。正因如此，我们暂时没有计划公开发布这项技术。”

目前，生成式人工智能的开发者仍在探索如何防止技术被滥用，例如如何防止用户生成虚假信息或创造受版权保护的角色，从而避免版权侵权等行为。

而OpenAI和Meta同样尚未宣布何时向公众发布其音频或视频生成模型。（辰辰）

英伟达展示人工智能新模型 能修改声音生成新声