EDGE

EDGE 评测:斯坦福研究人员推出的基于音乐的可编辑舞蹈生成

视频AI 跨境AI
4.4 (15 评分)
31
EDGE screenshot

探索 EDGE 的舞蹈生成界面

访问 EDGE 项目页面 edge-dance.github.io 时,映入眼帘的是一个简洁的学术风格网站,立即展示了引人注目的演示视觉效果。登陆页面展示了从未见过的音乐生成的 100 个未经筛选的舞蹈样本,并附有对该方法的清晰解释。这里没有交互式游戏场或可直接测试的 API——这纯粹是一个研究展示。相反,页面提供了 CVPR 2023 论文、代码仓库和一系列演示视频的链接。正如作者所指出的,布局深受 Imagen 网站启发,但侧重于舞蹈动作。仪表板本质上是一个静态信息页面,但它包含一个可编辑合成示例的图库:关节级约束(从上身生成下身)、时间插值和舞蹈延续。点击循环浏览这些示例,我可以看到生成动作的并排比较。该网站明确表明 EDGE 是一种面向研究人员的方法,而非商业产品。要进行实操评估,我需要克隆 GitHub 仓库并在本地运行模型,这需要大量的硬件资源。该项目声明它使用了基于 Transformer 的扩散模型,并结合了来自 OpenAI 的强大音乐特征提取器 Jukebox。

技术深度解析:扩散模型与 Jukebox

EDGE 解决了一个特定且具有挑战性的问题:从任意音乐输入生成逼真、可编辑的舞蹈序列。来自斯坦福大学的研究人员 Jonathan Tseng、Rodrigo Castellon 和 C. Karen Liu 提出了一种利用条件扩散模型的方法。音乐首先通过一个冻结的 Jukebox 模型编码为嵌入,该模型能理解节奏和流派。这些嵌入条件化一个基于 Transformer 的扩散模型,生成 5 秒的舞蹈片段。为了生成长度任意的舞蹈,EDGE 在拼接片段批次时施加时间约束,确保平滑过渡。一个突出的技术贡献是 接触一致性损失,它显著减少了无意的脚滑——这是动作生成中常见的伪影。模型学习了何时脚部应自然滑动(如某些舞蹈动作中)以及何时应保持固定,从而产生物理合理的结果。在论文中,EDGE 与之前的方法 Bailando 和 FACT 进行了比较。人类评分者强烈偏好 EDGE 的编舞,这证明了其有效性。然而,该模型是在特定数据集(可能是该领域常用的 AIST++ 舞蹈数据库)上训练的,未经微调可能无法很好地泛化到所有音乐风格。没有提及 API 或定价——这是一个开源研究项目,代码可用于学术用途。

可编辑合成与实际应用场景

EDGE 与早期舞蹈生成工具的区别在于其对可编辑性的重视。该方法支持空间和时间约束。例如,你可以指定上半身动作,让模型生成下半身动作,反之亦然。这在关节级约束演示中有所展示。对于动作插值,EDGE 可以生成以预定义姿势开始和结束的舞蹈,自然地填充中间部分。延续也是可能的:你提供初始动作序列,EDGE 将其扩展为更长的舞蹈,同时保持风格和音乐对齐。这些功能开辟了游戏开发、虚拟现实和电影预可视化中的应用——但同样,只有具备运行代码的技术专长才能使用。与 DeepMotion 或 RADiCAL 等提供基于云的动作生成的商业工具不同,EDGE 无法通过 Web 界面或 API 访问。它严格来说是一个研究产物。对于寻求快速工具的艺术工作者或编舞者来说,这不是合适的解决方案。然而,对于对最先进舞蹈生成感兴趣的 AI 研究人员和工程师来说,EDGE 是一个极好的参考。代码可用且文档齐全,论文提供了清晰的比较。一个限制是模型需要大量 GPU 内存(推理时至少需要 16GB VRAM),从头训练则需要更多。此外,编辑功能虽然强大,但对非专家可能不直观——你需要理解如何正确格式化输入约束。

总的来说,EDGE 是一项强大的学术贡献,推动了音乐驱动舞蹈生成的边界,但它首先且主要是一个研究工具。

访问 EDGE 网站 https://edge-dance.github.io/ 自行探索。

域名信息

正在加载域名信息...
345tool Editorial Team
345tool Editorial Team

We are a team of AI technology enthusiasts and researchers dedicated to discovering, testing, and reviewing the latest AI tools to help users find the right solutions for their needs.

我们是一支由 AI 技术爱好者和研究人员组成的团队,致力于发现、测试和评测最新的 AI 工具,帮助用户找到最适合自己的解决方案。

评论

Loading comments...