探索 EDGE 的舞蹈生成界面
访问 EDGE 项目页面 edge-dance.github.io 时,映入眼帘的是一个简洁的学术风格网站,立即展示了引人注目的演示视觉效果。登陆页面展示了从未见过的音乐生成的 100 个未经筛选的舞蹈样本,并附有对该方法的清晰解释。这里没有交互式游戏场或可直接测试的 API——这纯粹是一个研究展示。相反,页面提供了 CVPR 2023 论文、代码仓库和一系列演示视频的链接。正如作者所指出的,布局深受 Imagen 网站启发,但侧重于舞蹈动作。仪表板本质上是一个静态信息页面,但它包含一个可编辑合成示例的图库:关节级约束(从上身生成下身)、时间插值和舞蹈延续。点击循环浏览这些示例,我可以看到生成动作的并排比较。该网站明确表明 EDGE 是一种面向研究人员的方法,而非商业产品。要进行实操评估,我需要克隆 GitHub 仓库并在本地运行模型,这需要大量的硬件资源。该项目声明它使用了基于 Transformer 的扩散模型,并结合了来自 OpenAI 的强大音乐特征提取器 Jukebox。
技术深度解析:扩散模型与 Jukebox
EDGE 解决了一个特定且具有挑战性的问题:从任意音乐输入生成逼真、可编辑的舞蹈序列。来自斯坦福大学的研究人员 Jonathan Tseng、Rodrigo Castellon 和 C. Karen Liu 提出了一种利用条件扩散模型的方法。音乐首先通过一个冻结的 Jukebox 模型编码为嵌入,该模型能理解节奏和流派。这些嵌入条件化一个基于 Transformer 的扩散模型,生成 5 秒的舞蹈片段。为了生成长度任意的舞蹈,EDGE 在拼接片段批次时施加时间约束,确保平滑过渡。一个突出的技术贡献是 接触一致性损失,它显著减少了无意的脚滑——这是动作生成中常见的伪影。模型学习了何时脚部应自然滑动(如某些舞蹈动作中)以及何时应保持固定,从而产生物理合理的结果。在论文中,EDGE 与之前的方法 Bailando 和 FACT 进行了比较。人类评分者强烈偏好 EDGE 的编舞,这证明了其有效性。然而,该模型是在特定数据集(可能是该领域常用的 AIST++ 舞蹈数据库)上训练的,未经微调可能无法很好地泛化到所有音乐风格。没有提及 API 或定价——这是一个开源研究项目,代码可用于学术用途。
可编辑合成与实际应用场景
EDGE 与早期舞蹈生成工具的区别在于其对可编辑性的重视。该方法支持空间和时间约束。例如,你可以指定上半身动作,让模型生成下半身动作,反之亦然。这在关节级约束演示中有所展示。对于动作插值,EDGE 可以生成以预定义姿势开始和结束的舞蹈,自然地填充中间部分。延续也是可能的:你提供初始动作序列,EDGE 将其扩展为更长的舞蹈,同时保持风格和音乐对齐。这些功能开辟了游戏开发、虚拟现实和电影预可视化中的应用——但同样,只有具备运行代码的技术专长才能使用。与 DeepMotion 或 RADiCAL 等提供基于云的动作生成的商业工具不同,EDGE 无法通过 Web 界面或 API 访问。它严格来说是一个研究产物。对于寻求快速工具的艺术工作者或编舞者来说,这不是合适的解决方案。然而,对于对最先进舞蹈生成感兴趣的 AI 研究人员和工程师来说,EDGE 是一个极好的参考。代码可用且文档齐全,论文提供了清晰的比较。一个限制是模型需要大量 GPU 内存(推理时至少需要 16GB VRAM),从头训练则需要更多。此外,编辑功能虽然强大,但对非专家可能不直观——你需要理解如何正确格式化输入约束。
总的来说,EDGE 是一项强大的学术贡献,推动了音乐驱动舞蹈生成的边界,但它首先且主要是一个研究工具。
访问 EDGE 网站 https://edge-dance.github.io/ 自行探索。
评论