Netflix 近日正式发布了一款名为 VOID(Video Object and Interaction Deletion)的视频编辑 AI 模型,旨在通过人工智能技术重塑电影后期制作流程。
该模型由 Netflix 研发团队与索菲亚大学的研究人员共同开发。与传统的视频裁剪或后期补帧技术不同,VOID 能够识别并移除视频中的特定对象,同时利用视觉语言模型(VLM)自动填补被移除对象留下的视觉空白。这种“物理驱动”的补全方式,能够确保背景画面符合逻辑,例如将原本发生碰撞的车辆移除后,模型会自动生成平整的路面及周围环境。
复杂场景的动态重构
研究团队在预印本论文中指出,VOID 的核心优势在于其处理复杂动态场景的能力。在测试中,VOID 不仅能擦除目标,还能推演剩余物体在失去交互对象后的行为。例如,当从一段有人跳入泳池的视频中移除人物时,该模型可以生成一段水面平静、没有水花溅出的原始画面。
为了验证其性能,研究人员将 VOID 与 Runway、Generative Omnimatte 以及 DiffuEraser 等现有视频编辑工具进行了对比。根据 25 名参与者的主观偏好调查显示,64.8% 的受访者更倾向于 VOID 生成的效果,而 Runway 的支持率仅为 18.4%。
目前,Netflix 已将该模型上传至 Hugging Face 平台,向公众开放安装与使用权限。该项目的开发者包括 Saman Motamed、William Harvey、Benjamin Klein 等人。他们表示,VOID 在合成数据与真实世界数据评估中,均表现出对复杂动态场景的出色建模能力。
尽管电影行业对于 AI 介入创作持有不同态度,但 VOID 的出现为后期制作提供了一种无需重新拍摄即可修改情节的方案。无论是在处理简单的物体遮挡,还是在进行大规模的画面重写,这一工具都为视频内容创作者提供了新的技术选择。