VideoReTalking - 根据输入的音频编辑真实世界中的讲话人视频的面部表情

大家好，又见面了，我是 GitHub 精选君！

背景介绍

如果你是一个视频相关的工作人员，遇到需要对视频进行编辑的情况，尤其是对于讲话人的视频，需要去改变视频中讲话人的语音或者情绪时，如何让视频中的嘴唇动作与新的语音同步，这就成为了一个难题。这个问题的核心痛点在于，我们需要在保持视频质量的同时，实现对讲话人嘴唇动作的精准编辑，以达到与新的语音同步。

今天要给大家推荐一个 GitHub 开源项目 OpenTalker/video-retalking，该项目在 GitHub 有超过 2.8k Star，用一句话介绍该项目就是：“[SIGGRAPH Asia 2022] VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild”。

项目介绍

VideoReTalking 是一个全新的系统，能够根据输入的音频编辑真实世界中的讲话人视频的面部表情，即使情绪不同，也能产生高质量且嘴唇同步的输出视频。该系统将这个目标分解为三个顺序任务：1）使用标准表情生成面部视频；2）音频驱动的嘴唇同步；3）提高照片真实感的面部增强。所有这些步骤都采用了基于机器学习的方法，所有模块都可以在一个顺序的流程中处理，无需用户干预。

演示视频地址：https://user-images.githubusercontent.com/4397546/224310754-665eb2dd-aadc-47dc-b1f9-2029a937b20a.mp4

如何使用

首先，你需要从 GitHub 上克隆项目到本地，然后创建一个名为 video_retalking 的 python 环境，并激活它。然后，你需要安装 ffmpeg 和 PyTorch，以及其他必要的依赖。接下来，你可以下载该项目的预训练模型，并将它们放在 ./checkpoints 目录下。最后，你可以通过运行 inference.py 脚本来进行推理。此脚本包括数据预处理步骤，你可以测试任何讲话人视频，无需手动对齐。

git clone https://github.com/vinthony/video-retalking.git
cd video-retalking
conda create -n video_retalking python=3.8
conda activate video_retalking

conda install ffmpeg

# Please follow the instructions from https://pytorch.org/get-started/previous-versions/
# This installation command only works on CUDA 11.1
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html

pip install -r requirements.txt

项目推介

VideoReTalking 是 SIGGRAPH Asia 2022 Conference Track 的一部分，由来自西安电子科技大学和腾讯 AI 实验室的研究人员共同开发，该项目已经在腾讯 AI 实验室中得到应用。如果你在研究中发现该工作有用，请考虑引用他们的工作。

以下是该项目 Star 趋势图（代表项目的活跃程度）：

更多项目详情请查看如下链接。

开源项目地址：https://github.com/OpenTalker/video-retalking

开源项目作者：OpenTalker

以下是参与项目建设的所有成员：

关注我们，一起探索有意思的开源项目。

更多精彩请扫码关注如下公众号。

Written on October 31, 2023