使用人工智能驱动的程序创建逼真的会说话的头像

南洋理工大学计算机科学与工程学院副教授卢世健领导的研究小组开发了一种计算机程序，可以创建反映说话者面部表情和头部动作的逼真视频，只需要音频剪辑和面部照片。

多样化而逼真的面部动画(DIRFA)是一种基于人工智能的程序，它会拍摄音频和照片并生成3D视频，显示人物展示与语音同步的逼真且一致的面部动画。南洋理工大学开发的程序改进了现有的方法，这些方法在姿势变化和情绪控制方面遇到了困难。

为了实现这一目标，该团队使用开源数据库中来自6,000多人的超过100万个视听片段对DIRFA进行了训练，以预测语音线索并将其与面部表情和头部动作相关联。

研究人员表示，DIRFA可能会在包括医疗保健在内的各个行业和领域带来新的应用，因为它可以实现更复杂、更现实的虚拟助手和聊天机器人，从而改善用户体验。它还可以成为有言语或面部残疾的人的强大工具，帮助他们通过富有表现力的化身或数字表示来表达他们的想法和情感，从而增强他们的沟通能力。

领导这项研究的新加坡南洋理工大学计算机科学与工程学院(SCSE)的通讯作者陆世建副教授表示：“我们的研究的影响可能是深远的，因为它彻底改变了多媒体领域通过结合人工智能和机器学习等技术，创建高度逼真的个人讲话视频来进行交流。

“我们的程序还建立在以前的研究基础上，代表了技术的进步，因为用我们的程序创建的视频仅使用录音和静态图像，就包含准确的嘴唇动作、生动的面部表情和自然的头部姿势。”

第一作者吴荣亮博士，博士。南洋理工大学SCSE的毕业生说：“言语表现出多种变化。不同的人在不同的环境中对相同的单词发出不同的发音，包括持续时间、幅度、语气等方面的变化。此外，除了语言内容之外，言语还传达了有关语言的丰富信息。说话者的情绪状态和身份因素，如性别、年龄、种族，甚至性格特征。

“我们的方法代表了从人工智能和机器学习中的音频表示学习的角度提高性能的开创性努力。”吴博士是新加坡科学技术研究局(A*STAR)信息通信研究所的研究科学家。

研究结果发表在《模式识别》杂志上。

研究人员表示，创建由音频驱动的逼真的面部表情是一项复杂的挑战。对于给定的音频信号，可能存在多种可能的有意义的面部表情，并且随着时间的推移处理一系列音频信号时，这些可能性会成倍增加。

由于音频通常与嘴唇运动有很强的关联，但与面部表情和头部位置的关联较弱，因此该团队的目标是创建能够表现出精确的嘴唇同步、丰富的面部表情以及与所提供的音频相对应的自然头部运动的说话面孔。

为了解决这个问题，该团队首先设计了人工智能模型DIRFA，以捕捉音频信号和面部动画之间复杂的关系。卢副教授补充道：“具体来说，DIRFA根据输入音频对面部动画的可能性进行了建模，例如扬眉或皱鼻子。这种建模使程序能够将音频输入转换为多样化但高度逼真的面部序列。动画来指导生成说话的面孔。

“大量实验表明，DIRFA可以生成会说话的面孔，包括准确的嘴唇动作、生动的面部表情和自然的头部姿势。但是，我们正在努力改进程序的界面，允许控制某些输出。例如，DIRFA不允许用户调整某种表情，例如将皱眉改为微笑。”

除了为DIRFA的界面添加更多选项和改进之外，NTU研究人员还将使用更广泛的数据集(包括更多样的面部表情和语音音频剪辑)对其面部表情进行微调。