AI

复旦、百度联手推出全新AI模型Hallo2 AI数字人 一键整合包,可生成高清4K数字人视频

Hallo是一个由复旦大学、百度公司、苏黎世联邦理工学院和南京大学共同开发的AI对口型肖像图像动画技术,该技术能够基于语音音频输入生成逼真且动态的肖像图像视频。以下是该项目的详细介绍:

  1. 项目背景:
    • 肖像图像动画技术:该技术旨在从单个静态图像和相应的语音音频中生成一个说话的人像,在视频游戏和虚拟现实、电影和电视制作、社交媒体和数字营销等领域具有巨大价值。
    • 传统方法限制:过去,由于缺乏有效的声音到视频生成方案,人脸视频合成通常需要依赖参数化模型作为中间媒介,但这些方法常常受制于参数化模型在表情和动作表达能力上的限制,以及声音与动作之间的弱相关性。
  2. Hallo技术特点:
    • 端到端模型:Hallo是一个直接从声音驱动生成视频的端到端模型,无需复杂的参数化中间表示和额外的动作输入,即可生成口型、表情、动作极其自然丰富的人脸视频。
    • 分层音频驱动视觉合成:该模型采用了分层音频驱动的视觉合成模块,通过分层交叉注意力操作,针对不同区域(嘴唇、面部和头部)分别提取掩码特征,并学习到不同区域的运动特征,从而显著提升口型、表情和动作的真实度。
    • 高质量人脸动画生成:在真人数据集上,Hallo展示出了高度一致的口型,并能够体现出音频的丰富细节,如情绪和讲话节奏。
  3. 技术架构:
    • 网络架构整合:Hallo的网络架构整合了基于扩散的生成模型、基于UNet的去噪器、时间对齐技术和参考网络,以增强动画的质量和真实感。
    • 人脸编码模型:使用预先训练的人脸编码器来提取身份特征,这些特征与扩散网络的交叉注意力模块进行交互,生成与输入角色特征忠实一致的肖像动画。
  4. 数据清洗与训练:
    • 自动化数字人视频清洗引擎:为了解决互联网上存在的大量数字人视频数据质量参差不齐的问题,研发团队构建了一套自动化数字人视频清洗引擎,已成功清洗了数千小时的高质量数字人视频。
    • 多类型人像风格支持:尽管Hallo仅在真人视频数据集上进行训练,但表现出了极强的泛化性,包括卡通、素描、雕塑等各类风格。
  5. 全局运动可控性:
    • 分层面部特征注意力机制:Hallo利用该机制,通过调整三个区域的权重系数,能针对性地控制口型、表情和动作的运动强度,从而大幅提升人脸动画生成的可控性。
  6. 应用前景:
    • 影视制作:Hallo在娱乐产业方面,可在电影、电视剧和短视频制作中发挥重要作用,提高制作效率,实现更高质量的动画效果。
    • 游戏与虚拟现实:通过引入AI角色,游戏和虚拟现实应用可以呈现更生动、真实的虚拟世界,增强用户的沉浸感和参与感。
    • 教育领域:AI数字人能通过多感官交互增加学习的直观性和互动性,为弱势人群提供更符合其需求的教育内容。
  7. 开源与社区合作:
    • 开源共享:Hallo项目已经开源,并提供了详细的部署过程和Web界面演示,方便社区成员进行二次开发和应用。
    • 社区合作:复旦和百度的研究团队将持续优化模型性能,提升动画生成质量,并期待与社区紧密合作,共同推动该技术在多个产业领域的应用和发展。

总结来说,Hallo是一个创新的AI对口型肖像图像动画技术,通过端到端模型和分层音频驱动视觉合成模块,实现了高质量、高真实感的人脸视频生成。该项目在影视制作、游戏与虚拟现实以及教育领域具有广泛的应用前景,并已经开源共享,期待与社区共同推动其发展和应用。

你们看看

简单说下这个开源项目的使用方法

我已经做了一个简单的实例 只要运行 run.bat 就可以把input文件夹下面的1.png和1.wav生成数字人视频保存在output

如果你要改变输出结果和运行不同的功能 可以去修改configs 这个文件夹里面的.yaml文件 可以用记事本打开

百度网盘下载:

您需要先支付 9.9元 才能查看此处内容!立即支付

AI相关的一切

留言

您的邮箱地址不会被公开。 必填项已用 * 标注