美团开源InfiniteTalk:一段音频驱动无限时长数字人视频生成

项目简介

近日,美团 MeiGen-AI 团队开源了 InfiniteTalk —— 一个革命性的音频驱动视频生成框架。该项目基于 Wan2.1-14B 大模型,能够实现无限时长的说话视频生成,并且嘴唇、头部动作、身体姿态、面部表情全部跟着音频走。

核心特性

  • 💬 稀疏帧视频配音:不只同步嘴唇,同时对齐头部运动、身体姿态、面部表情
  • ⏱️ 无限时长生成:Streaming 模式支持任意长度视频,不受时长限制
  • ✨ 稳定性更强:相比 MultiTalk,手部/身体变形问题明显减少
  • 🚀 嘴唇同步更准:在嘴唇同步精度上超越 MultiTalk
  • 🖼️ 双模式支持:V2V(视频转视频)+ I2V(图片转视频)两种输入方式
  • 👥 多人动画:支持多人同时说话的场景
  • ⚡ 多种加速方案:TeaCache / int8量化 / FusionX LoRA / lightx2v
  • 🖥️ 低显存支持:可在低显存 GPU 上运行

应用场景

  • 虚拟主播:用一张照片+语音文件,就能生成自然的口播视频
  • 在线教育:制作时长不限的网课讲解视频
  • 直播切片:将直播内容快速转换为数字人视频
  • 电商讲解:产品介绍视频批量生成
  • 新闻播报:AI虚拟主持人视频制作

技术架构

InfiniteTalk 基于 Wan2.1-14B 大模型开发,提供了完整的模块化架构:

  • 图像到视频转换模块:image2video.py 核心脚本
  • 视频到视频重配音模块:支持已有视频的音频替换
  • 流式生成引擎:实现无限时长视频的关键组件

部署方式

InfiniteTalk 提供了多种部署方案:

  1. ComfyUI 一键部署:最快上手方式
  2. Docker 部署:支持 Intel Gaudi 加速器
  3. 本地部署:支持 8G 显存显卡运行
git clone https://github.com/MeiGen-AI/InfiniteTalk
cd InfiniteTalk
pip install -r requirements.txt

项目地址

总结

InfiniteTalk 的开源标志着数字人视频生成领域的重要突破。相比传统方法需要逐帧调整口型,这套工具可以将效率提升 10 倍以上。无论你是内容创作者、教育工作者还是企业用户,都值得尝试这个强大的开源工具。

Share This!

评论

您的电子邮件地址将不会被公布。