项目简介
近日,美团 MeiGen-AI 团队开源了 InfiniteTalk —— 一个革命性的音频驱动视频生成框架。该项目基于 Wan2.1-14B 大模型,能够实现无限时长的说话视频生成,并且嘴唇、头部动作、身体姿态、面部表情全部跟着音频走。
核心特性
- 💬 稀疏帧视频配音:不只同步嘴唇,同时对齐头部运动、身体姿态、面部表情
- ⏱️ 无限时长生成:Streaming 模式支持任意长度视频,不受时长限制
- ✨ 稳定性更强:相比 MultiTalk,手部/身体变形问题明显减少
- 🚀 嘴唇同步更准:在嘴唇同步精度上超越 MultiTalk
- 🖼️ 双模式支持:V2V(视频转视频)+ I2V(图片转视频)两种输入方式
- 👥 多人动画:支持多人同时说话的场景
- ⚡ 多种加速方案:TeaCache / int8量化 / FusionX LoRA / lightx2v
- 🖥️ 低显存支持:可在低显存 GPU 上运行
应用场景
- 虚拟主播:用一张照片+语音文件,就能生成自然的口播视频
- 在线教育:制作时长不限的网课讲解视频
- 直播切片:将直播内容快速转换为数字人视频
- 电商讲解:产品介绍视频批量生成
- 新闻播报:AI虚拟主持人视频制作
技术架构
InfiniteTalk 基于 Wan2.1-14B 大模型开发,提供了完整的模块化架构:
- 图像到视频转换模块:image2video.py 核心脚本
- 视频到视频重配音模块:支持已有视频的音频替换
- 流式生成引擎:实现无限时长视频的关键组件
部署方式
InfiniteTalk 提供了多种部署方案:
- ComfyUI 一键部署:最快上手方式
- Docker 部署:支持 Intel Gaudi 加速器
- 本地部署:支持 8G 显存显卡运行
git clone https://github.com/MeiGen-AI/InfiniteTalk
cd InfiniteTalk
pip install -r requirements.txt
项目地址
- GitHub: https://github.com/MeiGen-AI/InfiniteTalk
- 论文: arXiv 2508.14033
- 模型: HuggingFace MeiGen-AI/InfiniteTalk
总结
InfiniteTalk 的开源标志着数字人视频生成领域的重要突破。相比传统方法需要逐帧调整口型,这套工具可以将效率提升 10 倍以上。无论你是内容创作者、教育工作者还是企业用户,都值得尝试这个强大的开源工具。
