HomeAI纪元科技前沿美团开源Infi…

美团开源InfiniteTalk：一段音频驱动无限时长数字人视频生成

2026年4月25日2026年4月25日Mr. Zhou科技前沿Leave a comment 3 views

项目简介

近日，美团 MeiGen-AI 团队开源了 InfiniteTalk —— 一个革命性的音频驱动视频生成框架。该项目基于 Wan2.1-14B 大模型，能够实现无限时长的说话视频生成，并且嘴唇、头部动作、身体姿态、面部表情全部跟着音频走。

核心特性

💬 稀疏帧视频配音：不只同步嘴唇，同时对齐头部运动、身体姿态、面部表情
⏱️ 无限时长生成：Streaming 模式支持任意长度视频，不受时长限制
✨ 稳定性更强：相比 MultiTalk，手部/身体变形问题明显减少
🚀 嘴唇同步更准：在嘴唇同步精度上超越 MultiTalk
🖼️ 双模式支持：V2V（视频转视频）+ I2V（图片转视频）两种输入方式
👥 多人动画：支持多人同时说话的场景
⚡ 多种加速方案：TeaCache / int8量化 / FusionX LoRA / lightx2v
🖥️ 低显存支持：可在低显存 GPU 上运行

应用场景

虚拟主播：用一张照片+语音文件，就能生成自然的口播视频
在线教育：制作时长不限的网课讲解视频
直播切片：将直播内容快速转换为数字人视频
电商讲解：产品介绍视频批量生成
新闻播报：AI虚拟主持人视频制作

技术架构

InfiniteTalk 基于 Wan2.1-14B 大模型开发，提供了完整的模块化架构：

图像到视频转换模块：image2video.py 核心脚本
视频到视频重配音模块：支持已有视频的音频替换
流式生成引擎：实现无限时长视频的关键组件

部署方式

InfiniteTalk 提供了多种部署方案：

ComfyUI 一键部署：最快上手方式
Docker 部署：支持 Intel Gaudi 加速器
本地部署：支持 8G 显存显卡运行

git clone https://github.com/MeiGen-AI/InfiniteTalk
cd InfiniteTalk
pip install -r requirements.txt

项目地址

GitHub: https://github.com/MeiGen-AI/InfiniteTalk
论文: arXiv 2508.14033
模型: HuggingFace MeiGen-AI/InfiniteTalk

总结

InfiniteTalk 的开源标志着数字人视频生成领域的重要突破。相比传统方法需要逐帧调整口型，这套工具可以将效率提升 10 倍以上。无论你是内容创作者、教育工作者还是企业用户，都值得尝试这个强大的开源工具。

Share This!

About Mr. Zhou

评论 Cancel reply