VibeVoice

VibeVoice 是微软开源的一个新颖的文本转语音框架,旨在从文本生成富有表现力的长篇多说话人对话音频,例如播客。它解决了传统文本转语音 (TTS) 系统中的重大挑战,尤其是在可扩展性、说话人一致性和自然话轮转换方面。 VibeVoice 的核心创新在于其使用了以 7.5 Hz 超低帧率运行的连续语音分词器(声学和语义)。这些分词器能够高效地保持音频保真度,同时显著提升处理长序列的计算效率。VibeVoice 采用下一个分词扩散框架,利用大型语言模型 (LLM) 理解文本上下文和对话流,并利用扩散头生成高保真声学细节。 该模型可以合成长达 90 分钟、最多 4 位不同说话者的语音,超越了许多先前模型通常的 1-2 位说话者的限制。

开源项目
热门趋势
4.8

应用截图

(1 张)
应用截图 1

应用截图 1

VibeVoice 功能展示

立即体验
4.8
登录评分

应用信息

Stars8.7K
更新时间2025/9/13
应用分类语音音频
功能特性
TTS文本转语音