VibeVoice

Name: VibeVoice
Rating: 4.8 (1 reviews)
Author: AI 经纬录

VibeVoice 是微软开源的一个新颖的文本转语音框架，旨在从文本生成富有表现力的长篇多说话人对话音频，例如播客。它解决了传统文本转语音 (TTS) 系统中的重大挑战，尤其是在可扩展性、说话人一致性和自然话轮转换方面。 VibeVoice 的核心创新在于其使用了以 7.5 Hz 超低帧率运行的连续语音分词器（声学和语义）。这些分词器能够高效地保持音频保真度，同时显著提升处理长序列的计算效率。VibeVoice 采用下一个分词扩散框架，利用大型语言模型 (LLM) 理解文本上下文和对话流，并利用扩散头生成高保真声学细节。该模型可以合成长达 90 分钟、最多 4 位不同说话者的语音，超越了许多先前模型通常的 1-2 位说话者的限制。