VibeVoice
VibeVoice 是微软开源的一个新颖的文本转语音框架,旨在从文本生成富有表现力的长篇多说话人对话音频,例如播客。它解决了传统文本转语音 (TTS) 系统中的重大挑战,尤其是在可扩展性、说话人一致性和自然话轮转换方面。 VibeVoice 的核心创新在于其使用了以 7.5 Hz 超低帧率运行的连续语音分词器(声学和语义)。这些分词器能够高效地保持音频保真度,同时显著提升处理长序列的计算效率。VibeVoice 采用下一个分词扩散框架,利用大型语言模型 (LLM) 理解文本上下文和对话流,并利用扩散头生成高保真声学细节。 该模型可以合成长达 90 分钟、最多 4 位不同说话者的语音,超越了许多先前模型通常的 1-2 位说话者的限制。
开源项目
热门趋势
4.8
应用截图
(1 张)
应用截图 1
VibeVoice 功能展示