克隆技术新革命!Spark-TTS开源引爆开发者圈,迅速霸榜Hugging Face TTS趋势榜

出门问问02438.HK)联合香港科技大学、上海交通大学等全球顶尖学术机构,正式开源新一代语音生成模型Spark-TTS,同步发布技术论文并上线开源社区SparkAudio。该模型凭借BiCodec语音编码范式单阶段生成架构,迅速登上Hugging Face TTS趋势榜前二,引发学界与开发者热议。

 

核心亮点:

1. 颠覆性技术架构:首创BiCodec编码技术,将语音拆解为Global Token(全局音色)与Semantic Token(强语义关联),攻克传统语音token可控性差、生成链路复杂等痛点,实现与文本大模型(如Qwen2.5)的结构统一。

2. 高效可控生成:仅用单流语言模型即可完成语音克隆、跨语种生成等高阶任务,支持通过属性标签(性别、基频)精准控制音色,大幅降低商业化部署门槛。

3. 产学研生态协同:开源社区SparkAudio提供完整代码与预训练模型,加速行业技术迭代。相关论文已发布,技术细节透明化推动产学研深度联动。

 

市场意义

Spark-TTS的开源标志着语音生成技术迈入新阶段,为AIGC行业提供底层技术基础设施。出门问问凭借技术先发优势,进一步巩固其在AI语音领域的生态话语权。

 

论文Demo展示:

https://sparkaudio.github.io/spark-tts/


联系我们