克隆技术新革命!Spark-TTS开源引爆开发者圈,迅速霸榜Hugging Face TTS趋势榜
出门问问(02438.HK)联合香港科技大学、上海交通大学等全球顶尖学术机构,正式开源新一代语音生成模型Spark-TTS,同步发布技术论文并上线开源社区SparkAudio。该模型凭借BiCodec语音编码范式与单阶段生成架构,迅速登上Hugging Face TTS趋势榜前二,引发学界与开发者热议。
核心亮点:
1. 颠覆性技术架构:首创BiCodec编码技术,将语音拆解为Global Token(全局音色)与Semantic Token(强语义关联),攻克传统语音token可控性差、生成链路复杂等痛点,实现与文本大模型(如Qwen2.5)的结构统一。
2. 高效可控生成:仅用单流语言模型即可完成语音克隆、跨语种生成等高阶任务,支持通过属性标签(性别、基频)精准控制音色,大幅降低商业化部署门槛。
3. 产学研生态协同:开源社区SparkAudio提供完整代码与预训练模型,加速行业技术迭代。相关论文已发布,技术细节透明化推动产学研深度联动。
市场意义:
Spark-TTS的开源标志着语音生成技术迈入新阶段,为AIGC行业提供底层技术基础设施。出门问问凭借技术先发优势,进一步巩固其在AI语音领域的生态话语权。
论文Demo展示:
https://sparkaudio.github.io/spark-tts/
达人头条
热门推荐