几秒生成自然、有情绪的语音
GLM-TTS 是智谱 AI(zai-org)开源的工业级文字转语音(TTS)系统。
3 秒提示音零样本复刻音色与韵律,RL 强化情绪表达,支持 Phoneme-in 精准发音控制。
🎧 更自然、更可控的语音合成
from 99+ happy users
Web Demo 基于现代前端栈构建

什么是 GLM-TTS
GLM-TTS 是面向工业落地的开源语音合成系统,采用“两阶段生成”:LLM(文本→语义 token)+ Flow Matching(token→音频),兼顾自然度与生成质量。
- 零样本声音复刻仅需约 3 秒提示音,即可复刻音色与韵律(无需微调)。
- 情绪与拟声更真实RL 强化情绪表达(喜/怒/哀等)并支持笑声、呼吸等拟声。
- 发音可控Phoneme-in(拼音/音素 + 文本混合输入)精准处理多音字与生僻词。
为什么选择 GLM-TTS
为解决传统 TTS“机械感”而设计,同时保持可控性与工程可用性。



快速开始
几分钟内跑通本地推理:
核心能力
来自 GLM-TTS 技术参考的关键能力概览。
零样本声音复刻
仅需约 3 秒提示音即可复刻音色与韵律(无需微调)。
情绪可控(RL)
GRPO 强化学习提升情绪表现,并支持笑声/呼吸等拟声生成。
Phoneme-in 精准发音
拼音/音素 + 文本混合输入,精准处理多音字与教育场景难词。
两阶段架构
Llama 系 LLM(文本→token)+ Flow Matching DiT(token→音频),兼顾质量与效率。
高保真声码器
2D-Vocos 声码器增强频带建模,动态范围更稳定。
Apache 2.0 协议
商业友好开源协议,便于集成、自托管与二次开发。
为工业级 TTS 而生
来自 GLM-TTS 技术参考的关键指标。
训练数据
10 万+
小时
提示音
3 秒
零样本
准确率
0.89%
CER
开发者怎么说
从教育到有声书到客服场景,大家用 GLM-TTS 生成更自然、可控的语音。
林晨
教育产品团队
Phoneme-in 让多音字和中英混排内容更可靠,非常适合朗读与讲解场景。
玛雅
有声书制作人
情绪跨度很自然,笑声、叹息等细节让长篇叙事更“像人”。
阿杰
智能客服负责人
语气温和专业,不会“表演过度”,插入订单号等变量也不容易破坏韵律。
索菲亚
独立游戏团队
只用几秒参考音就能做角色声音原型,大幅加快多角色对白的迭代速度。
詹姆斯
算法工程师
两阶段设计思路清晰:语义建模强、声学生成稳定,整体工程落地友好。
张安娜
产品构建者
Apache 2.0 让商业集成更省心,自托管与二次开发路径清晰。
常见问题
更多细节请查看官方仓库与技术参考。
GLM-TTS 是什么?
GLM-TTS 是智谱 AI 开源的工业级 TTS 系统,采用 LLM 语义建模 + Flow Matching 声学生成的两阶段方案。
可以商用吗?
可以。GLM-TTS 采用 Apache 2.0 协议,允许商业使用。
零样本声音复刻是怎么做的?
提供约 3 秒提示音即可复刻音色与韵律,无需微调即可生成目标语音。
如何精确控制发音?
使用 Phoneme-in(音素/拼音 + 文本混合输入)固定多音字与生僻词的读音。
支持情绪与笑声吗?
支持。通过 GRPO 强化学习提升情绪表达,并鼓励生成笑声等拟声细节。
如何开始推理?
按官方快速开始:安装依赖、下载权重、运行 glmtts_inference.py,并可选启动 Gradio 应用。
用 GLM-TTS 构建你的语音应用
获取代码、下载模型,生成第一段更自然的语音样例。

