几秒生成自然、有情绪的语音

GLM-TTS 是智谱 AI（zai-org）开源的工业级文字转语音（TTS）系统。
3 秒提示音零样本复刻音色与韵律，RL 强化情绪表达，支持 Phoneme-in 精准发音控制。

🎧 更自然、更可控的语音合成

from 99+ happy users

Web Demo 基于现代前端栈构建

什么是 GLM-TTS

GLM-TTS 是面向工业落地的开源语音合成系统，采用“两阶段生成”：LLM（文本→语义 token）+ Flow Matching（token→音频），兼顾自然度与生成质量。

零样本声音复刻
仅需约 3 秒提示音，即可复刻音色与韵律（无需微调）。
情绪与拟声更真实
RL 强化情绪表达（喜/怒/哀等）并支持笑声、呼吸等拟声。
发音可控
Phoneme-in（拼音/音素 + 文本混合输入）精准处理多音字与生僻词。

优势

为什么选择 GLM-TTS

为解决传统 TTS“机械感”而设计，同时保持可控性与工程可用性。

LLM 语义建模 + Flow Matching 声学生成，语速与韵律更贴近真人。

快速开始

几分钟内跑通本地推理：

核心能力

来自 GLM-TTS 技术参考的关键能力概览。

零样本声音复刻

仅需约 3 秒提示音即可复刻音色与韵律（无需微调）。

情绪可控（RL）

GRPO 强化学习提升情绪表现，并支持笑声/呼吸等拟声生成。

Phoneme-in 精准发音

拼音/音素 + 文本混合输入，精准处理多音字与教育场景难词。

两阶段架构

Llama 系 LLM（文本→token）+ Flow Matching DiT（token→音频），兼顾质量与效率。

高保真声码器

2D-Vocos 声码器增强频带建模，动态范围更稳定。

Apache 2.0 协议

商业友好开源协议，便于集成、自托管与二次开发。

统计

为工业级 TTS 而生

来自 GLM-TTS 技术参考的关键指标。

训练数据

10 万+

小时

提示音

3 秒

零样本

准确率

0.89%

CER

用户评价

开发者怎么说

从教育到有声书到客服场景，大家用 GLM-TTS 生成更自然、可控的语音。

林晨

教育产品团队

Phoneme-in 让多音字和中英混排内容更可靠，非常适合朗读与讲解场景。

玛雅

有声书制作人

情绪跨度很自然，笑声、叹息等细节让长篇叙事更“像人”。

阿杰

智能客服负责人

语气温和专业，不会“表演过度”，插入订单号等变量也不容易破坏韵律。

索菲亚

独立游戏团队

只用几秒参考音就能做角色声音原型，大幅加快多角色对白的迭代速度。

詹姆斯

算法工程师

两阶段设计思路清晰：语义建模强、声学生成稳定，整体工程落地友好。

张安娜

产品构建者

Apache 2.0 让商业集成更省心，自托管与二次开发路径清晰。

常见问题

更多细节请查看官方仓库与技术参考。

GLM-TTS 是什么？

GLM-TTS 是智谱 AI 开源的工业级 TTS 系统，采用 LLM 语义建模 + Flow Matching 声学生成的两阶段方案。

可以商用吗？

可以。GLM-TTS 采用 Apache 2.0 协议，允许商业使用。

零样本声音复刻是怎么做的？

提供约 3 秒提示音即可复刻音色与韵律，无需微调即可生成目标语音。

如何精确控制发音？

使用 Phoneme-in（音素/拼音 + 文本混合输入）固定多音字与生僻词的读音。

支持情绪与笑声吗？

支持。通过 GRPO 强化学习提升情绪表达，并鼓励生成笑声等拟声细节。

如何开始推理？

按官方快速开始：安装依赖、下载权重、运行 glmtts_inference.py，并可选启动 Gradio 应用。

用 GLM-TTS 构建你的语音应用

获取代码、下载模型，生成第一段更自然的语音样例。

几秒生成自然、有情绪的语音

Web Demo 基于现代前端栈构建

什么是 GLM-TTS

为什么选择 GLM-TTS

快速开始

准备 Python 环境

下载模型权重

命令行推理

打开 Web UI

核心能力

零样本声音复刻

情绪可控（RL）

Phoneme-in 精准发音

两阶段架构

高保真声码器

Apache 2.0 协议

为工业级 TTS 而生

开发者怎么说

常见问题

GLM-TTS 是什么？

可以商用吗？

零样本声音复刻是怎么做的？

如何精确控制发音？

支持情绪与笑声吗？

如何开始推理？

用 GLM-TTS 构建你的语音应用

几秒生成自然、有情绪的语音

Web Demo 基于现代前端栈构建

什么是 GLM-TTS

为什么选择 GLM-TTS

更自然的语音

高保真与高准确

商业友好可自托管

快速开始

准备 Python 环境

下载模型权重

命令行推理

打开 Web UI

核心能力

零样本声音复刻

情绪可控（RL）

Phoneme-in 精准发音

两阶段架构

高保真声码器

Apache 2.0 协议

为工业级 TTS 而生

开发者怎么说

常见问题

GLM-TTS 是什么？

可以商用吗？

零样本声音复刻是怎么做的？

如何精确控制发音？

支持情绪与笑声吗？

如何开始推理？

用 GLM-TTS 构建你的语音应用