Apache 2.0商业友好开源协议

几秒生成自然、有情绪的语音

GLM-TTS 是智谱 AI(zai-org)开源的工业级文字转语音(TTS)系统。
3 秒提示音零样本复刻音色与韵律,RL 强化情绪表达,支持 Phoneme-in 精准发音控制。

🎧 更自然、更可控的语音合成

from 99+ happy users

Web Demo 基于现代前端栈构建

Next.jsReactTailwindCSSShadcn/UIVercel
placeholder hero

什么是 GLM-TTS

GLM-TTS 是面向工业落地的开源语音合成系统,采用“两阶段生成”:LLM(文本→语义 token)+ Flow Matching(token→音频),兼顾自然度与生成质量。

  • 零样本声音复刻
    仅需约 3 秒提示音,即可复刻音色与韵律(无需微调)。
  • 情绪与拟声更真实
    RL 强化情绪表达(喜/怒/哀等)并支持笑声、呼吸等拟声。
  • 发音可控
    Phoneme-in(拼音/音素 + 文本混合输入)精准处理多音字与生僻词。
优势

为什么选择 GLM-TTS

为解决传统 TTS“机械感”而设计,同时保持可控性与工程可用性。

LLM 语义建模 + Flow Matching 声学生成,语速与韵律更贴近真人。

更自然的语音
高保真与高准确
商业友好可自托管

快速开始

几分钟内跑通本地推理:

核心能力

来自 GLM-TTS 技术参考的关键能力概览。

零样本声音复刻

仅需约 3 秒提示音即可复刻音色与韵律(无需微调)。

情绪可控(RL)

GRPO 强化学习提升情绪表现,并支持笑声/呼吸等拟声生成。

Phoneme-in 精准发音

拼音/音素 + 文本混合输入,精准处理多音字与教育场景难词。

两阶段架构

Llama 系 LLM(文本→token)+ Flow Matching DiT(token→音频),兼顾质量与效率。

高保真声码器

2D-Vocos 声码器增强频带建模,动态范围更稳定。

Apache 2.0 协议

商业友好开源协议,便于集成、自托管与二次开发。

统计

为工业级 TTS 而生

来自 GLM-TTS 技术参考的关键指标。

训练数据

10 万+

小时

提示音

3 秒

零样本

准确率

0.89%

CER

用户评价

开发者怎么说

从教育到有声书到客服场景,大家用 GLM-TTS 生成更自然、可控的语音。

林晨

教育产品团队

Phoneme-in 让多音字和中英混排内容更可靠,非常适合朗读与讲解场景。

玛雅

有声书制作人

情绪跨度很自然,笑声、叹息等细节让长篇叙事更“像人”。

阿杰

智能客服负责人

语气温和专业,不会“表演过度”,插入订单号等变量也不容易破坏韵律。

索菲亚

独立游戏团队

只用几秒参考音就能做角色声音原型,大幅加快多角色对白的迭代速度。

詹姆斯

算法工程师

两阶段设计思路清晰:语义建模强、声学生成稳定,整体工程落地友好。

张安娜

产品构建者

Apache 2.0 让商业集成更省心,自托管与二次开发路径清晰。
常见问题

常见问题

更多细节请查看官方仓库与技术参考。

1

GLM-TTS 是什么?

GLM-TTS 是智谱 AI 开源的工业级 TTS 系统,采用 LLM 语义建模 + Flow Matching 声学生成的两阶段方案。

2

可以商用吗?

可以。GLM-TTS 采用 Apache 2.0 协议,允许商业使用。

3

零样本声音复刻是怎么做的?

提供约 3 秒提示音即可复刻音色与韵律,无需微调即可生成目标语音。

4

如何精确控制发音?

使用 Phoneme-in(音素/拼音 + 文本混合输入)固定多音字与生僻词的读音。

5

支持情绪与笑声吗?

支持。通过 GRPO 强化学习提升情绪表达,并鼓励生成笑声等拟声细节。

6

如何开始推理?

按官方快速开始:安装依赖、下载权重、运行 glmtts_inference.py,并可选启动 Gradio 应用。

用 GLM-TTS 构建你的语音应用

获取代码、下载模型,生成第一段更自然的语音样例。