跳到主要内容

选择接入方式

为帮助您更好地使用爱声云 TTS 服务,我们提供两种接入方式:WebSocket 实时接口和 HTTP 标准接口。以下是详细说明:

WebSocket 实时语音生成

适用于需要实时交互的场景,具有以下优势:

低延迟

  • 可预先建立 WebSocket 连接,消除连接建立的延迟时间(约节省 200ms)
  • 适合对响应速度要求较高的实时应用

流式处理能力

  • 支持边输入边生成语音输出
  • 特别适合与大语言模型配合使用,可直接将模型输出转化为语音

多会话支持

  • 通过 context_id 实现多会话区分
  • 单个连接可同时处理多路对话,提高资源利用效率

HTTP 离线语音生成

适用于需要预先生成语音内容的场景:

特点

  • 支持多种音频格式输出(WAV、MP3)
  • 适合批量语音生成
  • 便于音频文件存储和管理

注:PCM 格式输出因缺少音频格式定义,不建议直接使用,可能无法在本地正常播放。

选择建议:

  • 实时交互场景(如对话机器人):选择 WebSocket 接口
  • 内容预生成场景(如有声内容制作):选择 HTTP 接口