选择接入方式
为帮助您更好地使用爱声云 TTS 服务,我们提供两种接入方式:WebSocket 实时接口和 HTTP 标准接口。以下是详细说明:
WebSocket 实时语音生成
适用于需要实时交互的场景,具有以下优势:
低延迟
- 可预先建立 WebSocket 连接,消除连接建立的延迟时间(约节省 200ms)
- 适合对响应速度要求较高的实时应用
流式处理能力
- 支持边输入边生成语音输出
- 特别适合与大语言模型配合使用,可直接将模型输出转化为语音
多会话支持
- 通过
context_id
实现多会话区分 - 单个连接可同时处理多路对话,提高资源利用效率
HTTP 离线语音生成
适用于需要预先生成语音内容的场景:
特点
- 支持多种音频格式输出(WAV、MP3)
- 适合批量语音生成
- 便于音频文件存储和管理
注:PCM 格式输出因缺少音频格式定义,不建议直接使用,可能无法在本地正常播放。
选择建议:
- 实时交互场景(如对话机器人):选择 WebSocket 接口
- 内容预生成场景(如有声内容制作):选择 HTTP 接口