AI机器人整体交互流程
2026-01-21 15:54:05 0 举报
AI机器人整体交互流程,主要是终端和服务端整体对接流程图
作者其他创作
大纲/内容
response
发tts-stop消息,本次对话结束
opus编码(20ms/帧)
识别情绪:语速/情感
终端命令
request
opus编/解码器
发join消息,建立ws长连接
帧数据
情绪识别模型
发opus帧
Client
发sentence_end消息,发一句话语音结束
发sentence_start消息,发下一句语音
ASR
发llm终端命令
发listen-start监听语音如前面一句未结束,先发送abort消息打断,终止第一句返回和交互
chat-text
文本
function_call
回connection消息,已建立ws长连接
opus解码/缓冲(20ms/帧)
发sentence_start消息,发第一句话语音
按帧发第一句循环语音帧(应终端要求只按顺序发,中间不进行帧发送顺序容错,解决终端底层解码跟不上缓冲播放速度产生卡顿问题)
TTS
按帧发循环语音
decode
录音
AI服务端-控制层
发listen-stop监听停止包(目前有VAD容错,可不发stop)
音频数据播放
AI机器人整体交互流程图
AI大模型
chat
应终端要求由原先60ms换成20ms解决终端底层数据解码问题,音频帧越多不连续更大,播放不连续性也就更强
wav-音频
发tts-start消息,服务器将开始发送语音
动作命令执行
发stt消息,告知识别文本
0 条评论
下一页