语音交互评价指标【平台首发】
2026-02-05 13:16:34 0 举报
AI智能生成
主要从 5 大方面具体介绍了现在行业内对语音交互系统的常见评价指标,分别是语音 识别、自然语言处理、语音合成、对话系统和整体用户数据指标
作者其他创作
大纲/内容
行业内对语音交互系统的常见评价指标
语音识别
自然语言处理
语音合成
对话系统
整体用户数据指标
一、语音识别 ASR
语音识别(Automatic Speech Recognition),一般简称 ASR,是将声音转化为文字的过程,相当于人类的耳朵
<ul><li>识别率</li></ul>
实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)”
定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为 WER。
公式为:
<br>
Substitution——替换
Deletion——删除
Insertion——插入
N——单词数目
WER 可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。
因为有插入词,所以理论上 WER 有可能大于 100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。
实际工作中,这个应该指向“SER(句错误率,<br>Sentence Error Rate)”,即“句子识别错误的个数/总的句子个数”。
<ul><li>语音唤醒相关的指标</li></ul>
语音唤醒的含义
简单来说是“喊名字,引起听者(AI)的注意”。如果语音唤醒判断结果是正确的唤醒
(激活)词,那后续的语音就应该被识别;否则,不进行识别。
语音唤醒的相关指标
a. 唤醒率。叫 AI 的时候,ta 成功被唤醒的比率。<br>b. 误唤醒率。没叫 AI 的时候,ta 自己跳出来讲话的比率。如果误唤醒比较多,特别比如半夜时,智能音箱突然开始唱歌或讲故事,会特别吓人的……<br>c. 唤醒词的音节长度。一般技术上要求,最少 3 个音节,比如“OK Google”和“Alexa”有四个音节,“Hey Siri”有三个音节;国内的智能音箱,比如小雅,唤醒词是“小雅小雅”,而不能用“小雅”——如果音节太短,一般误唤醒率会比较高。<br>d. 唤醒响应时间。之前看过傅盛的文章,说世界上所有的音箱,除了 Echo 和他们做的小雅智能音箱能达到 1.5 秒,其他的都在 3 秒以上。<br>e. 功耗(要低)。看过报道,说 iPhone 4s 出现 Siri,但直到 iPhone 6s 之后才允许不接电源的情况下直喊“Hey Siri”进行语音唤醒;这是因为有 6s 上有一颗专门进行语音激活的低功耗芯片,当然算法和硬件要进行配合,算法也要进行优化。
二、自然语言处理 NLP
自然语言处理(Natural Language Processing),一般简称 NLP,通俗理解就是“让计算机能够理解和生成人类语言”。
<ul><li>准确率、召回率</li></ul>
召回率(Recall)和精确率(Precision)是一对“好兄弟”,虽然它们是两个不同的评价指标,但互相影响,通常一起出现。在很多书上又把精确率称为查准率,把召回率称为查全率。
召回率是针对原始样本而言的指标,它表示原始样本中的正例有多少被预测正确 。原始样本中的正例有两种情况:一种是把原来的正类预测成正类(TP);另一种就是把原来的正类预测为负类(FN)。这两种情况组成了原始样本所有的正例。计算公式为:Recall=TP/(TP+FN)
精确率是针对预测结果而言的指标,它表示预测为正类的样本<br>78中有多少是对的 。预测结果为正例有两种情况:一种就是把正类预测为正类(TP);另一种就是把负类预测为正类(FP)。所以精确率的计算公式为:Precision=TP/(TP+FP)
<ul><li>F1 值(精准率和召回率的调和平均数)</li></ul>
模型调优后追求 F1 值提升,准确率召回率单独下降在一个小区间内,整体 F1 值的增量也是分区间看(F1 值在 60%内,与 60%以上肯定是不一样的,90%以上可能只追求 1%的提<br>升)。
P 是精准率,R 是召回率,Fa 是在 F1 基础上做了赋权处理:Fa=(a^2+1)PR/(a^2P+R)
三、语音合成 TTS
语音合成(Text-To-Speech),一般简称 TTS,是将文字转化为声音(朗读出来),类比于人类的嘴巴。
<ul><li>主观测试(自然度),以 MOS 为主:</li></ul>
MOS(Mean Opinion Scores),专家级评测(主观);1-5 分,5 分最好。
ABX,普通用户评测(主观)。让用户来视听两个 TTS 系统,进行对比,看哪个好
<ul><li>客观测试:</li></ul>
对声学参数进行评估,一般是计算欧式距离等(RMSE,LSD)。
对工程上的测试:实时率(合成耗时/语音时长),流式分首包、尾包,非流式不考察首包;首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU 占
用、3*24 小时 crash 率等。
四、对话系统
对话系统(Dialogue System),简单可以理解为 Siri 或各种 Chatbot 所能支持的聊天对话体验
<ul><li>用户任务达成率(表征产品功能是否有用以及功能覆盖度)</li></ul>
(1)比如智能客服,如果这个 Session 最终是以接入人工为结束的,那基本就说明机器的回答有问题。或者重复提供给用户相同答案等等。
(2)分专项或分意图的统计就更多了,不展开了。
<ul><li>对话交互效率</li></ul>
比如用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音输入的效率等(可能和打断,One-shot 等功能相关);具体定义,各个产品自己决定。
<ul><li>根据对话系统的类型分类,有些区别</li></ul>
(1)闲聊型
CPS(Conversations Per Session,平均单次对话轮数)。这算是微软小冰最早期提出的指标,并且是小冰内部的(唯一)最重要指标;
相关性和新颖性。与原话题要有一定的相关性,但又不能是非常相似的话;
话题终结者。如果机器说过这句话之后,通常用户都不会继续接了,那这句话就会给个负分
(2)任务型
留存率。虽然是传统的指标,但是能够发现用户有没有形成这样的使用习惯;留存的计算甚至可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接受程度较高,还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程;到后面积累的特征多了,评价机制建立起来了,就可以上强化学习;比如:之前百度高考,教考生填报志愿,就是这么弄的;
完成度(即,前文提过的“用户任务达成率”)。由于任务型最后总要去调一个接口或者触发什么东西来完成任务,所以可以计算多少人进入了这个对话单元,其中有多少人最后调了接口;
相关的,还有(每个任务)平均 slot 填入轮数或填充完整度。即,完成一个任务,平均需要多少轮,平均填写了百分之多少的槽位 slot。对于槽位的介绍,可详见《填槽与多轮对话 | AI 产品经理需要了解的 AI 技术概念》。
(3)问答型
最终求助人工的比例(即,前文提过的“用户任务达成率”相关);<br>重复问同样问题的比例;<br>“没答案”之类的比例。
<ul><li>语料自然度和人性化的程度</li></ul>
目前对于这类问题,一般是使用人工评估的方式进行。这里的语料,通常不是单个句子,而是分为单轮的问答对或多轮的一个 session。一般来讲,评分范围是 1~5 分:<br>1 分或 2 分:完全答非所问,以及含有不友好内容或不适合语音播报的特殊内容;<br>3 分:基本可用,问答逻辑正确;<br>4 分:能解决用户问题且足够精炼;<br>5 分:在 4 分基础上,能让人感受到情感及人设。<br>另外,为了消除主观偏差,采用多人标注、去掉极端值的方式,是当前普遍的做法。
五、整体用户数据指标
常规互联网产品,都会有整体的用户指标;AI 产品,一般也会有这个角度的考量。
1、DAU(Daily Active User,日活跃用户数,简称“日活”)<br>在特殊场景会有变化,比如在车载场景,会统计“DAU 占比(占车机 DAU 的比例)”。<br>2、被使用的意图丰富度(使用率>X%的意图个数)。<br>3、可尝试通过用户语音的情绪信息和语义的情绪分类评估满意度
0 条评论
下一页