使用说明 | ASR 效果指标 - TencentCloudAIGroup/aistudio GitHub Wiki
ASR 识别效果,业界通常使用两个指标来衡量:WER、字正确率
一、指标:WER
在学术界,通常使用 WER 来衡量 ASR 系统的识别效果。
WER(Word Error Rate),即词错误率。因为英文语句中最小单位是词(Word),而中文最小单位是汉字(Character),因此在中文语音识别任务中,使用字错率(Character Error Rate, CER)来衡量 ASR 识别效果。
两者的计算方式相同,我们通常在中文领域,也会使用 WER 表示该指标。
WER 计算公式如下
#Deletions:删除错误字符数
#Insertions:插入错误字符数
#Substitutions:替换错误字符数
#ReferenceWords:总字符数
其中分母上的值,分别代表了三类错误的字符数。
删除错误
语音转录文本过程中,原文中本来包含的文字,ASR 没有识别出来。例子:
语音“你吃了吗”,识别成“你吃了”,其中的“吗”字没有识别出来。
插入错误
语音转录文本过程中,原文中未包含的文字,比如噪音什么的,被 ASR 误识别成文字了。例如:
语音“你吃了吗”,识别成“你吃了吗呀”,其中“呀”字是误识别出的。
替换错误
语音转录文本过程中,原文中包含的文字,被 ASR 错误识别成了其他的文字。例如:
语音“你吃了吗”,识别成“你吃了么”,其中“吗”字识别错了,变成了“么”字。
综上,WER 指的是,通过 ASR 识别出的结果文本中,包含的各类错误(删除、插入、替换)的字符数,与标注文本总数相比,所占的比例值。
二、指标:字正确率
与学术界不同,由于产业界适用场景的差异,通常采用另一个更贴合业务使用的指标来衡量,这就是字准确率。
字正确率(Word Correct,W.Corr),通常也称为识别正确率、字准率等。是识别正确的字符数与标注文本总数相比,所占的比例值。
与 WER 不同,字正确率在计算中忽略了插入错误字符数,也就是没有把插入错误纳入错误统计当中。
因为在实际系统中,上游 ASR 的识别结果,会被下游任务分析模块进一步处理,插入错误的文本会在这个环节被处理掉,所以只需考察语音中本来包含的文本,被正确识别出的比例即可,也就是字正确率。
业界厂商通常也把字正确率,与 WER 一起提供,用于衡量 ASR 识别效果。
三、指标示例
下面,是 AI Studio 一个 ASR 评测任务的评测结果:
其中,字准率即为字正确率,WER 为字错误率,报告同时列出了 插入/删除/替换三类错误 分别所占比例。
为了便于进一步针对用户测试集的识别效果进行分析,AI Studio 提供识别结果文件、详细报告的下载。
详细报告示例: