使用说明 | ASR 测试集制作 - TencentCloudAIGroup/aistudio GitHub Wiki
ASR 测试集,包含两部分内容:音频文件,以及与之对应的标注文本文件
一、测试集模板
测试集模板可通过如下链接下载(提供中英文模板)
打开模板,可以看到
该测试集包含 5 个测试样例,共计 6 个文件
音频文件:sample_01.wav 到 sample_05.wav
标注文件:result.txt
其中标注文件 result.txt 中包含每个音频对应的语音内容。
二、音频文件
音频文件,即为用户业务侧使用的音频。
为使评测报告为精确地反映用户业务环境的效果,建议尽量选择_线上实际的音频数据_。
关于音频本身,需要满足如下要求
音频信息 | 要求 |
---|---|
格式 | 支持 wav 格式 |
采样率 | 支持 16k/8k 两种采样率 |
声道 | 支持单声道 |
位深 | 支持 16 bit 位深 |
用户可以使用常用音频处理软件查看音频相关元信息,如 FFmpeg, Adobe Audition 等,在 Linux 系统中,用户也可以使用 file 命令查看
注:其中 mono 即为单声道。
若音频不满足要求,建议通过 FFmpeg 开源工具,对音频进行转码等处理。参见:Download FFmpeg
三、标注文件
标注数据,即通过人工的方式,将音频中实际包含的语音内容,按照特定格式,标注到文本文件中。
ASR 效果指标(例如 WER、字正确率等),就是通过对比 ASR 识别结果和标注数据,找到其中的各类错误(替换/插入/删除)所占的比例,计算得出的百分比。
可见,标注数据是否准确,直接关系到 ASR 效果指标的准确性。
下面我们看下,标注数据的格式是什么样的,以及在标注过程中需要的注意事项。
3.1 标注文件
通过上面模板可见,标注数据是一个文本文件,包含多行数据。
每行包含两部分:音频文件名、音频文件对应的文本内容,中间用空格分开(空格数不限制)
文件要求如下:
文件信息 | 要求 |
---|---|
格式 | .txt |
编码 | utf-8编码 |
文件名 | 必须为 result.txt |
3.2 标注文本
标注文本,即通过人工听的方式,将业务音频中包含的人声发音内容,记录到标注文件中。
标注过程需注意以下事项:
- 文本需要以空格分开,中文按照字符分割,英文按照单词分割
- 文本不包含标点符号,仅保留发音文字内容
- 数字,需要标识为中文大写形式,例如文本“小明考了98分”,需要标注为“小明考了九十八分”
- 发音不完整,比如某个字发音发了一半,但没有完全发出来,需要把没完全发音的字写出来
- 笑声,如果发出笑声哈哈哈,有几个哈声就转写几个哈
- 语气词,如呀、啊等,需要原样录入,不可以删除
- 重复词,语需要如实转写,例如“我的我的作业没交”
- 儿化音需要把“儿”字写出来
- 脏话需如实转写
- 音频中出现 ta 时,需要根据语境标注对应的 ta(他、她、它);如果不能分辨,统一用“他”
附录
- 中文16k测试集模板:https://iai-frontend-static-1258344699.cos.ap-guangzhou.myqcloud.com/custom_corpus_16k_zh.zip
- 中文8k测试集模板:https://iai-frontend-static-1258344699.cos.ap-guangzhou.myqcloud.com/custom_corpus_8k_zh.zip
- 英文16k测试集模板:https://iai-frontend-static-1258344699.cos.ap-guangzhou.myqcloud.com/custom_corpus_16k_en.zip
- 英文8k测试集模板:https://iai-frontend-static-1258344699.cos.ap-guangzhou.myqcloud.com/custom_corpus_8k_en.zip