ASR 句子清理規範 - CanCLID/sentences GitHub Wiki

簡單嚟講,所有嘅句子必須係「可讀嘅」。呢個「可讀」包含咗幾個層面嘅意思,首先係通順清晰冇語病,然後係適合做 ASR 語料。具體有下面幾個要求。

1 意義清晰冇語病

呢個係必需條件,句子一定要係清晰流暢且意義清晰。如果一句話九唔搭八,或者因為缺少上下文所以唔知喺度講咩嘅話,可以將佢改寫成通順易明嘅句子,或者直接清走。例如下面呢啲句子:

例句 説明 操作
貿字到底算侯仲係豪啊 意義不明
但係基本唔用咗 病句,似乎係普通話母語者學粵語嘅錯誤用法 改寫成 但係基本唔用嘞

2 唔可以有官話成分或者官粵夾雜

我哋嘅句子必須係純粵語句子,唔可以有粵語普通話/國語混雜或者書面語混雜嘅文本,否則會影響個語料庫數據質量。

例句 説明 操作
好像挺嚴重嘅 「好像」同「挺」都係普通話 改寫成 好似幾嚴重嘅
又不關我事 「不」係普通話 改成 又唔關我事
似乎還夠用? 「還」係普通話 改成 似乎都夠用? 或者 似乎仲夠用?
不覺得好看啊 成句話係普通話 改成 我又唔覺得好睇噃 或者刪

3 句子必須【讀出後可理解】而唔係【文字交流型】句子

ASR 語料係為咗訓練模型學識「語音」到「文字」嘅轉換,呢度隱含咗一個前提,就係段語音係可以被人理解而轉換成文字嘅。而有一啲句子屬於「文字交流型」句子,佢哋承載嘅信息同文字符號本身相關,而呢啲信息係唔可能從語音中分辨出嚟嘅。例如下面呢幾個句子:

例句 説明 操作
祇祗二字相通 句話讀出嚟係「zi2 zi2 二字相通」,正常人冇可能聽得出「zi2 zi2」係乜嘢嚟嘅
你哋寫為字定爲字多? 句話讀出嚟係「你哋寫 wai4 字定 wai4 字多」,冇人會聽得明個「wai4」係邊隻字
支整定係姿整? 句話讀出嚟係「zi1 整定係 zi1 整」,雖然明個意思但係冇可能判斷得出佢係邊隻字

呢啲句子都有個共同點,就係「睇文字都睇得明,但係如果冇文字,齋讀出嚟畀你聽,你就估唔到佢講緊乜」。呢啲就係「文字交流型」句子,佢哋都係唔適合做 ASR 語料嘅句子,應該改寫或者鏟走。

4 檢查錯別字同用字錯誤

語音識別用嘅句子唔可以有錯別字或者用錯字,我哋都唔想語音輸入法會打一柞錯別字出嚟。

常見錯別字同用字標準,務必參考:粵文常見錯別字

注意,我哋對語氣詞用字有好嚴格嘅規定,務必按照呢度嘅標準修改:粵語語氣詞

下面係啲有錯別字嘅例句,都係應該留意同清洗嘅:

例句 説明 操作
我覺得唔駛理佢嘅 「駛」係錯別字 改成 我覺得唔使理佢嘅
唔翻學嘅時候你都無上堂 「翻」「無」都唔啱用字標準 改成 唔返學嘅時候你都冇上堂
我屋企唔係果度 「係」同「果」都係錯別字 改成 我屋企唔喺嗰度
揾佢揾到我僕街 「僕」讀 buk6,應該係「仆」 改成 揾佢揾到我仆街
on9 仔唔好亂 up 嘢 on9up 都唔係標準粵文寫法 改成 戇鳩仔唔好亂噏嘢

主要錯字唔單只係指漢字,一啲常用嘅字母組合例如「on9」係要改成標準寫法「戇鳩」嘅。

5 唔可以有特殊符號、空格、emoji、多餘標點

語音識別數據庫需要保持聲音到文本對應嘅一致性,所以句子要保證「朗讀方式唯一」。特殊符號同空間係無法朗讀嘅,所以如果句子有多餘符號,就會導致句子可能無法朗讀。一般嚟講,句子只允許有逗號、句號、頓號,唔允許有書名號、專名號、引號等等其他符號

例句 説明 操作
我估得啩。。。。。 連續幾個句號 改成 我估得啩
《集韻》本書 唔可以有書名號 改成 集韻本書
因為我學廣州話 先得兩日 唔可以有空格 改成 因為我學廣州話先得兩日

6 清除「有多種朗讀方式」嘅阿拉伯數字同英文單詞或者縮寫

同上面一點類似,語音識別數據庫必須保證朗讀方式唯一。阿拉伯數字例如「2049」可以讀成「二零四九」又可以讀成「兩千零四十九」會導致多種朗讀方式,應該將佢哋嘅讀作形式直接寫出嚟。同樣,一啲字母同數字組合嘅短語例如「3D 打印」都要清埋,因為既讀成「saam1 di1 daa2 jan3」,又可以讀成「three di1 daa2 jan3」。

注意,有啲英文嘅讀法係唯一嘅,譬如 WiFi,粵語只能夠讀 waai1 faai1,所以可以保留。

例句 説明 操作
本書係 2004 年出版嘅 2004 既可以讀成「二零零四」又可以讀成「二千零四」 改成 本書係二零零四年出版嘅
NASA 發佈會 NASA 既可以讀成「naa1 saa4」又可以讀成「en1 ei1 e1 si4 ei1」
😂 噉都得 😂 係 emoji 改成 噉都得
E3 遊戲展 句話可以讀成「ji1 saam1 jau4 hei3 zin2」或者「ji1 three jau4 hei2 zin2」
NBA 賽季 NBA 讀法唯一,得 en1 bi1 ei1 保留
蘋果啱先發佈咗新 iPhone iPhone 讀法唯一,得 aai1 fung1 保留

7 留意句子內容

要注意句子唔可以含有敏感、冒犯性內容,亦都唔可以粗口。

例句 説明 操作
啲非洲黑鬼都係廢青嚟嘅 敏感、冒犯言論
信閪基督咩 敏感、冒犯言論
阿勝啲精從阿瑩個閪度慢慢咁流咗出嚟 鹹濕內容
點解你咁閪煩㗎 粗口 改成 點解你咁鬼煩㗎
我點撚知你去邊度啫? 粗口 改成 我點知你去邊度啫?