ASR 句子清理規範 - CanCLID/sentences GitHub Wiki
簡單嚟講,所有嘅句子必須係「可讀嘅」。呢個「可讀」包含咗幾個層面嘅意思,首先係通順清晰冇語病,然後係適合做 ASR 語料。具體有下面幾個要求。
1 意義清晰冇語病
呢個係必需條件,句子一定要係清晰流暢且意義清晰。如果一句話九唔搭八,或者因為缺少上下文所以唔知喺度講咩嘅話,可以將佢改寫成通順易明嘅句子,或者直接清走。例如下面呢啲句子:
例句 | 説明 | 操作 |
---|---|---|
貿字到底算侯仲係豪啊 | 意義不明 | 刪 |
但係基本唔用咗 | 病句,似乎係普通話母語者學粵語嘅錯誤用法 | 改寫成 但係基本唔用嘞 |
2 唔可以有官話成分或者官粵夾雜
我哋嘅句子必須係純粵語句子,唔可以有粵語普通話/國語混雜或者書面語混雜嘅文本,否則會影響個語料庫數據質量。
例句 | 説明 | 操作 |
---|---|---|
好像挺嚴重嘅 | 「好像」同「挺」都係普通話 | 改寫成 好似幾嚴重嘅 |
又不關我事 | 「不」係普通話 | 改成 又唔關我事 |
似乎還夠用? | 「還」係普通話 | 改成 似乎都夠用? 或者 似乎仲夠用? |
不覺得好看啊 | 成句話係普通話 | 改成 我又唔覺得好睇噃 或者刪 |
3 句子必須【讀出後可理解】而唔係【文字交流型】句子
ASR 語料係為咗訓練模型學識「語音」到「文字」嘅轉換,呢度隱含咗一個前提,就係段語音係可以被人理解而轉換成文字嘅。而有一啲句子屬於「文字交流型」句子,佢哋承載嘅信息同文字符號本身相關,而呢啲信息係唔可能從語音中分辨出嚟嘅。例如下面呢幾個句子:
例句 | 説明 | 操作 |
---|---|---|
祇祗二字相通 | 句話讀出嚟係「zi2 zi2 二字相通」,正常人冇可能聽得出「zi2 zi2」係乜嘢嚟嘅 | 刪 |
你哋寫為字定爲字多? | 句話讀出嚟係「你哋寫 wai4 字定 wai4 字多」,冇人會聽得明個「wai4」係邊隻字 | 刪 |
支整定係姿整? | 句話讀出嚟係「zi1 整定係 zi1 整」,雖然明個意思但係冇可能判斷得出佢係邊隻字 | 刪 |
呢啲句子都有個共同點,就係「睇文字都睇得明,但係如果冇文字,齋讀出嚟畀你聽,你就估唔到佢講緊乜」。呢啲就係「文字交流型」句子,佢哋都係唔適合做 ASR 語料嘅句子,應該改寫或者鏟走。
4 檢查錯別字同用字錯誤
語音識別用嘅句子唔可以有錯別字或者用錯字,我哋都唔想語音輸入法會打一柞錯別字出嚟。
常見錯別字同用字標準,務必參考:粵文常見錯別字
注意,我哋對語氣詞用字有好嚴格嘅規定,務必按照呢度嘅標準修改:粵語語氣詞
下面係啲有錯別字嘅例句,都係應該留意同清洗嘅:
例句 | 説明 | 操作 |
---|---|---|
我覺得唔駛理佢嘅 | 「駛」係錯別字 | 改成 我覺得唔使理佢嘅 |
唔翻學嘅時候你都無上堂 | 「翻」「無」都唔啱用字標準 | 改成 唔返學嘅時候你都冇上堂 |
我屋企唔係果度 | 「係」同「果」都係錯別字 | 改成 我屋企唔喺嗰度 |
揾佢揾到我僕街 | 「僕」讀 buk6,應該係「仆」 | 改成 揾佢揾到我仆街 |
on9 仔唔好亂 up 嘢 | on9 同 up 都唔係標準粵文寫法 | 改成 戇鳩仔唔好亂噏嘢 |
主要錯字唔單只係指漢字,一啲常用嘅字母組合例如「on9」係要改成標準寫法「戇鳩」嘅。
5 唔可以有特殊符號、空格、emoji、多餘標點
語音識別數據庫需要保持聲音到文本對應嘅一致性,所以句子要保證「朗讀方式唯一」。特殊符號同空間係無法朗讀嘅,所以如果句子有多餘符號,就會導致句子可能無法朗讀。一般嚟講,句子只允許有逗號、句號、頓號,唔允許有書名號、專名號、引號等等其他符號。
例句 | 説明 | 操作 |
---|---|---|
我估得啩。。。。。 | 連續幾個句號 | 改成 我估得啩 |
《集韻》本書 | 唔可以有書名號 | 改成 集韻本書 |
因為我學廣州話 先得兩日 | 唔可以有空格 | 改成 因為我學廣州話先得兩日 |
6 清除「有多種朗讀方式」嘅阿拉伯數字同英文單詞或者縮寫
同上面一點類似,語音識別數據庫必須保證朗讀方式唯一。阿拉伯數字例如「2049」可以讀成「二零四九」又可以讀成「兩千零四十九」會導致多種朗讀方式,應該將佢哋嘅讀作形式直接寫出嚟。同樣,一啲字母同數字組合嘅短語例如「3D 打印」都要清埋,因為既讀成「saam1 di1 daa2 jan3」,又可以讀成「three di1 daa2 jan3」。
注意,有啲英文嘅讀法係唯一嘅,譬如 WiFi,粵語只能夠讀 waai1 faai1,所以可以保留。
例句 | 説明 | 操作 |
---|---|---|
本書係 2004 年出版嘅 | 2004 既可以讀成「二零零四」又可以讀成「二千零四」 | 改成 本書係二零零四年出版嘅 |
NASA 發佈會 | NASA 既可以讀成「naa1 saa4」又可以讀成「en1 ei1 e1 si4 ei1」 | 刪 |
😂 噉都得 | 😂 係 emoji | 改成 噉都得 |
E3 遊戲展 | 句話可以讀成「ji1 saam1 jau4 hei3 zin2」或者「ji1 three jau4 hei2 zin2」 | 刪 |
NBA 賽季 | NBA 讀法唯一,得 en1 bi1 ei1 | 保留 |
蘋果啱先發佈咗新 iPhone | iPhone 讀法唯一,得 aai1 fung1 | 保留 |
7 留意句子內容
要注意句子唔可以含有敏感、冒犯性內容,亦都唔可以粗口。
例句 | 説明 | 操作 |
---|---|---|
啲非洲黑鬼都係廢青嚟嘅 | 敏感、冒犯言論 | 刪 |
信閪基督咩 | 敏感、冒犯言論 | 刪 |
阿勝啲精從阿瑩個閪度慢慢咁流咗出嚟 | 鹹濕內容 | 刪 |
點解你咁閪煩㗎 | 粗口 | 改成 點解你咁鬼煩㗎 |
我點撚知你去邊度啫? | 粗口 | 改成 我點知你去邊度啫? |