なぜBasicCleaner2なの? - akjava/Matcha-TTS-Japanese GitHub Wiki
まとめると、日本語の音素表記には大文字が必要で、デフォルトでは小文字に変換されるから
デフォルトはenglish cleaner2
もれなく英語に変換するやつです。
basic_cleanersがだめな理由
これは、大文字を小文字に変えるので使えません。
def basic_cleaners(text):
"""Basic pipeline that lowercases and collapses whitespace without transliteration."""
text = lowercase(text)
text = collapse_whitespace(text)
return text
openjtalk(mecab?)のg2pは弱母音という、強く発音しない母音を大文字で表記します。AIUEO
例
所です。 - tokorodesU.
できますか。- dekimasUka.
実際には、この違い程度対して差が出ない場合もある。
basic_cleaners2
複数の空白が続く文字を一つの空白にするだけです。
def basic_cleaners2(text):
"""Basic pipeline that lowercases and collapses whitespace without transliteration."""
#text = lowercase(text) #some japanese need uppercase
text = collapse_whitespace(text)
return text
# Regular expression matching whitespace:
_whitespace_re = re.compile(r"\s+")
def collapse_whitespace(text):
return re.sub(_whitespace_re, " ", text)