なぜBasicCleaner2なの? - akjava/Matcha-TTS-Japanese GitHub Wiki

まとめると、日本語の音素表記には大文字が必要で、デフォルトでは小文字に変換されるから

デフォルトはenglish cleaner2

もれなく英語に変換するやつです。

basic_cleanersがだめな理由

これは、大文字小文字に変えるので使えません。

def basic_cleaners(text):
    """Basic pipeline that lowercases and collapses whitespace without transliteration."""
    text = lowercase(text)
    text = collapse_whitespace(text)
    return text

openjtalk(mecab?)のg2pは弱母音という、強く発音しない母音を大文字で表記します。AIUEO

所です。 - tokorodesU.
できますか。- dekimasUka.

実際には、この違い程度対して差が出ない場合もある。

basic_cleaners2

複数の空白が続く文字を一つの空白にするだけです。

def basic_cleaners2(text):
    """Basic pipeline that lowercases and collapses whitespace without transliteration."""
    #text = lowercase(text) #some japanese need uppercase
    text = collapse_whitespace(text)
    return text
# Regular expression matching whitespace:
_whitespace_re = re.compile(r"\s+")

def collapse_whitespace(text):
    return re.sub(_whitespace_re, " ", text)