matcha‐tts 推論 - akjava/Matcha-TTS-Japanese GitHub Wiki

matcha-tts Japanese 推論の使い方詳細

いくつかargが追加されていますが、オリジナルmatcha-ttsとほぼ同じです。

元のようにnupyや画像を出力したい場合は、save_extraを追加してください。

model

学習済みの準備されたモデルを使用して、TTSするさいに使います。モデル名のcheckpointは自動でダウンロードされます。(ljspeechとvctk(109スピーカ)があります。

checkpoint_path

訓練したcheckpointを使うには、こちらを指定します。

vocoder

使用するボコーダー・英語だとhifigan_T2_v1、それ以外は、hifigan_univ_v1。ただし、英語でもhifigan_univ_v1の方が自然に聞こえることもあります

text

発話させるテキストを入力します。Matcha-TTS-Japaneseではデフォルがbasic_cleaner2なので、(そのうちcleanerを指定出来るようにします)

音はしないを発話させたい場合となります。最後に.をつけるかどうかは訓練データー次第です。(基本私のデーターはつけてます)

--text otowashinai.

file

テキストをファイルで複数指定することが可能です。通常batchと共に使います。

aiueo.
aa,ii,uu,ee,oo
babibubebo.

spk

発話させる、スピーカーの番号・シングルスピーカーの時は不要

最大番号を取る方法はありませんが（エラー時には出る)。作成時に指定した数を指定可能です:私はよく100(0-99)で作っています。MatchaのVCTKの最大は109です。

temperature

バリエーション・固定にしたいなら、0・いろいろ試したいなら1.0・そのバランスを考えて指定します。

speaking_rate

再生速度・2.0は2倍速ではなく、2倍時間かけて、遅く話すことになります。

steps

ODE Steps・大きな数字だとよくなるはずですが、下げたら少しmsスピードが上がって悪くなったのは確認できましたが、よくなったのは感じませんでした。

cpu

cpuで推論するかどうか？

denoiser_strength

ノイズが消えるらしい。これも、今のところ効果は感じたことありません。これとは別にrnnoiseを試したことがありますが、シャーというノイズは消えました。代わりに若干こもりました。

output_folde

出力先のフォルダー - batchだｔフォルダーが作られる？

batched

Batchでまとめて音声を作成するか?Batch-size文のGPUメモリが大量に必要になります。

batch_size

デフォルトの32は16GBメモリ用。8GBは16ぐらいが限界(文字の長さにもよる)

mel_mean

追加した引数 - melのmeanを指定可能に

使い道ですが、multispeakerで、個々の音源を計測したらまったく別の値が出た場合、その値を指定したら、音質がよくなる可能性がある。

たいして、音が悪いのは学習結果が原因なので、それほど音質は改善は期待できない。音量だけは、うまく合わせると改善可能

mel_std

追加した引数 - melのstdを指定可能に

save_extra

numpyや画像の出力は使っていないので、デフォルトでoffにしました。オリジナル同様のonにするには、これを追加してください

Helpメッセージ全文

usage: matcha-tts [-h] [--model {matcha_ljspeech,matcha_vctk}] [--checkpoint_path CHECKPOINT_PATH]
                  [--vocoder {hifigan_T2_v1,hifigan_univ_v1}] [--text TEXT] [--file FILE] [--spk SPK]
                  [--temperature TEMPERATURE] [--speaking_rate SPEAKING_RATE] [--steps STEPS] [--cpu]
                  [--denoiser_strength DENOISER_STRENGTH] [--output_folder OUTPUT_FOLDER] [--batched]
                  [--batch_size BATCH_SIZE] [--mel_mean MEL_MEAN] [--mel_std MEL_STD] [--save_extra]

🍵 Matcha-TTS: A fast TTS architecture with conditional flow matching

options:
  -h, --help            show this help message and exit
  --model {matcha_ljspeech,matcha_vctk}
                        Model to use
  --checkpoint_path CHECKPOINT_PATH
                        Path to the custom model checkpoint
  --vocoder {hifigan_T2_v1,hifigan_univ_v1}
                        Vocoder to use (default: will use the one suggested with the pretrained model))
  --text TEXT           Text to synthesize
  --file FILE           Text file to synthesize
  --spk SPK             Speaker ID
  --temperature TEMPERATURE
                        Variance of the x0 noise (default: 0.667)
  --speaking_rate SPEAKING_RATE
                        change the speaking rate, a higher value means slower speaking rate (default: 1.0)
  --steps STEPS         Number of ODE steps (default: 10)
  --cpu                 Use CPU for inference (default: use GPU if available)
  --denoiser_strength DENOISER_STRENGTH
                        Strength of the vocoder bias denoiser (default: 0.00025)
  --output_folder OUTPUT_FOLDER
                        Output folder to save results (default: current dir)
  --batched             Batched inference (default: False)
  --batch_size BATCH_SIZE
                        Batch size only useful when --batched (default: 32)
  --mel_mean MEL_MEAN   specific mel mean
  --mel_std MEL_STD     specific mel std
  --save_extra          save image and numpy