matcha‐tts 推論 - akjava/Matcha-TTS-Japanese GitHub Wiki
matcha-tts Japanese 推論の使い方詳細
いくつかargが追加されていますが、オリジナルmatcha-ttsとほぼ同じです。
元のようにnupyや画像を出力したい場合は、save_extraを追加してください。
model
学習済みの準備されたモデルを使用して、TTSするさいに使います。モデル名のcheckpointは自動でダウンロードされます。(ljspeechとvctk(109スピーカ)があります。
checkpoint_path
訓練したcheckpointを使うには、こちらを指定します。
vocoder
使用するボコーダー・ 英語だとhifigan_T2_v1、それ以外は、hifigan_univ_v1。ただし、英語でもhifigan_univ_v1の方が自然に聞こえることもあります
text
発話させるテキストを入力します。Matcha-TTS-Japaneseではデフォルがbasic_cleaner2なので、(そのうちcleanerを指定出来るようにします)
音はしないを発話させたい場合となります。 最後に.をつけるかどうかは訓練データー次第です。(基本私のデーターはつけてます)
--text otowashinai.
file
テキストをファイルで複数指定することが可能です。通常batchと共に使います。
aiueo.
aa,ii,uu,ee,oo
babibubebo.
spk
発話させる、スピーカーの番号・ シングルスピーカーの時は不要
最大番号を取る方法はありませんが(エラー時には出る)。作成時に指定した数を指定可能です:私はよく100(0-99)で作っています。MatchaのVCTKの最大は109です。
temperature
バリエーション・固定にしたいなら、0・いろいろ試したいなら1.0・そのバランスを考えて指定します。
speaking_rate
再生速度・2.0は2倍速ではなく、2倍時間かけて、遅く話すことになります。
steps
ODE Steps・大きな数字だとよくなるはずですが、下げたら少しmsスピードが上がって悪くなったのは確認できましたが、よくなったのは感じませんでした。
cpu
cpuで推論するかどうか?
denoiser_strength
ノイズが消えるらしい。これも、今のところ効果は感じたことありません。これとは別にrnnoiseを試したことがありますが、シャーというノイズは消えました。代わりに若干こもりました。
output_folde
出力先のフォルダー - batchだtフォルダーが作られる?
batched
Batchでまとめて音声を作成するか?Batch-size文のGPUメモリが大量に必要になります。
batch_size
デフォルトの32は16GBメモリ用。8GBは16ぐらいが限界(文字の長さにもよる)
mel_mean
追加した引数 - melのmeanを指定可能に
使い道ですが、multispeakerで、個々の音源を計測したらまったく別の値が出た場合、その値を指定したら、音質がよくなる可能性がある。
たいして、音が悪いのは学習結果が原因なので、それほど音質は改善は期待できない。音量だけは、うまく合わせると改善可能
mel_std
追加した引数 - melのstdを指定可能に
save_extra
numpyや画像の出力は使っていないので、デフォルトでoffにしました。 オリジナル同様のonにするには、これを追加してください
Helpメッセージ全文
usage: matcha-tts [-h] [--model {matcha_ljspeech,matcha_vctk}] [--checkpoint_path CHECKPOINT_PATH]
[--vocoder {hifigan_T2_v1,hifigan_univ_v1}] [--text TEXT] [--file FILE] [--spk SPK]
[--temperature TEMPERATURE] [--speaking_rate SPEAKING_RATE] [--steps STEPS] [--cpu]
[--denoiser_strength DENOISER_STRENGTH] [--output_folder OUTPUT_FOLDER] [--batched]
[--batch_size BATCH_SIZE] [--mel_mean MEL_MEAN] [--mel_std MEL_STD] [--save_extra]
🍵 Matcha-TTS: A fast TTS architecture with conditional flow matching
options:
-h, --help show this help message and exit
--model {matcha_ljspeech,matcha_vctk}
Model to use
--checkpoint_path CHECKPOINT_PATH
Path to the custom model checkpoint
--vocoder {hifigan_T2_v1,hifigan_univ_v1}
Vocoder to use (default: will use the one suggested with the pretrained model))
--text TEXT Text to synthesize
--file FILE Text file to synthesize
--spk SPK Speaker ID
--temperature TEMPERATURE
Variance of the x0 noise (default: 0.667)
--speaking_rate SPEAKING_RATE
change the speaking rate, a higher value means slower speaking rate (default: 1.0)
--steps STEPS Number of ODE steps (default: 10)
--cpu Use CPU for inference (default: use GPU if available)
--denoiser_strength DENOISER_STRENGTH
Strength of the vocoder bias denoiser (default: 0.00025)
--output_folder OUTPUT_FOLDER
Output folder to save results (default: current dir)
--batched Batched inference (default: False)
--batch_size BATCH_SIZE
Batch size only useful when --batched (default: 32)
--mel_mean MEL_MEAN specific mel mean
--mel_std MEL_STD specific mel std
--save_extra save image and numpy