使用方法(中文) - xunmengshe/OpenUtau GitHub Wiki

声明

  • OpenUtau for Diffsinger是第三方基于OpenUtau框架,为DiffSinger歌声合成引擎开发的编辑器,与DiffSinger与OpenUtau开发团队均无关系
  • 请遵守本仓库与其他开源代码的开源协议
  • 请确保你使用的数据来源合法合规,且数据提供者明确你在制作什么以及可能造成的后果
  • 本项目为歌声合成项目,无法用于其他用途,如语音合成、人声转换等

注意事项

  • 以下内容适用于Diffsinger no-midi模式,基于DiffSinger(OpenVPI维护版)训练的音源。
  • 在使用过程中遇到了任何Bug,都可以向我反馈。在反馈时,建议提供发生 bug 时的 OpenUtau 窗口完整截图、工程文件,以及 OpenUtau 日志文件。

使用方法

  1. 下载OpenUTAU for Diffsinger,根据你使用的操作系统选择合适的软件包
    • Windows请下载OpenUtau-win-<版本号>-DiffsingerPack.zip,解压,运行openutau.exe。DiffsingerPack已经内置了声码器,无需手动安装
    • Mac请下载OpenUtau-osx-<版本号>.zip,运行。然后下载声码器,拖入OpenUtau窗口安装。
  2. 下载音源,拖入OpenUTAU窗口安装。可以在这里找到现有公开音源。
    • 安装音源时,如果需要选择音源类型,请选择“diffsinger”
  3. 在音轨左侧的歌手菜单的“Diffsinger”分类中找到你安装的歌手,选择。
  4. 歌词支持汉字或拼音输入,连音符为加号+,呼吸音为AP

更详细的操作说明,可以参考OpenUtau中文文档

说明

  • OpenUTAU默认开启自动预渲染,即你每进行一笔编辑,都会立即渲染音频并缓存。如果OpenUTAU卡顿,可在“工具→使用偏好→渲染”中关闭自动预渲染。
  • Diffsinger相关设置可在“工具→使用偏好→渲染”中编辑:
    • 渲染步数:默认为20步。升高渲染步数可提高音质,但会使合成速度变慢。
    • DirectML渲染(非必须):在Windows系统上,如果有NVIDIA或AMD独显,可使用DirectML,渲染速度更快。如需使用DirectML,请将“机器学习运行器”设置为directml,GPU选择你的独显,然后重新启动OpenUTAU

参数

Diffsinger支持以下参数

  • 音高曲线
  • DYN(音量曲线)
  • GENC(性别,需音源支持,默认可调范围±100相当于∓12半音,正方向为男声(共振峰降低))
  • VELC(发音速度曲线,需音源支持。增大此参数会使韵母开头和结尾的速度加快。100为原速,每增大100相当于速度x2,默认可调范围0~200相当于0.5~2倍速)
  • ENE(能量曲线,需音源支持。相对值,默认可调范围±100相当于±12dB)
  • BREC(气声曲线,需音源支持。相对值,默认可调范围±100相当于±12dB)

VELC和ENE默认不包含于新建工程中,可点击钢琴窗左下角的齿轮图标,点击“获取渲染器建议的表情”将其添加到工程中。

参数的可调范围也可在此菜单中设置:

image

自动音高

如果音源支持自动音高,可在钢琴窗点击“批量编辑→音符→加载已渲染的音高”以获取自动音高。可以选中一部分音符,为其所属乐句加载自动音高。

注意:取决于你的设备性能,需要等待数十秒以生成自动音高。

音素器

音素器是OpenUTAU中,将音符转化为音素,并指定音素时长的组件。绝大多数情况下,用户不需要手动选择音素器,OpenUtau会自动根据音源选择合适的音素器。

目前OpenUTAU for Diffsinger包含以下用于Diffsinger的音素器:

Diffsinger variance音素模型

这些音素器基于DiffSinger variance时长模型。目前大部分的DiffSinger使用该模型。不同音素器支持的语言不同,请根据音源支持的语言和歌曲语言进行选择。具体使用方法参见音素器说明

  • DIFFS 位于General分类
  • DIFFS ZH 汉语普通话
  • DIFFS ZH-YUE 粤语
  • DIFFS JA 日语
  • DIFFS EN 英语
  • DIFFS ES 西班牙语
  • DIFFS IT 意大利语
  • DIFFS KO 韩语
  • DIFFS PT 葡萄牙语
  • DIFFS RU 俄语

其他音素器

一些较早期开发的DiffSinger音源可能会使用以下音素器。

  • DIFFS RHY 位于ZH分类,基于 Diffsinger rhythmizer音素模型。使用前请先下载模型,拖入OpenUtau窗口安装。
  • ENUNU X 位于General分类,基于NNSVS音素模型。适用于ENUNU支持的各种自定义语言。使用方法
  • ENUNU X EN 位于EN分类,基于NNSVS音素模型。适用于使用CMUDict的英文音源。使用方法

常见问题

DiffSinger和Diff-SVC是什么关系?能否在DiffSinger上使用Diff-SVC模型?

尽管名称相似,DiffSinger和Diff-SVC没有关系。DiffSinger是歌声合成软件,输入乐谱和歌词,输出歌声。Diff-SVC是人声转换软件,即变声器,用于将一个人的声音转换为另一个人的音色。两者的训练与使用方法也不同。两者名称相似的原因是它们都基于扩散模型(Diffusion model)。

DiffSinger不支持Diff-SVC模型,需要使用原始歌声数据另行训练DiffSinger模型。

手动输入音符太麻烦了,如何查找适合于OpenUtau的现有工程?

工程文件可以在以下网站查找:

  • https://www.vsqx.top/ (多种歌声合成软件的工程文件分享站)
  • http://midishow.com/ (midi文件分享网站)
  • 在搜索引擎或视频网站上搜索“歌曲名+svp”,“歌曲名+vsqx”,“歌曲名+midi”

我个人查找工程文件的优先级为:ustx > svip = svp > vsqx > ust > mid。这些格式可通过以下方式导入OpenUtau:

格式 导入方式
ustx 直接拖入
svip、svp 使用OpenSvip转换为ustx
vsqx、ust 直接拖入。注意:下载时请挑选无参工程。因为有参工程可能有拆音,无法在OpenUtau上使用。
mid 直接拖入。注意:在下载前请先试听文件并查看各音轨音符数量,以检查是否存在歌声音轨。一般歌声音轨的音符数量在100~1000之间。可优先选择标注了“调教用”的mid文件。mid文件一般不包含歌词,需要手动输入歌词。

注意:在找到工程之后,请务必从头到尾听一遍,检查是否有音符与歌词错误,包括汉字转拼音错误。

找不到声码器NsfHiFiGAN(Error loading vocoder NsfHiFiGAN)

如果提示“Error loading vocoder NsfHiFiGAN”,大小写混合的NsfHiFiGAN,一般是由于将训练用的config作为dsconfig.yaml。请注意:dsconfig.yaml不是训练用的config,请按照上述“音源打包-dsconfig.yaml的内容”来编写dsconfig.yaml。

如何获取自动音高

如果你使用的DiffSinger音源包含了自动音高模型,则可通过“音符→加载已渲染的音高”获取。

为什么默认使用CPU渲染?

DirectML在核显上运行时,可能会导致渲染卡死。

这个项目的未来是怎样的?

目前DiffSinger渲染器已经合并到OpenUtau官方主线。本仓库将继续存在,用于发布DiffsingerPack(内置了音素器的软件包),以及测试不成熟的新功能。

相关链接

Diffsinger(OpenVPI维护版)

OpenUtau(官方仓库)

⚠️ **GitHub.com Fallback** ⚠️