使用方法（中文） - xunmengshe/OpenUtau GitHub Wiki

声明

OpenUtau for Diffsinger是第三方基于OpenUtau框架，为DiffSinger歌声合成引擎开发的编辑器，与DiffSinger与OpenUtau开发团队均无关系
请遵守本仓库与其他开源代码的开源协议
请确保你使用的数据来源合法合规，且数据提供者明确你在制作什么以及可能造成的后果
本项目为歌声合成项目，无法用于其他用途，如语音合成、人声转换等

注意事项

以下内容适用于Diffsinger no-midi模式，基于DiffSinger（OpenVPI维护版）训练的音源。
在使用过程中遇到了任何Bug，都可以向我反馈。在反馈时，建议提供发生 bug 时的 OpenUtau 窗口完整截图、工程文件，以及 OpenUtau 日志文件。

使用方法

下载OpenUTAU for Diffsinger，根据你使用的操作系统选择合适的软件包
- Windows请下载OpenUtau-win-<版本号>-DiffsingerPack.zip，解压，运行openutau.exe。DiffsingerPack已经内置了声码器，无需手动安装
- Mac请下载OpenUtau-osx-<版本号>.zip，运行。然后下载声码器，拖入OpenUtau窗口安装。
下载音源，拖入OpenUTAU窗口安装。可以在这里找到现有公开音源。
- 安装音源时，如果需要选择音源类型，请选择“diffsinger”
在音轨左侧的歌手菜单的“Diffsinger”分类中找到你安装的歌手，选择。
歌词支持汉字或拼音输入，连音符为加号+，呼吸音为AP。

更详细的操作说明，可以参考OpenUtau中文文档

说明

OpenUTAU默认开启自动预渲染，即你每进行一笔编辑，都会立即渲染音频并缓存。如果OpenUTAU卡顿，可在“工具→使用偏好→渲染”中关闭自动预渲染。
Diffsinger相关设置可在“工具→使用偏好→渲染”中编辑：
- 渲染步数：默认为20步。升高渲染步数可提高音质，但会使合成速度变慢。
- DirectML渲染（非必须）：在Windows系统上，如果有NVIDIA或AMD独显，可使用DirectML，渲染速度更快。如需使用DirectML，请将“机器学习运行器”设置为directml，GPU选择你的独显，然后重新启动OpenUTAU。

参数

Diffsinger支持以下参数

音高曲线
DYN（音量曲线）
GENC（性别，需音源支持，默认可调范围±100相当于∓12半音，正方向为男声（共振峰降低））
VELC（发音速度曲线，需音源支持。增大此参数会使韵母开头和结尾的速度加快。100为原速，每增大100相当于速度x2，默认可调范围0~200相当于0.5~2倍速）
ENE（能量曲线，需音源支持。相对值，默认可调范围±100相当于±12dB）
BREC（气声曲线，需音源支持。相对值，默认可调范围±100相当于±12dB）

VELC和ENE默认不包含于新建工程中，可点击钢琴窗左下角的齿轮图标，点击“获取渲染器建议的表情”将其添加到工程中。

参数的可调范围也可在此菜单中设置：

自动音高

如果音源支持自动音高，可在钢琴窗点击“批量编辑→音符→加载已渲染的音高”以获取自动音高。可以选中一部分音符，为其所属乐句加载自动音高。

注意：取决于你的设备性能，需要等待数十秒以生成自动音高。

音素器

音素器是OpenUTAU中，将音符转化为音素，并指定音素时长的组件。绝大多数情况下，用户不需要手动选择音素器，OpenUtau会自动根据音源选择合适的音素器。

目前OpenUTAU for Diffsinger包含以下用于Diffsinger的音素器：

Diffsinger variance音素模型

这些音素器基于DiffSinger variance时长模型。目前大部分的DiffSinger使用该模型。不同音素器支持的语言不同，请根据音源支持的语言和歌曲语言进行选择。具体使用方法参见音素器说明

DIFFS 位于General分类
DIFFS ZH 汉语普通话
DIFFS ZH-YUE 粤语
DIFFS JA 日语
DIFFS EN 英语
DIFFS ES 西班牙语
DIFFS IT 意大利语
DIFFS KO 韩语
DIFFS PT 葡萄牙语
DIFFS RU 俄语

其他音素器

一些较早期开发的DiffSinger音源可能会使用以下音素器。

DIFFS RHY 位于ZH分类，基于 Diffsinger rhythmizer音素模型。使用前请先下载模型，拖入OpenUtau窗口安装。
ENUNU X 位于General分类，基于NNSVS音素模型。适用于ENUNU支持的各种自定义语言。使用方法
ENUNU X EN 位于EN分类，基于NNSVS音素模型。适用于使用CMUDict的英文音源。使用方法

常见问题

DiffSinger和Diff-SVC是什么关系？能否在DiffSinger上使用Diff-SVC模型？

尽管名称相似，DiffSinger和Diff-SVC没有关系。DiffSinger是歌声合成软件，输入乐谱和歌词，输出歌声。Diff-SVC是人声转换软件，即变声器，用于将一个人的声音转换为另一个人的音色。两者的训练与使用方法也不同。两者名称相似的原因是它们都基于扩散模型（Diffusion model）。

DiffSinger不支持Diff-SVC模型，需要使用原始歌声数据另行训练DiffSinger模型。

手动输入音符太麻烦了，如何查找适合于OpenUtau的现有工程？

工程文件可以在以下网站查找：

https://www.vsqx.top/ （多种歌声合成软件的工程文件分享站）
http://midishow.com/ （midi文件分享网站）
在搜索引擎或视频网站上搜索“歌曲名+svp”，“歌曲名+vsqx”，“歌曲名+midi”

我个人查找工程文件的优先级为：ustx > svip = svp > vsqx > ust > mid。这些格式可通过以下方式导入OpenUtau：

格式	导入方式
ustx	直接拖入
svip、svp	使用OpenSvip转换为ustx
vsqx、ust	直接拖入。注意：下载时请挑选无参工程。因为有参工程可能有拆音，无法在OpenUtau上使用。
mid	直接拖入。注意：在下载前请先试听文件并查看各音轨音符数量，以检查是否存在歌声音轨。一般歌声音轨的音符数量在100~1000之间。可优先选择标注了“调教用”的mid文件。mid文件一般不包含歌词，需要手动输入歌词。

注意：在找到工程之后，请务必从头到尾听一遍，检查是否有音符与歌词错误，包括汉字转拼音错误。

找不到声码器NsfHiFiGAN（Error loading vocoder NsfHiFiGAN）

如果提示“Error loading vocoder NsfHiFiGAN”，大小写混合的NsfHiFiGAN，一般是由于将训练用的config作为dsconfig.yaml。请注意：dsconfig.yaml不是训练用的config，请按照上述“音源打包-dsconfig.yaml的内容”来编写dsconfig.yaml。

如何获取自动音高

如果你使用的DiffSinger音源包含了自动音高模型，则可通过“音符→加载已渲染的音高”获取。

为什么默认使用CPU渲染？

DirectML在核显上运行时，可能会导致渲染卡死。

这个项目的未来是怎样的？

目前DiffSinger渲染器已经合并到OpenUtau官方主线。本仓库将继续存在，用于发布DiffsingerPack（内置了音素器的软件包），以及测试不成熟的新功能。

使用方法（中文） - xunmengshe/OpenUtau GitHub Wiki

声明

注意事项

使用方法

说明

参数

自动音高

音素器

Diffsinger variance音素模型

其他音素器

常见问题

DiffSinger和Diff-SVC是什么关系？能否在DiffSinger上使用Diff-SVC模型？

手动输入音符太麻烦了，如何查找适合于OpenUtau的现有工程？

找不到声码器NsfHiFiGAN（Error loading vocoder NsfHiFiGAN）

如何获取自动音高

为什么默认使用CPU渲染？

这个项目的未来是怎样的？

相关链接

⚠️ GitHub.com Fallback ⚠️

使用方法（中文） - xunmengshe/OpenUtau GitHub Wiki

声明

注意事项

使用方法

说明

参数

自动音高

音素器

Diffsinger variance音素模型

其他音素器

常见问题

DiffSinger和Diff-SVC是什么关系？能否在DiffSinger上使用Diff-SVC模型？

手动输入音符太麻烦了，如何查找适合于OpenUtau的现有工程？

找不到声码器NsfHiFiGAN（Error loading vocoder NsfHiFiGAN）

如何获取自动音高

为什么默认使用CPU渲染？

这个项目的未来是怎样的？

相关链接

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️