根据官方文档,以下是降低 RVC(Retrieval-based Voice Conversion) 实时变声延迟的 5 个实用技巧:

1. 使用 ASIO 驱动设备

这是降低延迟最直接的方法。在标准的实时变声环境下,端到端延迟通常约为 170ms,但如果使用支持 ASIO 的输入和输出设备,延迟可以大幅压缩至 90ms。需要注意的是,这一优化高度依赖于硬件驱动的支持。

2. 确保输入输出设备类型一致

在使用实时变声 GUI(go-realtime-gui.bat)时,务必为输入和输出选择 相同类型 的设备驱动(例如:输入选 MME,输出也必须选 MME)。设备类型不匹配可能会导致系统调度效率降低或产生额外报错。

3. 切换至 RMVPE 音高提取算法

RMVPE 是目前 RVC 推荐的音高提取算法。相比于传统的 Crepe_full 算法,RMVPE 不仅能有效防止"哑音"问题,还具有 更快的处理速度更低的资源消耗。在实时推理场景下,使用 RMVPE 能显著减轻计算负担。

4. 优化 Faiss 检索参数

RVC 利用 Faiss 库进行特征检索以提高音色还原度,但复杂的搜索会增加计算耗时。

  • 设置 n_probe = 1:官方建议对于 RVC 而言,不需要极高的检索精度,将 n_probe 设置为 1 即可满足需求,这样可以避免由于增加 n_probe 导致的计算时间成倍增长
  • 减少特征维度:对于超过 1 小时的训练集,系统会自动进行 minibatch-kmeans 以减小特征形状,从而使索引的添加和搜索速度大幅提升

5. 开启硬件加速(GPU 推理)

确保变声过程运行在显卡而非 CPU 上。

  • 多品牌支持:除了 NVIDIA 显卡,RVC 同样支持通过 Pytorch_DML 加速的 AMD 和 Intel 显卡
  • 特定优化:对于 Intel ARC 显卡,可以使用 IPEX 进行加速。此外,4GB 显存的 16 系列显卡也有专门的推理设置优化。GPU 的并行计算能力能显著缩短模型推理所需的时长。
📖 延伸阅读:查看 实时变声操作指南 了解完整的实时变声配置流程,或查看 运行环境配置指南 优化你的硬件设置。