根据官方文档,以下是降低 RVC(Retrieval-based Voice Conversion) 实时变声延迟的 5 个实用技巧:
1. 使用 ASIO 驱动设备
这是降低延迟最直接的方法。在标准的实时变声环境下,端到端延迟通常约为 170ms,但如果使用支持 ASIO 的输入和输出设备,延迟可以大幅压缩至 90ms。需要注意的是,这一优化高度依赖于硬件驱动的支持。
2. 确保输入输出设备类型一致
在使用实时变声 GUI(go-realtime-gui.bat)时,务必为输入和输出选择 相同类型 的设备驱动(例如:输入选 MME,输出也必须选 MME)。设备类型不匹配可能会导致系统调度效率降低或产生额外报错。
3. 切换至 RMVPE 音高提取算法
RMVPE 是目前 RVC 推荐的音高提取算法。相比于传统的 Crepe_full 算法,RMVPE 不仅能有效防止"哑音"问题,还具有 更快的处理速度 和 更低的资源消耗。在实时推理场景下,使用 RMVPE 能显著减轻计算负担。
4. 优化 Faiss 检索参数
RVC 利用 Faiss 库进行特征检索以提高音色还原度,但复杂的搜索会增加计算耗时。
- 设置 n_probe = 1:官方建议对于 RVC 而言,不需要极高的检索精度,将
n_probe设置为 1 即可满足需求,这样可以避免由于增加 n_probe 导致的计算时间成倍增长。 - 减少特征维度:对于超过 1 小时的训练集,系统会自动进行 minibatch-kmeans 以减小特征形状,从而使索引的添加和搜索速度大幅提升。
5. 开启硬件加速(GPU 推理)
确保变声过程运行在显卡而非 CPU 上。
- 多品牌支持:除了 NVIDIA 显卡,RVC 同样支持通过 Pytorch_DML 加速的 AMD 和 Intel 显卡。
- 特定优化:对于 Intel ARC 显卡,可以使用 IPEX 进行加速。此外,4GB 显存的 16 系列显卡也有专门的推理设置优化。GPU 的并行计算能力能显著缩短模型推理所需的时长。