Rivya AI 文档

Rivya AI 音频工作流指南

选择 Rivya 音频工作流:语音、文本转语音、对白、音效、音频清理、音乐草稿、积分和 Studio 迭代。

最近审阅于 2026/04/28

在选择语音、文本转语音、对白、音效、音频清理、音乐草稿或先写歌词之前,先用这篇 AI 音频工作流指南确认路径。

在 Rivya 里,最容易把音频用错的方法,就是把“音频”当成一条统一工作流。

它并不是。

现在的音频分类,更准确地说是几种不同任务被放在一起。

这篇是音频能力线的工作流参考页。如果你更想看“第一条真实语音或声音任务该怎么开始”的决策型版本,更适合搭配 如何在 Rivya 开始第一条 AI 音频工作流 一起读。

大多数用户最先会碰到的,还是语音、对白、音效和清理这几条。但当前目录里其实也已经有一条正式上线的音乐分支,核心是 Suno MusicSuno SoundsSuno Lyrics,所以它并不只是“文字转语音加音频清理”这么窄。

先判断任务形状

在选模型之前,先判断你真正要解决的是哪一种问题:

  • 单人语音或旁白
  • 多语言语音输出
  • 多说话者对白
  • 从文字生成音效
  • 清理已经存在的录音
  • 一条完整歌曲草稿,或者纯音乐草稿
  • 先把歌词方向想清楚,再决定是否生成音频

这些是不同工作流,不是同一条流程换几个参数而已。

当前音频目录到底覆盖了什么

现在的音频目录,其实可以分成两组来看。

语音、对白、音效和清理

音乐和贴着音乐的那一支

这里真正重要的,不是它们都挂在同一个分类下面,而是它们对应的表单形态和成本模式本来就不一样。

语音、旁白和对白

如果任务是一个声音读一段内容,ElevenLabs Turbo 2.5 仍然是最稳的默认值。

它适合拿来做:

  • 旁白
  • 配音
  • 快速试读
  • 结构比较简单的语音成片

如果真正的难点是跨语言输出,那 ElevenLabs Multilingual V2 会更合理。

如果脚本里本来就有两个以上的说话者,那 ElevenLabs Dialogue V3 才是更像样的路径,因为对白本来就不是单人朗读的延长版。

如果你已经知道任务比整个“语音路径”更窄,那对应的决策页是:2026 年最好用的文本转语音生成器 处理普通朗读,AI 解说 / 旁白生成器怎么选? 处理单人讲解,AI 视频旁白 / 配音怎么选? 处理更强视频语境下的 voice-over,AI 配音生成器怎么选? 处理 localized spoken replacement。

音效和清理

如果任务是“生成一个声音”,那更相关的是 ElevenLabs Sound Effect V2

如果任务是“把我已有的录音处理干净”,那才应该走 ElevenLabs Audio Isolation

这两个分支的区别很重要,因为前者是从提示词开始,后者是从上传源文件开始。

已经上线的音乐分支

音频目录里的音乐这条线已经上线,但它现在是刻意收窄过的版本,不是一个完整音乐制作套件。

只要你的目标已经变成歌曲结构、歌词驱动创作,或者更偏音乐成品的结果,就更适合直接从这条分支开始看,而不是硬往语音路径里套。

Suno Music 更适合第一条成歌草稿

Suno Music 更适合用来做一条能播放的歌曲草稿,支持带人声或纯音乐方向。

它更像样的使用场景通常是:

  • 第一条成歌草稿
  • 纯音乐方向的概念验证
  • 给视频、demo 或播客先做一条可用音乐底稿

成功结果之后,还可以继续走 Extend Music,当前结果侧也支持 WAV 转换和人声分离。

Suno Sounds 更适合短声音草稿

Suno Sounds 更适合做短一点的声音草稿、氛围底、循环片段,或者某种声音质感的方向测试,而不是完整歌曲结构。

如果 BPM、调性或者循环感比主歌副歌更重要,它通常比成歌模型更像正确入口。

成功结果之后,可以继续发起 Vocal Separation

Suno Lyrics 更适合先定词

Suno Lyrics 是一条先做文字、后决定要不要做音频的路径。

当你最先想确定的是 hook、标题、主歌方向或者副歌结构时,它会比直接生成音频更省试错。要注意的是,它返回的是文本结果,不是可播放音频。

如果你想把音乐这条线单独拆开看,下一篇建议直接读 Rivya 的音乐工作流

为什么音频表单差别会这么大

音频页本来就是跟着模型能力走的。

表单之所以变化大,是因为任务本身就在变:

  • 语音模型要的是文本
  • 对白模型要的是轮流说话的结构和角色分配
  • 音效模型要的是声音场景描述
  • 清理模型要的是上传音频
  • 音乐模型会带来自己的提示词形状和结果后续动作
  • 歌词工具返回的可能是结构化文本,而不是媒体文件

这不是产品不一致,而是 Rivya 没有假装所有音频任务都能用同一套表单解决。

这条音乐分支目前不是什么

更准确的说法是:它已经可用,但故意先收得比较窄。

它现在不是:

  • 一个完整 DAW
  • 一个深度混音、母带或多 stem 编辑套件
  • 一次性把整个 Suno 家族全部暴露出来
  • 一个可以反过来代表全部音频工作的总入口

这条边界很重要,因为 Rivya 当前更强的仍然是跨模态工作流,而不是音乐专项产品。

为什么音频计费体感会不一样

Rivya 里的音频任务,并不都像固定成本的图片生成那样工作。

很多时候,成本会更明显地受这些变量影响:

  • 文本长度
  • 输出时长
  • 上传音频时长
  • 音乐结果后续动作本身也会继续消耗积分

有些音频模型,尤其是当前已上线的音乐分支,会按固定每次价格来写;另一些仍然更像是随文本长度或时长变化的成本模式。

所以音频模型上的积分提示,很多时候更像是在告诉你“成本大概会怎么变”,而不是承诺一个完全固定的数字。

最常见的音频误判

最容易造成返工的几个错误通常是:

  • 明明要做清理,却先去选语音模型
  • 把对白当成单人旁白
  • 真正需求是修已有录音,却先去跑音效生成
  • 明明要的是完整歌曲草稿,却先去跑 Suno Sounds
  • 明明要的是可播放结果,却先停在 Suno Lyrics
  • 完全不把时长或后续动作当成成本变量

这些问题大多不是模型不够强,而是路径从一开始就走偏了。

一个更稳的快选顺序

如果你只想用最短路径做出正确判断:

  1. 先判断输入是文本、结构化对白、上传音频、音乐 brief,还是歌词 brief
  2. 再判断输出是语音、多语言语音、对白、音效、清理、一条完整音乐、一段短声音草稿,还是歌词文本
  3. 选对应模型
  4. 最后再调参数或结果后续动作

这个顺序能提前避开大多数坏匹配。

什么时候用公开页,什么时候进 Studio

如果你只是想先跑首次运行、快速比较,或者从搜索和文章里直接落到对的分支,公开音频页通常就够了。

如果你已经要开始多轮迭代、保存连续性,或者要在账号上下文里长期推进同一条任务,那就更适合进 Studio。

接下来可以搭配读 Rivya 的音乐工作流如何在 Rivya 里生成 AI 音乐如何在 Rivya 开始第一条 AI 音频工作流AI 解说 / 旁白生成器怎么选?AI 视频旁白 / 配音怎么选?AI 配音生成器怎么选?Rivya 创作工作台

音频工作流检查清单

当输入或输出是声音时,先判断:

  • 先判断任务是语音、对白、音效、清理、音乐,还是歌词。
  • 把新音频生成和上传音频修复分开。
  • 交付前检查声音、语言、说话人数和商用审核。
  • 长音频或高风险音频任务前,先跑短草稿。
  • 脚本和发音备注要和泛创意方向分开写。

音频任务变形时重新复核

当 voiceover 变成配音、音乐想法变成先写歌词,或清理变成重新录制时,需要重新复核。音频任务如果不先命名,很容易越做越偏。

目录