选择 Rivya 音频工作流：语音、文本转语音、对白、音效、音频清理、音乐草稿、积分和 Studio 迭代。

在选择语音、文本转语音、对白、音效、音频清理、音乐草稿或先写歌词之前，先用这篇 AI 音频工作流指南确认路径。

在 Rivya 里，最容易把音频用错的方法，就是把“音频”当成一条统一工作流。

它并不是。

现在的音频分类，更准确地说是几种不同任务被放在一起。

这篇是音频能力线的工作流参考页。如果你更想看“第一条真实语音或声音任务该怎么开始”的决策型版本，更适合搭配如何在 Rivya 开始第一条 AI 音频工作流一起读。

大多数用户最先会碰到的，还是语音、对白、音效和清理这几条。但当前目录里其实也已经有一条正式上线的音乐分支，核心是 Suno Music、Suno Sounds 和 Suno Lyrics，所以它并不只是“文字转语音加音频清理”这么窄。

先判断任务形状

在选模型之前，先判断你真正要解决的是哪一种问题：

单人语音或旁白
多语言语音输出
多说话者对白
从文字生成音效
清理已经存在的录音
一条完整歌曲草稿，或者纯音乐草稿
先把歌词方向想清楚，再决定是否生成音频

这些是不同工作流，不是同一条流程换几个参数而已。

当前音频目录到底覆盖了什么

现在的音频目录，其实可以分成两组来看。

语音、对白、音效和清理

音乐和贴着音乐的那一支

这里真正重要的，不是它们都挂在同一个分类下面，而是它们对应的表单形态和成本模式本来就不一样。

语音、旁白和对白

如果任务是一个声音读一段内容，ElevenLabs Turbo 2.5 仍然是最稳的默认值。

它适合拿来做：

旁白
配音
快速试读
结构比较简单的语音成片

如果真正的难点是跨语言输出，那 ElevenLabs Multilingual V2 会更合理。

如果脚本里本来就有两个以上的说话者，那 ElevenLabs Dialogue V3 才是更像样的路径，因为对白本来就不是单人朗读的延长版。

如果你已经知道任务比整个“语音路径”更窄，那对应的决策页是：2026 年最好用的文本转语音生成器处理普通朗读，AI 解说 / 旁白生成器怎么选？处理单人讲解，AI 视频旁白 / 配音怎么选？处理更强视频语境下的 voice-over，AI 配音生成器怎么选？处理 localized spoken replacement。

音效和清理

如果任务是“生成一个声音”，那更相关的是 ElevenLabs Sound Effect V2。

如果任务是“把我已有的录音处理干净”，那才应该走 ElevenLabs Audio Isolation。

这两个分支的区别很重要，因为前者是从提示词开始，后者是从上传源文件开始。

已经上线的音乐分支

音频目录里的音乐这条线已经上线，但它现在是刻意收窄过的版本，不是一个完整音乐制作套件。

只要你的目标已经变成歌曲结构、歌词驱动创作，或者更偏音乐成品的结果，就更适合直接从这条分支开始看，而不是硬往语音路径里套。

Suno Music 更适合第一条成歌草稿

Suno Music 更适合用来做一条能播放的歌曲草稿，支持带人声或纯音乐方向。

它更像样的使用场景通常是：

第一条成歌草稿
纯音乐方向的概念验证
给视频、demo 或播客先做一条可用音乐底稿

成功结果之后，还可以继续走 Extend Music，当前结果侧也支持 WAV 转换和人声分离。

Suno Sounds 更适合短声音草稿

Suno Sounds 更适合做短一点的声音草稿、氛围底、循环片段，或者某种声音质感的方向测试，而不是完整歌曲结构。

如果 BPM、调性或者循环感比主歌副歌更重要，它通常比成歌模型更像正确入口。

成功结果之后，可以继续发起 Vocal Separation。

Suno Lyrics 更适合先定词

Suno Lyrics 是一条先做文字、后决定要不要做音频的路径。

当你最先想确定的是 hook、标题、主歌方向或者副歌结构时，它会比直接生成音频更省试错。要注意的是，它返回的是文本结果，不是可播放音频。

如果你想把音乐这条线单独拆开看，下一篇建议直接读 Rivya 的音乐工作流。

为什么音频表单差别会这么大

音频页本来就是跟着模型能力走的。

表单之所以变化大，是因为任务本身就在变：

语音模型要的是文本
对白模型要的是轮流说话的结构和角色分配
音效模型要的是声音场景描述
清理模型要的是上传音频
音乐模型会带来自己的提示词形状和结果后续动作
歌词工具返回的可能是结构化文本，而不是媒体文件

这不是产品不一致，而是 Rivya 没有假装所有音频任务都能用同一套表单解决。

这条音乐分支目前不是什么

更准确的说法是：它已经可用，但故意先收得比较窄。

它现在不是：

一个完整 DAW
一个深度混音、母带或多 stem 编辑套件
一次性把整个 Suno 家族全部暴露出来
一个可以反过来代表全部音频工作的总入口

这条边界很重要，因为 Rivya 当前更强的仍然是跨模态工作流，而不是音乐专项产品。

为什么音频计费体感会不一样

Rivya 里的音频任务，并不都像固定成本的图片生成那样工作。

很多时候，成本会更明显地受这些变量影响：

文本长度
输出时长
上传音频时长
音乐结果后续动作本身也会继续消耗积分

有些音频模型，尤其是当前已上线的音乐分支，会按固定每次价格来写；另一些仍然更像是随文本长度或时长变化的成本模式。

所以音频模型上的积分提示，很多时候更像是在告诉你“成本大概会怎么变”，而不是承诺一个完全固定的数字。

最常见的音频误判

最容易造成返工的几个错误通常是：

明明要做清理，却先去选语音模型
把对白当成单人旁白
真正需求是修已有录音，却先去跑音效生成
明明要的是完整歌曲草稿，却先去跑 Suno Sounds
明明要的是可播放结果，却先停在 Suno Lyrics
完全不把时长或后续动作当成成本变量

这些问题大多不是模型不够强，而是路径从一开始就走偏了。

一个更稳的快选顺序

如果你只想用最短路径做出正确判断：

先判断输入是文本、结构化对白、上传音频、音乐 brief，还是歌词 brief
再判断输出是语音、多语言语音、对白、音效、清理、一条完整音乐、一段短声音草稿，还是歌词文本
选对应模型
最后再调参数或结果后续动作

这个顺序能提前避开大多数坏匹配。

什么时候用公开页，什么时候进 Studio

如果你只是想先跑首次运行、快速比较，或者从搜索和文章里直接落到对的分支，公开音频页通常就够了。

如果你已经要开始多轮迭代、保存连续性，或者要在账号上下文里长期推进同一条任务，那就更适合进 Studio。

接下来可以搭配读 Rivya 的音乐工作流、如何在 Rivya 里生成 AI 音乐、如何在 Rivya 开始第一条 AI 音频工作流、AI 解说 / 旁白生成器怎么选？、AI 视频旁白 / 配音怎么选？、AI 配音生成器怎么选？和 Rivya 创作工作台。

音频工作流检查清单

当输入或输出是声音时，先判断：

先判断任务是语音、对白、音效、清理、音乐，还是歌词。
把新音频生成和上传音频修复分开。
交付前检查声音、语言、说话人数和商用审核。
长音频或高风险音频任务前，先跑短草稿。
脚本和发音备注要和泛创意方向分开写。

音频任务变形时重新复核

当 voiceover 变成配音、音乐想法变成先写歌词，或清理变成重新录制时，需要重新复核。音频任务如果不先命名，很容易越做越偏。

Rivya AI 音频工作流指南

目录