
如果任务是给视频加一条语音轨,先试 ElevenLabs Turbo 2.5。
只有当同一条旁白要跨语言成立,或者这段视频已经不再是单人讲解,而是一个多人说话场景时,这个答案才会换掉。
这篇只讨论视频里的“语音轨层”
这篇内容按 2026 年 4 月 21 日 Rivya 当前公开音频和视频路径整理。
- 核对过的公开入口包括:
/audio、/video、/ai-models,以及当前公开语音模型页 - 对照过的相关产品指南包括:Rivya 的音频工作流、Rivya 的视频工作流 和 Rivya 里的参考文件与上传
- 这篇只讨论给视频选择语音轨路径,不处理配音替换、时间线编辑或原生带音频视频生成
真正有用的问题,不是“这是不是视频任务”。
而是“这条视频到底需要什么样的语音轨”。
3 条最关键的视频语音路径
| 视频语音任务 | 更适合的第一站 | 为什么这样选 |
|---|---|---|
| 一个声音讲完整条视频 | ElevenLabs Turbo 2.5 | 最适合说明视频、产品讲解和基础旁白 |
| 同一条语音轨要跨语言交付 | ElevenLabs Multilingual V2 | 当真正难点变成本地化时更合适 |
| 这条视频本质上是一段多人说话场景 | ElevenLabs Dialogue V3 | 更适合多个说话者和轮流说话结构 |
这 3 条路径彼此相关,但不该都从同一个默认假设出发。
先按片子结构来选
如果整条片子只需要一个讲解者或一个引导声音,先用 ElevenLabs Turbo 2.5。
如果视频本身已经成立,只是现在同一条语音轨要跨语言使用,就切到 ElevenLabs Multilingual V2。
如果脚本听起来已经不像旁白,而更像一段多人对话场景,就直接用 ElevenLabs Dialogue V3。
这是让视频旁白任务不跑偏到错误分支最快的方法。
这篇不承诺什么
这篇不承诺:
- 完整口型同步视频配音
- 时间线级的视频编辑
- 在视频模型里直接生出原生音频
如果你的真实需求是对已有媒体做口播替换,去看 AI 配音生成器怎么选?。
如果你的真实需求是一条生成视频里音画一起成立,去看 带音频的 AI 视频生成器怎么选?。
一个更快的视频语音选择顺序
如果你想最快走对路,更稳的顺序通常是:
- 先判断片子需要单人旁白、同一旁白跨语言,还是多人对白场景
- 如果整条片子由一个声音承载,先试 ElevenLabs Turbo 2.5
- 如果真正难点是本地化,切到 ElevenLabs Multilingual V2
- 如果脚本本身像一段场景,切到 ElevenLabs Dialogue V3
下一步去哪一页
- 如果真实任务是没有强视频语境的单人旁白,继续看 AI 解说 / 旁白生成器怎么选?。
- 如果真实任务是口播替换或本地化配音,继续看 AI 配音生成器怎么选?。
- 如果真实任务是生成一条原生带音频的视频,继续看 带音频的 AI 视频生成器怎么选?。
- 如果你要看工作流说明,直接读 Rivya 的音频工作流、Rivya 的视频工作流 和 Rivya 里的参考文件与上传。
按视频片段准备旁白 brief
生成视频旁白前,brief 应该贴着视频写,而不是只贴着脚本写:
- 片子角色:讲解、产品 walkthrough、广告、教程、上新 teaser,还是内部审核片。
- 时间约束:预计时长、停顿、CTA 位置,以及哪些视觉瞬间不能被语音盖住。
- 说话者形状:单人旁白、本地化旁白,还是多人说话场景。
- 交接方式:判断这段音频要下载、进剪辑匹配、复用成变体,还是搭配另一轮视频生成。
第一版有用结果应该先测试语音轨是否贴合这条视频,再继续做渠道或语言变体。
放回视频语境里审核旁白
试听时要同时检查视频结构:语音轨应匹配场景顺序、节奏、CTA 时间点和产品展示瞬间。
如果音频本身不错但视频时间不对,先改时间备注,不要急着换语音模型。如果脚本已经需要真正的多人轮流说话或原生音频视频,先切到更窄的页面,再继续。


