
如果工作是替影片加入一條 spoken track,先從 ElevenLabs Turbo 2.5 開始。
當同一條 voice-over 必須跨語言成立,或 clip 不再是一個單一說話者作品時,答案才會改變。
本頁討論的是 Spoken Track Layer
這份指南依據 Rivya 在 2026 年 4 月 21 日的即時 audio 和 video lanes 整理。
- 已交叉核對的公開路徑:
/audio、/video、/ai-models,以及目前上線的 voice-model pages - 已檢視的相關產品指南:Audio Workflows in Rivya、Video Workflows in Rivya,以及 References and Uploads in Rivya
- 本頁只討論替 video voice-over 選擇 spoken-track path,不討論 dubbing、timeline editing 或 native-audio video generation
有用的問題不是「這是給 video 嗎?」
而是「這支 video 實際上需要哪一種 spoken track?」
三種 Video Voice-Over 路徑
| Video voice-over job | Best first path | Why it fits |
|---|---|---|
| 一位說話者承載整支 clip | ElevenLabs Turbo 2.5 | 對 explainers、walkthroughs 與 product narration 來說,是最乾淨的預設選擇 |
| 同一條 track 必須跨語言使用 | ElevenLabs Multilingual V2 | 當 localization 變成真正困難點時,這是更好的路徑 |
| clip 表現得像 spoken scene | ElevenLabs Dialogue V3 | 當多位說話者和 turn-taking 很重要時更適合 |
這些路徑彼此相關,但不應該全部從同一個假設開始。
依 Clip Structure 選擇
當一位 narrator 或 guide voice 承載整支 clip 時,使用 ElevenLabs Turbo 2.5。
當 video 已經成立,但同一條 spoken layer 現在必須經得起語言轉換時,使用 ElevenLabs Multilingual V2。
當 script 聽起來不像 voice-over,而更像有多位說話者的 scene 時,使用 ElevenLabs Dialogue V3。
這是避免 video voice-over 漂到 stack 錯誤位置最快的方法。
本頁不承諾什麼
本頁不承諾:
- 完整 lip-synced dubbed video
- timeline-level video editing
- 直接在 video model 裡產生 native audio
如果真正需求是 existing media 上的 spoken replacement,前往 AI Dubbing Generator。
如果真正需求是 motion 和 audio 一起成立的 generated clip,前往 AI Video Generator With Audio。
更快的 Video Voice-Over 決策順序
如果你想要最短且可靠的順序,使用這個流程:
- 判斷 clip 需要一位說話者、同一位說話者跨語言,還是一個 spoken scene
- 如果一個 voice 承載 clip,先從 ElevenLabs Turbo 2.5 開始
- 如果 localization 是困難點,移到 ElevenLabs Multilingual V2
- 如果 script 表現得像一個 scene,切換到 ElevenLabs Dialogue V3
下一步去哪裡
- 如果真正任務是沒有強 video context 的 one-speaker narration,閱讀 AI Narration Generator。
- 如果真正任務是 spoken replacement 或 localization,閱讀 AI Dubbing Generator。
- 如果真正任務是帶 native audio 的 generated clip,閱讀 AI Video Generator With Audio。
- 如果你需要相關 workflow guides,閱讀 Audio Workflows in Rivya、Video Workflows in Rivya,以及 References and Uploads in Rivya。
依照 Clip 準備 Voice-Over
生成 voice-over 前,brief 應該對齊影片,而不是只對齊 script:
- Clip role:explainer、product walkthrough、ad、tutorial、launch teaser 或 internal review。
- Timing:預期 duration、pauses、CTA placement,以及 voice 不應覆蓋的 visual moment。
- Speaker shape:one narrator、localized narrator,或 multiple speakers 的 scene。
- Handoff:這段 audio 會下載、在剪輯中匹配、復用為 variants,還是搭配另一輪 video run。
第一個有用的輸出,應該先測試 spoken track 是否適合 clip,再製作 channel 或 language variants。
在 Video Context 中審核 Voice-Over
聆聽時同時檢查 video structure:spoken track 應該貼合 scene order、pacing、CTA timing 和 product moments。
如果 audio 很好但 clip timing 不對,修訂 timing notes,而不是切換 voice models。如果 script 需要真正的 speaker turns 或 native-audio generation,先移到更窄的頁面,再繼續。


