本頁討論的是 Spoken Track Layer

這份指南依據 Rivya 在 2026 年 4 月 21 日的即時 audio 和 video lanes 整理。

已交叉核對的公開路徑：/audio、/video、/ai-models，以及目前上線的 voice-model pages
已檢視的相關產品指南：Audio Workflows in Rivya、Video Workflows in Rivya，以及 References and Uploads in Rivya
本頁只討論替 video voice-over 選擇 spoken-track path，不討論 dubbing、timeline editing 或 native-audio video generation

有用的問題不是「這是給 video 嗎？」

而是「這支 video 實際上需要哪一種 spoken track？」

三種 Video Voice-Over 路徑

Video voice-over job	Best first path	Why it fits
一位說話者承載整支 clip	ElevenLabs Turbo 2.5	對 explainers、walkthroughs 與 product narration 來說，是最乾淨的預設選擇
同一條 track 必須跨語言使用	ElevenLabs Multilingual V2	當 localization 變成真正困難點時，這是更好的路徑
clip 表現得像 spoken scene	ElevenLabs Dialogue V3	當多位說話者和 turn-taking 很重要時更適合

這些路徑彼此相關，但不應該全部從同一個假設開始。

當一位 narrator 或 guide voice 承載整支 clip 時，使用 ElevenLabs Turbo 2.5。

當 video 已經成立，但同一條 spoken layer 現在必須經得起語言轉換時，使用 ElevenLabs Multilingual V2。

當 script 聽起來不像 voice-over，而更像有多位說話者的 scene 時，使用 ElevenLabs Dialogue V3。

這是避免 video voice-over 漂到 stack 錯誤位置最快的方法。

本頁不承諾：

如果真正需求是 existing media 上的 spoken replacement，前往 AI Dubbing Generator。

如果真正需求是 motion 和 audio 一起成立的 generated clip，前往 AI Video Generator With Audio。

如果你想要最短且可靠的順序，使用這個流程：

如果真正任務是沒有強 video context 的 one-speaker narration，閱讀 AI Narration Generator。
如果真正任務是 spoken replacement 或 localization，閱讀 AI Dubbing Generator。
如果真正任務是帶 native audio 的 generated clip，閱讀 AI Video Generator With Audio。
如果你需要相關 workflow guides，閱讀 Audio Workflows in Rivya、Video Workflows in Rivya，以及 References and Uploads in Rivya。

生成 voice-over 前，brief 應該對齊影片，而不是只對齊 script：

Clip role：explainer、product walkthrough、ad、tutorial、launch teaser 或 internal review。
Timing：預期 duration、pauses、CTA placement，以及 voice 不應覆蓋的 visual moment。
Speaker shape：one narrator、localized narrator，或 multiple speakers 的 scene。
Handoff：這段 audio 會下載、在剪輯中匹配、復用為 variants，還是搭配另一輪 video run。

第一個有用的輸出，應該先測試 spoken track 是否適合 clip，再製作 channel 或 language variants。

聆聽時同時檢查 video structure：spoken track 應該貼合 scene order、pacing、CTA timing 和 product moments。

如果 audio 很好但 clip timing 不對，修訂 timing notes，而不是切換 voice models。如果 script 需要真正的 speaker turns 或 native-audio generation，先移到更窄的頁面，再繼續。