
如果工作是一個清楚的 speaking voice,先從 ElevenLabs Turbo 2.5 開始。
當真正困難變成 cross-language delivery,或 script 有多位說話者時,答案才會改變。
我們評估了什麼
這份指南已在 2026 年 4 月 28 日,依據 Rivya 的即時 audio 和 voice paths 複核。它聚焦 voice generation,不涵蓋 Rivya 支援的每一種 audio task。
我們檢查了:
- text-to-speech、multilingual speech、dialogue、cleanup 和 sound-effect boundaries
- 什麼時候 ElevenLabs voice models 比 general audio 或 music pages 更適合作為第一站
- speaker count、language、script readiness 和 commercial review 如何改變選擇
- 相關文件:Audio Workflows、Audio Studio 和 Commercial Review Checklist
本頁討論 Spoken Voice,不是所有 Audio
這份指南依據 Rivya 在 2026 年 4 月 21 日的即時 spoken-audio 目錄整理。
- 已交叉核對的公開路徑:
/audio、/ai-models,以及目前上線的 voice-model pages - 已檢視的相關產品指南:Audio Workflows in Rivya、References and Uploads in Rivya,以及 Current Live Features in Rivya
- 本頁只討論 Rivya 內的 spoken-voice choice,不討論 cleanup、sound effects 或 music
有用的切分比標題更簡單。
大多數 voice requests 會收斂成三種結構:
- 一位說話者承載整個 output
- 同一個 spoken asset 跨語言使用
- 多位說話者的 turns 很重要
只要這個 structure 清楚,model choice 通常就會變簡單。
三條重要 Voice 路徑
| Voice job | Best first path | Why it fits |
|---|---|---|
| one speaker, one script | ElevenLabs Turbo 2.5 | plain voice generation、TTS、narration 和 simple voice-over 的廣義預設 |
| one script across languages | ElevenLabs Multilingual V2 | 當困難點是 language transfer 時更適合 |
| several speakers in one scene | ElevenLabs Dialogue V3 | 為 turn-taking、role separation 和 scene structure 而設計 |
這不是三個 brand preferences,而是三種不同的 spoken-audio jobs。
從 Speaker Structure 開始
當輸出只需要一個穩定、可用的 voice 時,從 ElevenLabs Turbo 2.5 開始。
當同一段 delivery 必須經得起語言轉換時,移到 ElevenLabs Multilingual V2。
當 script 表現得像 scene,而不是單一連續朗讀時,使用 ElevenLabs Dialogue V3。
這是整條 spoken-voice path 最乾淨的 mental model。
當任務更窄時提早離開本頁
本頁是廣義 voice decision page。它不一定永遠是最佳最終頁。
如果工作已經明確是下列其中一項,請提早離開:
- plain text-to-speech
- one-speaker narration 或 explainer voice
- spoken replacement 或 dubbing
- video-specific voice-over
當 speaker structure 已經清楚時,這些任務在更窄的頁面會推進得更快。
可靠的 Voice 決策順序
如果你想要最短且可靠的順序,使用這個:
- 判斷 output 需要 one speaker、one script across languages,還是 several speakers
- 選擇符合該 structure 的模型
- 之後才收窄到 TTS、narration、dubbing 或 video voice-over
這能避免 voice work 最常見的糟糕 first run:一開始就解錯 structural problem。
下一步去哪裡
- 如果真正任務是 plain text-to-speech,閱讀 Best Text to Speech Generator in 2026。
- 如果真正任務是 one-speaker narration,閱讀 AI Narration Generator。
- 如果真正任務是 spoken replacement 或 localization,閱讀 AI Dubbing Generator。
- 如果真正任務是 video-specific voice-over,閱讀 AI Voiceover for Videos。
- 如果真正任務比 spoken voice 更廣,閱讀 Audio Workflows in Rivya 或從 /audio 開始。
依 Speaker Structure 測試 Voice Models
不要用 narration 測一個 voice model、用 multilingual copy 測另一個,再用 dialogue 測第三個。那只會證明工作本來就不同。
有用的比較方式,是保持 structure 清楚:
- 測試 broad voice output 時,使用一段短 one-speaker script。
- 當 localization 才是真正問題時,跨語言使用同一個 message。
- 當 dialogue structure 是困難點時,使用短的 turn-taking scene。
- 每次 run 都保留 pronunciation、pacing 和 review criteria。
這會把比較變成 structural fit,而不是 brand preference。
審核第一個 Voice Result
先檢查 output 是否匹配 speaker structure,再判斷 tone、pronunciation、pacing、language transfer 和 role separation。
如果 structure 錯了,請先切換 paths,再精修 style。如果 structure 正確但 delivery 不夠好,修訂 brief,並在製作 variants 前把最強結果存到 History。


