Rivya AI 音訊工作流指南
選擇 Rivya 音訊工作流:語音、文字轉語音、對話、音效、清理、音樂草稿、點數和 Studio 迭代。
最近審閱於 2026/04/28
在 Rivya 中選擇語音、文字轉語音、對話、音效、清理、音樂草稿或歌詞優先工作前,請先使用這份 AI 音訊工作流指南。
在 Rivya 裡最容易把音訊做錯的方式,就是以為「音訊」只有一種工作流。
並不是。
目前的音訊分類其實涵蓋幾種並排存在的不同工作。
這個頁面是音訊區域的工作流參考。如果你想看更偏決策、關於如何開始第一個真實語音或聲音任務的指南,如何在 Rivya 開始第一個 AI 音訊工作流 是更適合搭配閱讀的內容。
目前大多數使用者最先接觸的仍然是 spoken audio:語音、多語言朗讀、對話、音效和清理。但目錄中也已經包含以 Suno Music、Suno Sounds 和 Suno Lyrics 為核心的 live music branch,所以這個分類比「TTS 加音訊清理」更寬。
從工作形狀開始
選擇音訊模型前,先判斷你實際要解決的是哪一類問題:
- 單一說話者語音或旁白
- 多語言語音輸出
- 多說話者對話
- 生成音效
- 清理已上傳錄音
- 完整歌曲草稿或以純音樂為主的 track
- 音訊生成前的歌詞發想
這些是不同工作流,不是只改幾個設定的同一個工作流。
目前音訊目錄實際涵蓋什麼
目前音訊目錄橫跨兩個不同群組。
語音、對話、音效和清理
- ElevenLabs Turbo 2.5
- ElevenLabs Multilingual V2
- ElevenLabs Dialogue V3
- ElevenLabs Sound Effect V2
- ElevenLabs Audio Isolation
音樂和音樂相鄰工作
重點不是它們剛好都位在同一個分類下,而是它們本來就屬於不同表單形狀和不同成本模式。
Spoken Voice 和旁白
如果任務是用單一聲音朗讀一份腳本,ElevenLabs Turbo 2.5 仍然是乾淨的預設起點。
它最適合從這裡開始:
- 旁白
- voice-over
- 快速 TTS 草稿
- 簡單 spoken tracks
如果 spoken delivery 必須跨語言運作,ElevenLabs Multilingual V2 會更合適。
如果腳本已經有兩個或更多說話者,ElevenLabs Dialogue V3 是更好的路徑,因為對話在結構上不同於單人朗讀。
如果你已經知道任務比整個語音區域更窄,搭配的決策頁包括:用於一般朗讀的 2026 年最佳文字轉語音生成器、用於單一說話者講解的 AI 旁白生成器,以及用於本地化或替換 spoken tracks 的 AI 配音生成器。
Sound Design 和清理
如果任務是「生成一個聲音」,相關路徑是 ElevenLabs Sound Effect V2。
如果任務是「修好我已經有的錄音」,正確路徑是 ElevenLabs Audio Isolation。
這個差異很重要,因為前者是 prompt-first generation,後者是 upload-first cleanup。
已上線的音樂分支
音訊目錄中的音樂側已經上線,但它刻意比完整音樂製作套件更窄。
如果目標是歌曲結構、歌詞驅動的發想,或偏向音樂風格的輸出,請從音訊目錄的音樂側開始,而不是從語音指南開始。
Suno Music 用於第一版 track 草稿
Suno Music 更適合在你需要可播放的 track 草稿時使用,可以有或沒有 vocals。
這讓它成為以下任務最清楚的起點:
- 第一版歌曲草稿
- 以純音樂為主的概念 track
- 用於影片、demo 或 podcast 的粗略音樂
成功結果可以繼續透過 Extend Music 延展,目前 result-based follow-ups 也包含 WAV 轉換和 vocal separation。
Suno Sounds 用於短聲音草圖
Suno Sounds 更適合真正任務是較短的 sonic sketch、ambience bed、loop idea 或背景 texture,而不是完整歌曲結構時使用。
當 BPM、key 或 looping 比主歌副歌更重要時,它通常是更有用的起點。
成功結果可以繼續進入 Vocal Separation action。
Suno Lyrics 用於音訊前的文字
Suno Lyrics 是 words-first 路徑。
當 hook、title、chorus direction 或 verse shape 在你花費生成 track 前更重要時,它很有用。重要邊界是:它回傳文字結果,而不是可播放音訊。
如果你想更細地拆開音樂分支,請閱讀 Rivya 音樂工作流。
為什麼表單差異這麼大
音訊介面刻意跟著模型形狀走。
表單不同,是因為工作不同:
- 語音模型需要文字
- 對話模型需要 turns 和 speaker assignment
- 音效需要 cue-like generation input
- 清理模型預期上傳音訊
- 音樂模型會引入自己的 prompt patterns 和 follow-up actions
- 歌詞優先工具可以回傳結構化文字,而不是媒體檔案
這不是不一致。這是 Rivya 暴露每種工作流的真實形狀,而不是假裝所有工作都能在同一張表單裡完成。
目前音樂分支不是什麼
描述目前音樂分支更準確的方式是:「已上線且有用,但刻意保持狹窄。」
它不是:
- 完整 DAW
- 深度 mastering 或 multi-stem editing suite
- 一次暴露整個 Suno family
- 讓所有音訊工作都被視為音樂工作的理由
這個邊界很重要,因為 Rivya 目前的強項仍是更廣的 multimodal workflow,而不是只做音樂的 specialist stack。
為什麼音訊成本感覺不同
Rivya 的音訊工作不一定像固定成本的圖片生成那樣運作。
成本可能更直接受到這些變數影響:
- 腳本長度
- 輸出時長
- 上傳音訊時長
- 音樂任務上的 result-based follow-up actions
有些音訊項目,尤其是 live music branch 上的項目,會以固定每次價格記錄。其他項目更像是依時長或文字形狀變動的成本模式。
所以音訊模型上的 credits hint 特別值得閱讀。很多時候它是在描述成本模式,而不是承諾一個固定數字。
最常見的音訊錯誤
最常見的錯誤轉向包括:
- 真正任務是清理,卻選擇語音
- 把對話當成單一說話者旁白
- 真正任務是修復既有錄音,卻選擇音效
- 真正需要完整歌曲草稿,卻從 Suno Sounds 開始
- 真正需要可播放結果,卻從 Suno Lyrics 開始
- 忽略時長或 follow-up actions 也是成本的一部分
只要先依工作流形狀分類,大多數錯誤都會消失。
快速選擇方式
如果你想要最短且可靠的決策路徑:
- 先判斷輸入是文字、結構化對話、已上傳音訊、music brief 還是 lyric brief
- 再判斷輸出是語音、多語言語音、對話、sound design、清理、完整 track、短聲音草圖,還是歌詞文字
- 選擇相符模型
- 最後再調整參數或 result-based follow-up actions
這個順序能在你花時間或點數前,先避免大多數不合適的選擇。
公開音訊頁與 Studio
當你想要第一次執行、快速比較,或從搜尋 landing page 前往正確分支時,請使用公開音訊頁。
當你需要反覆迭代、保存連續性、更完整的帳號脈絡,或在同一個音訊任務上穩定推進時,請使用 Studio。
如果你接下來想看最有用的搭配內容,可以前往 Rivya 音樂工作流、如何用 Rivya 建立 AI 音樂、如何在 Rivya 開始第一個 AI 音訊工作流、AI 旁白生成器、影片 AI Voiceover、AI 配音生成器,或 Studio。
音訊工作流檢查清單
當輸入或輸出是聲音時,從這裡開始:
- 判斷工作是語音、對話、音效、清理、音樂還是歌詞。
- 將生成新音訊和修復已上傳音訊分開。
- 交付前檢查聲音、語言、說話者數量和商業審核。
- 在花費於較長或高風險音訊任務前,先使用較短草稿。
- 將腳本和發音備註與一般創意方向分開。
音訊形狀改變時重新檢查
當 voiceover 變成配音、音樂想法變成歌詞優先寫作,或清理變成重新錄製時,請重新檢查。如果沒有先命名工作形狀,音訊任務很快就會偏離。