Docs Rivya AI

Hướng dẫn workflow âm thanh AI trong Rivya

Chọn workflow âm thanh trong Rivya cho voice, text to speech, dialogue, sound effects, cleanup, music drafts, credits và vòng lặp Studio.

Đánh giá lần cuối vào 2026/04/28

Dùng hướng dẫn workflow âm thanh AI này trước khi bạn chọn giữa voice, text to speech, dialogue, sound effects, cleanup, music drafts hoặc làm việc lyric-first trong Rivya.

Cách dễ nhất để dùng sai audio trong Rivya là nghĩ rằng "audio" chỉ là một workflow.

Không phải vậy.

Danh mục audio hiện tại thực ra bao gồm nhiều kiểu công việc khác nhau đặt cạnh nhau.

Trang này là tài liệu tham chiếu workflow cho khu vực audio. Nếu bạn muốn một hướng dẫn thiên về quyết định hơn về cách bắt đầu tác vụ voice hoặc sound đầu tiên, Cách bắt đầu workflow âm thanh AI đầu tiên trong Rivya là bài đọc ghép phù hợp hơn.

Hiện tại, phần mà hầu hết người dùng chạm tới trước vẫn là spoken audio: voice, readout đa ngôn ngữ, dialogue, sound effects và cleanup. Nhưng catalog cũng đã có một nhánh music đang live xoay quanh Suno Music, Suno SoundsSuno Lyrics, nên danh mục này rộng hơn "TTS cộng audio cleanup".

Bắt đầu từ hình dạng job

Trước khi chọn model audio, hãy quyết định bạn thật sự đang giải quyết vấn đề nào:

  • voice hoặc narration một người nói
  • spoken output đa ngôn ngữ
  • dialogue nhiều người nói
  • sound effects được tạo mới
  • cleanup bản ghi đã upload
  • bản nháp bài hát đầy đủ hoặc track bắt đầu từ nhạc cụ
  • lên ý tưởng lyric trước khi tạo audio

Đó là các workflow khác nhau, không phải một workflow duy nhất với vài setting khác nhau.

Catalog audio hiện tại thật sự bao gồm gì

Catalog audio hiện tại trải qua hai cụm khác nhau.

Voice, dialogue, sound effects và cleanup

Music và công việc liền kề music

Điểm quan trọng không phải là vài model tình cờ nằm dưới cùng một category. Quan trọng là chúng thuộc về các hình dạng form khác nhau và các pattern chi phí khác nhau.

Spoken voice và narration

Nếu tác vụ là một giọng đọc một script, ElevenLabs Turbo 2.5 vẫn là mặc định sạch nhất.

Đây là nơi tốt nhất để bắt đầu cho:

  • narration
  • voice-over
  • bản nháp TTS nhanh
  • spoken tracks đơn giản

Nếu phần spoken delivery phải hoạt động trên nhiều ngôn ngữ, ElevenLabs Multilingual V2 phù hợp hơn.

Nếu script đã có hai người nói trở lên, ElevenLabs Dialogue V3 là hướng tốt hơn vì dialogue có cấu trúc khác với một người đọc.

Nếu bạn đã biết job hẹp hơn toàn bộ khu vực voice, các trang quyết định ghép kèm là Trình tạo text to speech tốt nhất năm 2026 cho phần đọc thẳng, Trình tạo lời dẫn AI cho giải thích một người nói và Trình tạo lồng tiếng AI cho track spoken được localization hoặc thay thế.

Sound design và cleanup

Nếu tác vụ là "tạo một âm thanh", ElevenLabs Sound Effect V2 là hướng liên quan.

Nếu tác vụ là "sửa bản ghi tôi đã có", ElevenLabs Audio Isolation mới là lựa chọn đúng.

Phân biệt này quan trọng vì nhánh đầu là generation bắt đầu từ prompt, còn nhánh thứ hai là cleanup bắt đầu từ upload.

Nhánh music đang live

Phía music của catalog audio đã live, nhưng cố ý hẹp hơn một bộ sản xuất music đầy đủ.

Nếu mục tiêu là cấu trúc bài hát, ý tưởng dẫn bằng lyric hoặc output theo style music, hãy bắt đầu từ phía music của catalog audio thay vì từ các guide voice.

Suno Music dành cho bản nháp track đầu tiên

Suno Music là hướng tốt hơn khi bạn cần một bản nháp track có thể phát, có hoặc không có vocal.

Điều đó khiến nó là điểm bắt đầu rõ nhất cho:

  • bản nháp bài hát đầu tiên
  • concept track bắt đầu từ nhạc cụ
  • nhạc thô cho video, demo hoặc podcast

Kết quả thành công có thể tiếp tục qua Extend Music, và các follow-up dựa trên kết quả hiện tại cũng bao gồm chuyển đổi WAV và tách vocal.

Suno Sounds dành cho sketch âm thanh ngắn

Suno Sounds phù hợp hơn khi job thật sự là một sonic sketch ngắn, ambience bed, ý tưởng loop hoặc texture nền thay vì cấu trúc bài hát hoàn chỉnh.

Đây là nơi hữu ích hơn để bắt đầu khi BPM, key hoặc khả năng loop quan trọng hơn verse và chorus.

Kết quả thành công có thể tiếp tục vào action Vocal Separation.

Suno Lyrics dành cho lời trước audio

Suno Lyrics là hướng words-first.

Nó hữu ích khi hook, title, hướng chorus hoặc hình dạng verse quan trọng trước khi bạn chi credits cho track generation. Ranh giới quan trọng là nó trả về kết quả văn bản, không phải audio có thể phát.

Nếu bạn muốn nhánh music được tách ra chi tiết hơn, hãy đọc Workflow music trong Rivya.

Vì sao form thay đổi nhiều như vậy

Bề mặt audio được thiết kế theo hình dạng của model.

Forms khác nhau vì jobs khác nhau:

  • voice models yêu cầu text
  • dialogue models yêu cầu turns và speaker assignment
  • sound effects yêu cầu input generation giống cue
  • cleanup models cần uploaded audio
  • music models có pattern prompt và follow-up actions riêng
  • công cụ lyric-first có thể trả về structured text thay vì media files

Đó không phải là sự thiếu nhất quán. Đó là Rivya phơi bày hình dạng thật của từng workflow thay vì giả vờ mọi thứ hoạt động giống nhau dưới một form.

Nhánh music hiện tại không phải là gì

Cách mô tả đúng nhánh music hiện tại là "đã live và hữu ích, nhưng cố ý hẹp".

Nó không phải là:

  • một DAW đầy đủ
  • một bộ mastering sâu hoặc chỉnh sửa multi-stem
  • toàn bộ họ Suno được mở cùng lúc
  • lý do để xem mọi công việc audio như công việc music

Ranh giới đó quan trọng vì sức mạnh hiện tại của Rivya vẫn là workflow đa mô thức rộng hơn, không phải một stack chuyên music.

Vì sao chi phí audio có cảm giác khác

Công việc audio trong Rivya không phải lúc nào cũng giống image generation với chi phí cố định.

Chi phí có thể phụ thuộc trực tiếp hơn vào các biến như:

  • độ dài script
  • thời lượng output
  • thời lượng audio đã upload
  • follow-up actions dựa trên kết quả trong các tác vụ music

Một số entry audio, đặc biệt trên nhánh music đang live, được ghi với giá cố định theo mỗi lần chạy. Các entry khác giống pattern chi phí theo duration hoặc theo text hơn.

Vì vậy credits hint đặc biệt đáng đọc trên các audio model. Trong nhiều trường hợp, nó đang mô tả một pattern chi phí chứ không hứa hẹn một con số phẳng duy nhất.

Những lỗi audio thường gặp nhất

Các hướng sai phổ biến nhất là:

  • chọn voice khi tác vụ thật sự là cleanup
  • xử lý dialogue như narration một người nói
  • chọn sound effects khi tác vụ thật sự là sửa một bản ghi đã có
  • bắt đầu với Suno Sounds khi nhu cầu thật sự là bản nháp bài hát đầy đủ
  • bắt đầu với Suno Lyrics khi nhu cầu thật sự là kết quả có thể phát
  • bỏ qua duration hoặc follow-up actions như một phần của bức tranh chi phí

Hầu hết lỗi này biến mất khi bạn phân loại theo hình dạng workflow trước.

Cách chọn nhanh

Nếu bạn muốn đường quyết định ngắn và đáng tin cậy nhất:

  1. quyết định input là text, structured dialogue, uploaded audio, music brief hay lyric brief
  2. quyết định output là voice, multilingual voice, dialogue, sound design, cleanup, full track, short sound sketch hay lyric text
  3. chọn model khớp
  4. chỉ sau đó mới tinh chỉnh parameters hoặc result-based follow-up actions

Trình tự này ngăn hầu hết lựa chọn sai trước khi bạn tốn thời gian hoặc credits.

Public audio pages so với Studio

Dùng public audio pages khi bạn muốn chạy lần đầu, so sánh nhanh hoặc một search landing page đưa bạn đến đúng nhánh.

Dùng Studio khi bạn muốn lặp lại nhiều vòng, lưu continuity, có context tài khoản đầy đủ hơn hoặc một nơi ổn định hơn để tiếp tục đẩy cùng một tác vụ audio.

Nếu muốn các tài liệu đồng hành hữu ích tiếp theo, hãy mở Workflow music trong Rivya, Cách tạo music AI với Rivya, Cách bắt đầu workflow âm thanh AI đầu tiên trong Rivya, Trình tạo lời dẫn AI, AI Voiceover cho video, Trình tạo lồng tiếng AI hoặc Hướng dẫn Rivya Studio.

Checklist workflow audio

Bắt đầu ở đây khi input hoặc output là âm thanh:

  • Quyết định job là voice, dialogue, sound effect, cleanup, music hay lyrics.
  • Tách việc tạo audio mới khỏi việc sửa audio đã upload.
  • Kiểm tra voice, language, speaker count và commercial review trước khi delivery.
  • Dùng bản nháp ngắn hơn trước khi chi credits cho tác vụ audio dài hơn hoặc rủi ro hơn.
  • Tách script và pronunciation notes khỏi creative direction chung.

Kiểm tra lại khi audio đổi hình dạng

Kiểm tra lại khi voiceover trở thành dubbing, ý tưởng music trở thành viết lyrics-first hoặc cleanup trở thành thu lại. Tác vụ audio đổi hướng rất nhanh nếu hình dạng job không được gọi tên.

Mục lục