Documentação da Rivya AI

Guia de fluxos de áudio com IA da Rivya

Escolha fluxos de áudio com IA da Rivya para voz, text to speech, diálogo, efeitos sonoros, limpeza, rascunhos musicais, créditos e iteração no Studio.

Última revisão em 2026/04/28

Use este guia de fluxos de áudio com IA antes de escolher entre voz, text to speech, diálogo, efeitos sonoros, limpeza, rascunhos musicais ou trabalho lyrics-first na Rivya.

A forma mais fácil de errar áudio na Rivya é pensar que "áudio" é um único fluxo de trabalho.

Não é.

A categoria atual de áudio cobre, na prática, vários tipos diferentes de trabalho lado a lado.

Esta página é a referência de fluxo para a área de áudio. Se você quer um guia mais orientado à decisão sobre como começar a primeira tarefa real de voz ou som, Como começar seu primeiro fluxo de áudio com IA na Rivya é a leitura complementar mais adequada.

Neste momento, a parte que a maioria dos usuários toca primeiro ainda é áudio falado: voz, leitura multilíngue, diálogo, efeitos sonoros e limpeza. Mas o catálogo também já inclui um ramo musical ativo construído em torno de Suno Music, Suno Sounds e Suno Lyrics, então a categoria é mais ampla do que "TTS mais limpeza de áudio".

Comece Pelo Formato do Trabalho

Antes de escolher um modelo de áudio, decida qual destes problemas você está realmente resolvendo:

  • voz ou narração de um único locutor
  • saída falada multilíngue
  • diálogo com vários locutores
  • efeitos sonoros gerados
  • limpeza de uma gravação enviada
  • rascunho de música completa ou faixa instrumental-first
  • ideação de letras antes da geração de áudio

Esses são fluxos de trabalho diferentes, não um único fluxo com configurações levemente diferentes.

O Que o Catálogo Atual de Áudio Realmente Cobre

O catálogo atual de áudio abrange hoje dois clusters diferentes.

Voz, diálogo, efeitos sonoros e limpeza

Música e trabalhos adjacentes à música

O ponto importante não é que vários deles por acaso fiquem sob a mesma categoria. É que eles pertencem a formatos de formulário diferentes e padrões de custo diferentes.

Voz Falada e Narração

Se a tarefa é uma única voz lendo um roteiro, ElevenLabs Turbo 2.5 ainda é o padrão limpo.

Esse é o melhor lugar para começar em:

  • narração
  • voice-over
  • rascunhos rápidos de TTS
  • trilhas faladas simples

Se a entrega falada precisa funcionar entre idiomas, ElevenLabs Multilingual V2 é a opção mais adequada.

Se o roteiro já tem dois ou mais locutores, ElevenLabs Dialogue V3 é o caminho melhor, porque diálogo é estruturalmente diferente de uma leitura por uma só pessoa.

Se você já sabe que o trabalho é mais estreito do que toda a área de voz, as páginas de decisão pareadas são Melhor gerador de text to speech em 2026 para leitura simples, Gerador de narração com IA para explicações com um locutor e Gerador de dublagem com IA para faixas faladas localizadas ou substituídas.

Design de Som e Limpeza

Se a tarefa é "gerar um som", ElevenLabs Sound Effect V2 é o caminho relevante.

Se a tarefa é "corrigir esta gravação que eu já tenho", ElevenLabs Audio Isolation é a escolha certa.

Essa distinção importa porque o primeiro é geração prompt-first, enquanto o segundo é limpeza upload-first.

O Ramo Musical Ativo

O lado musical do catálogo de áudio já está ativo, mas é intencionalmente mais estreito do que uma suíte completa de produção musical.

Se o objetivo é estrutura de música, ideação guiada por letra ou saída em estilo musical, ajuda começar pelo lado musical do catálogo de áudio em vez dos guias de voz.

Suno Music é para primeiros rascunhos de faixa

Suno Music é o melhor caminho quando você precisa de um rascunho de faixa tocável, com ou sem vocais.

Isso faz dele o ponto de partida mais claro para:

  • primeiros rascunhos de música
  • faixas conceituais instrumental-first
  • música rascunho para vídeos, demos ou podcasts

Resultados bem-sucedidos podem continuar por Extend Music, e os follow-ups atuais baseados em resultado também incluem conversão para WAV e separação vocal.

Suno Sounds é para esboços sonoros curtos

Suno Sounds se encaixa melhor quando o trabalho real é um esboço sonoro mais curto, cama de ambiência, ideia de loop ou textura de fundo, em vez de uma estrutura completa de canção.

É o lugar mais útil para começar quando BPM, tonalidade ou looping importam mais do que versos e refrões.

Resultados bem-sucedidos podem continuar para uma ação de Vocal Separation.

Suno Lyrics é para palavras antes do áudio

Suno Lyrics é o caminho words-first.

Ele é útil quando o hook, título, direção do refrão ou formato do verso importam antes de você gastar em geração de faixa. O limite importante é que ele retorna resultados de texto, não áudio tocável.

Se você quer o ramo musical separado com mais detalhe, leia Fluxos de Música na Rivya.

Por Que os Formulários Mudam Tanto

A superfície de áudio é intencionalmente moldada por modelo.

Os formulários diferem porque os trabalhos diferem:

  • modelos de voz pedem texto
  • modelos de diálogo pedem turnos e atribuição de locutor
  • efeitos sonoros pedem entrada de geração em formato de cue
  • modelos de limpeza esperam áudio enviado por upload
  • modelos musicais introduzem seus próprios padrões de prompt e ações de follow-up
  • ferramentas lyric-first podem retornar texto estruturado em vez de arquivos de mídia

Isso não é inconsistência. É a Rivya expondo o formato real de cada fluxo de trabalho, em vez de fingir que tudo funciona da mesma maneira em um único formulário.

O Que o Ramo Musical Não É

A forma correta de descrever o ramo musical atual é "ativo e útil, mas intencionalmente estreito".

Ele não é:

  • uma DAW completa
  • uma suíte profunda de masterização ou edição multi-stem
  • toda a família Suno exposta de uma vez
  • um motivo para tratar todo trabalho de áudio como trabalho musical

Esse limite importa porque a força atual da Rivya ainda é o fluxo multimodal mais amplo, não uma stack especializada apenas em música.

Por Que Custos de Áudio Parecem Diferentes

Trabalhos de áudio na Rivya nem sempre se comportam como geração de imagem de custo fixo.

O custo pode depender muito mais diretamente de variáveis como:

  • duração do roteiro
  • duração da saída
  • duração do áudio enviado
  • ações de follow-up baseadas em resultado em tarefas musicais

Algumas entradas de áudio, especialmente no ramo musical ativo, são documentadas com preço fixo por execução. Outras se comportam mais como padrões de custo moldados por duração ou texto.

É por isso que vale especialmente a pena ler o credits hint em modelos de áudio. Em muitos casos, ele descreve um padrão de custo, não promete um único número fixo.

Os Erros Mais Comuns em Áudio

Os desvios mais comuns são:

  • escolher voz quando a tarefa real é limpeza
  • tratar diálogo como narração de um único locutor
  • escolher efeitos sonoros quando a tarefa real é reparar uma gravação existente
  • começar com Suno Sounds quando a necessidade real é um rascunho de música completa
  • começar com Suno Lyrics quando a necessidade real é um resultado tocável
  • ignorar duração ou ações de follow-up como parte do quadro de custo

A maioria desses erros desaparece quando você separa primeiro pelo formato do fluxo.

Um Caminho Rápido Para Escolher

Se você quer o caminho de decisão confiável mais curto:

  1. decida se a entrada é texto, diálogo estruturado, áudio enviado, briefing musical ou briefing de letra
  2. decida se a saída é voz, voz multilíngue, diálogo, sound design, limpeza, faixa completa, esboço sonoro curto ou texto de letra
  3. escolha o modelo correspondente
  4. só então ajuste parâmetros ou ações de follow-up baseadas em resultado

Essa sequência evita a maioria dos encaixes ruins antes de você gastar tempo ou créditos.

Páginas Públicas de Áudio vs Studio

Use as páginas públicas de áudio quando quiser uma primeira execução, uma comparação rápida ou uma landing page de busca que leve você ao ramo certo.

Use o Studio quando quiser iteração repetida, continuidade salva, contexto de conta mais completo ou um lugar mais estável para continuar avançando a mesma tarefa de áudio.

Se você quer os próximos complementos mais úteis, vá para Fluxos de Música na Rivya, Como criar música com IA na Rivya, Como começar seu primeiro fluxo de áudio com IA na Rivya, Gerador de narração com IA, Voiceover com IA para vídeos, Gerador de dublagem com IA ou Studio.

Checklist de Fluxo de Áudio

Comece aqui quando a entrada ou saída for som:

  • Decida se o trabalho é voz, diálogo, efeito sonoro, limpeza, música ou letras.
  • Separe gerar novo áudio de reparar áudio enviado por upload.
  • Confira voz, idioma, número de locutores e revisão comercial antes da entrega.
  • Use rascunhos mais curtos antes de gastar em tarefas de áudio mais longas ou de maior risco.
  • Mantenha roteiros e notas de pronúncia separados da direção criativa geral.

Reconfira Quando o Áudio Mudar de Formato

Reconfira quando um voiceover virar dublagem, uma ideia musical virar escrita lyrics-first ou limpeza virar regravação. Tarefas de áudio desviam rapidamente se o formato do trabalho não for nomeado.

Sumário