Documentación de Rivya AI

Guía de flujos de audio con IA en Rivya

Elige flujos de audio en Rivya para voz, texto a voz, diálogo, efectos de sonido, limpieza, borradores musicales, créditos e iteración en Studio.

Última revisión el 2026/04/28

Usa esta guía de flujos de audio con IA antes de elegir entre voz, texto a voz, diálogo, efectos de sonido, limpieza, borradores musicales o trabajo con letras primero en Rivya.

La forma más fácil de equivocarse con audio en Rivya es pensar que "audio" es un solo flujo.

No lo es.

La categoría de audio actual cubre, en realidad, varios tipos de trabajo diferentes lado a lado.

Esta página es la referencia de flujos para el área de audio. Si quieres una guía más orientada a decidir cómo empezar la primera tarea real de voz o sonido, cómo iniciar tu primer flujo de audio con IA en Rivya es la lectura complementaria más útil.

Ahora mismo, lo primero que tocará la mayoría de usuarios sigue siendo audio hablado: voz, lectura multilingüe, diálogo, efectos de sonido y limpieza. Pero el catálogo ya incluye también una rama musical activa basada en Suno Music, Suno Sounds y Suno Lyrics, así que la categoría es más amplia que "TTS más limpieza de audio".

Empieza por la forma del trabajo

Antes de elegir un modelo de audio, decide cuál de estos problemas estás resolviendo realmente:

  • voz o narración de un solo hablante
  • salida hablada multilingüe
  • diálogo con varios hablantes
  • efectos de sonido generados
  • limpieza de una grabación subida
  • borrador de canción completa o pista instrumental primero
  • ideación de letras antes de generar audio

Estos son flujos distintos, no un solo flujo con ajustes ligeramente diferentes.

Qué cubre realmente el catálogo de audio actual

El catálogo de audio actual abarca hoy dos grupos diferentes.

Voz, diálogo, efectos de sonido y limpieza

Música y trabajo cercano a música

Lo importante no es que varios de ellos estén bajo la misma categoría. Es que pertenecen a formas de formulario y patrones de coste diferentes.

Voz hablada y narración

Si la tarea es una sola voz leyendo un guion, ElevenLabs Turbo 2.5 sigue siendo el valor por defecto más limpio.

Es el mejor punto de partida para:

  • narración
  • voice-over
  • borradores rápidos de TTS
  • pistas habladas sencillas

Si la entrega hablada debe funcionar entre idiomas, ElevenLabs Multilingual V2 encaja mejor.

Si el guion ya tiene dos o más hablantes, ElevenLabs Dialogue V3 es el mejor camino, porque el diálogo tiene una estructura distinta a una lectura de una sola persona.

Si ya sabes que el trabajo es más específico que toda el área de voz, las páginas de decisión relacionadas son mejor generador de texto a voz en 2026 para lectura simple, generador de narración con IA para explicaciones de un solo hablante y generador de doblaje con IA para pistas habladas localizadas o reemplazadas.

Diseño de sonido y limpieza

Si la tarea es "generar un sonido", ElevenLabs Sound Effect V2 es la ruta relevante.

Si la tarea es "arreglar esta grabación que ya tengo", ElevenLabs Audio Isolation es la opción correcta.

Esa distinción importa porque la primera es generación basada en prompt, mientras que la segunda es limpieza basada en subida de archivo.

La rama musical activa

El lado musical del catálogo de audio ya está activo, pero es intencionalmente más estrecho que una suite completa de producción musical.

Si el objetivo es estructura de canción, ideación guiada por letras o una salida de estilo musical, conviene empezar desde el lado musical del catálogo de audio en lugar de desde las guías de voz.

Suno Music es para primeros borradores de pista

Suno Music es la mejor ruta cuando necesitas un borrador de pista reproducible, con o sin voces.

Eso lo convierte en el inicio más claro para:

  • primeros borradores de canciones
  • pistas conceptuales instrumentales
  • música provisional para videos, demos o podcasts

Los resultados correctos pueden continuar mediante Extend Music, y los seguimientos actuales basados en resultado también incluyen conversión a WAV y separación vocal.

Suno Sounds es para bocetos sonoros cortos

Suno Sounds encaja mejor cuando el trabajo real es un boceto sonoro más corto, una cama de ambiente, una idea de loop o una textura de fondo, no una estructura completa de canción.

Es un punto de partida más útil cuando el BPM, la tonalidad o el loop importan más que las estrofas y los estribillos.

Los resultados correctos pueden continuar hacia una acción Vocal Separation.

Suno Lyrics es para palabras antes de audio

Suno Lyrics es la ruta que empieza por las palabras.

Sirve cuando el hook, el título, la dirección del estribillo o la forma de la estrofa importan antes de gastar en generación de pista. El límite importante es que devuelve resultados de texto, no audio reproducible.

Si quieres ver la rama musical con más detalle, lee flujos de música en Rivya.

Por qué los formularios cambian tanto

La superficie de audio sigue de forma intencional la forma de los modelos.

Los formularios difieren porque los trabajos difieren:

  • los modelos de voz piden texto
  • los modelos de diálogo piden turnos y asignación de hablantes
  • los efectos de sonido piden una entrada de generación parecida a una señal sonora
  • los modelos de limpieza esperan audio subido
  • los modelos musicales introducen sus propios patrones de prompt y acciones de seguimiento
  • las herramientas centradas primero en letras pueden devolver texto estructurado en lugar de archivos multimedia

No es inconsistencia. Es Rivya exponiendo la forma real de cada flujo en vez de fingir que todo funciona igual bajo un solo formulario.

Lo que la rama musical no es

La forma correcta de describir la rama musical actual es "activa y útil, pero intencionalmente acotada".

No es:

  • una DAW completa
  • una suite profunda de mastering o edición multi-stem
  • toda la familia Suno expuesta de una vez
  • una razón para tratar todo el trabajo de audio como trabajo musical

Ese límite importa porque la fortaleza actual de Rivya sigue siendo el flujo multimodal amplio, no una pila especializada solo en música.

Por qué los costes de audio se sienten distintos

El trabajo de audio en Rivya no siempre se comporta como la generación de imágenes de coste fijo.

El coste puede depender mucho más directamente de variables como:

  • longitud del guion
  • duración de salida
  • duración del audio subido
  • acciones de seguimiento basadas en resultado en tareas musicales

Algunas entradas de audio, especialmente en la rama musical activa, se documentan con precio fijo por ejecución. Otras se comportan más como patrones de coste determinados por duración o texto.

Por eso vale especialmente la pena leer credits hint en los modelos de audio. En muchos casos describe un patrón de coste, no promete una cifra plana.

Los errores de audio más comunes

Los desvíos más comunes son:

  • elegir voz cuando la tarea real es limpieza
  • tratar el diálogo como narración de un solo hablante
  • elegir efectos de sonido cuando la tarea real es reparar una grabación existente
  • empezar con Suno Sounds cuando la necesidad real es un borrador de canción completa
  • empezar con Suno Lyrics cuando la necesidad real es un resultado reproducible
  • ignorar la duración o las acciones de seguimiento como parte del coste

La mayoría de esos errores desaparecen cuando ordenas primero por forma de flujo.

Una forma rápida de elegir

Si quieres el camino de decisión fiable más corto:

  1. decide si la entrada es texto, diálogo estructurado, audio subido, brief musical o brief de letras
  2. decide si la salida es voz, voz multilingüe, diálogo, diseño de sonido, limpieza, una pista completa, un boceto sonoro corto o texto de letras
  3. elige el modelo correspondiente
  4. solo entonces ajusta parámetros o acciones de seguimiento basadas en resultado

Esa secuencia evita la mayoría de malos encajes antes de gastar tiempo o créditos.

Páginas públicas de audio frente a Studio

Usa las páginas públicas de audio cuando quieras una primera ejecución, una comparación rápida o una landing de búsqueda que te lleve a la rama correcta.

Usa Studio cuando quieras iteración repetida, continuidad guardada, más contexto de cuenta o un lugar más estable para seguir avanzando en la misma tarea de audio.

Si quieres las mejores lecturas complementarias, ve a flujos de música en Rivya, cómo crear música con IA en Rivya, cómo iniciar tu primer flujo de audio con IA en Rivya, generador de narración con IA, voice-over de IA para videos, generador de doblaje con IA o Studio.

Checklist de flujo de audio

Empieza aquí cuando la entrada o salida sea sonido:

  • Decide si el trabajo es voz, diálogo, efecto de sonido, limpieza, música o letras.
  • Separa la generación de audio nuevo de la reparación de audio subido.
  • Revisa voz, idioma, número de hablantes y revisión comercial antes de entregar.
  • Usa borradores más cortos antes de gastar en tareas de audio largas o de mayor riesgo.
  • Mantén los guiones y las notas de pronunciación separados de la dirección creativa general.

Revisa cuando el audio cambia de forma

Revisa de nuevo cuando un voiceover se convierte en doblaje, una idea musical pasa a escritura de letras primero o la limpieza se convierte en regrabación. Las tareas de audio se desvían rápido si no nombras primero la forma del trabajo.

Tabla de contenido