Especificações para Gravação de Vocais

Antes de iniciar qualquer gravação, é fundamental estabelecer os parâmetros técnicos e as boas práticas que garantirão a qualidade do dataset. Esta etapa cobre as recomendações de gravação, os requisitos de formato de áudio e os softwares indicados para a captação.

Recomendações de Gravação

Siga estas diretrizes para garantir um áudio limpo, consistente e adequado ao treinamento de modelos SVS:

Sobre Conteúdo Vocal

RecomendaçãoMotivo
Grave apenas vocais limpos, sem reverberação ou acompanhamento musical.O modelo deve aprender apenas a voz limpa, artifícios podem prejudicar a qualidade do modelo.
Utilize apenas um idioma por música/gravaçãoNem todos os SVS suportam múltiplos idiomas em um único áudio.
Cante músicas que você já conhece e está acostumado(a)Isso garante naturalidade, conforto vocal e uma performance estável.
Caso a música tenha duas seções idênticas, varie a performance na segunda seçãoIsso aumenta a diversidade expressiva do dataset.
Evite sobreposição de vozes ou harmonizaçõesO modelo deve aprender uma linha vocal única por vez.

Sobre Ambiente e Equipamento

RecomendaçãoMotivo
Reduza ao máximo o ruído de fundo e reflexões do ambienteRuídos e reverberação prejudicam a clareza dos harmônicos.
Evite vazamento de som dos fones de ouvido ou caixas de somO som vazado pode ser captado como ruído ou artefato indesejado.
Evite barulho de teclado e mouse durante a gravação da vozSons de clique são facilmente captados por microfones sensíveis.
Evite tosses, risadas ou outros sons inesperadosRespirações naturais são permitidas, mas sons extraordinários poluem o dataset.
Não grave partes faladas ou de rap junto com partes cantadasSVS pode não conseguir processar ambos os estilos simultaneamente, resultando em baixa qualidade.
Mantenha pelo menos 1 segundo de silêncio no início e no final de cada gravaçãoIsso facilita a detecção de início/fim e a edição posterior.
Mantenha a consistência de gravação durante todos os takes e dias gravadosMudanças de posição, configuração, equipamento ou ambiente podem gerar inconsistências no modelo.
Tip

Respirações naturais entre frases devem ser mantidas — elas são importantes para a naturalidade da voz sintetizada. Apenas sons extraordinários (tosse, risada, clique) devem ser evitados.


Requisitos de Formato de Áudio

Os seguintes parâmetros técnicos são obrigatórios para garantir compatibilidade com os pipelines de treinamento (como SOFA, DiffSinger, etc.):

ParâmetroEspecificação
Formato de arquivoWAV
CanaisMono
Taxa de amostragem (preferencial)48kHz / 24bit
Taxa de amostragem (alternativa)44.1kHz / 16bit
Espectro de frequênciaCompleto e claro até 16kHz, sem cortes
Nível de volumeNunca exceder 0dB (evitar clipagem)
Tip

Recomenda-se gravar em 48kHz / 24bit para maior qualidade e maior margem para pós-produção. Conversões para 44.1kHz / 16bit podem ser feitas posteriormente, se necessário.

Organização dos Arquivos

  • Grave cada música separadamente — um arquivo por música
  • Nome do arquivo em romano (sem acentos, cedilhas, espaços ou caracteres especiais)
    • song_01.wav
    • música.wav, 茉莉花.wav, my song#01.wav

Verificação de Qualidade

Antes de prosseguir, verifique:

  1. Espectro de frequência: garanta que o espectro até 16kHz esteja completo e claro. Se houver perda visível de altas frequências (corte acima de 12–16kHz), o modelo pode não ter uma qualidade desejada, tendo a necessidade de trocar o equipamento de gravação.
  2. Volume: nenhum pico deve ultrapassar 0dB. Mantenha os picos entre -12dB e -6dB para segurança.

Exemplos de espectros de boa qualidade e problemáticos estarão aqui


Softwares Recomendados

Escolha um dos seguintes DAWs (Digital Audio Workstations) para realizar a gravação:

SoftwareTipoIdeal para
Adobe AuditionProfissional (pago)Usuários que precisam de edição avançada e restauração de áudio
AudacityGratuito (open source)Iniciantes e usuários com orçamento limitado
ReaperPoderoso e flexível (avaliação gratuita)Usuários que desejam alto controle e personalização
Info

Nesta documentação estaremos utilizando o Adobe Audition como software de gravação.

Tutoriais Recomendados

Abaixo você encontra tutoriais recomendados para cada software:

Adobe Audition

Audacity

Reaper