MPEG-4 Part 3 ou MPEG-4 Audio (formalmente ISO/IEC 14496-3) é a terceira parte do padrão internacional ISO/IEC MPEG-4 desenvolvido pelo Moving Picture Experts Group.[1] Ele especifica métodos de codificação de áudio. A primeira versão do ISO/IEC 14496-3 foi publicada em 1999.[2]
O MPEG-4 Audio não tem como alvo uma única aplicação, como telefonia em tempo real ou compressão de áudio de alta qualidade. Ele se aplica a todas as aplicações que exigem o uso de compressão, síntese, manipulação ou reprodução de som avançadas. O MPEG-4 Audio é um novo tipo de padrão de áudio que integra vários tipos diferentes de codificação de áudio: som natural e som sintético, entrega de baixa taxa de bits e entrega de alta qualidade, fala e música, trilhas sonoras complexas e simples, conteúdo tradicional e conteúdo interativo.[7]
O MPEG-4 Audio inclui um sistema para lidar com um grupo diverso de formatos de áudio de maneira uniforme. Cada formato recebe um Tipo de Objeto de Áudio exclusivo para representá-lo.[16][17] O Tipo de Objeto é usado para distinguir entre diferentes métodos de codificação. Ele determina diretamente o subconjunto de ferramentas MPEG-4 necessário para decodificar um objeto específico. Os perfis MPEG-4 são baseados nos tipos de objeto e cada perfil suporta uma lista diferente de tipos de objeto.[17]
Usado no "Perfil AAC". O tipo de objeto de áudio MPEG-4 AAC LC é baseado no perfil de baixa complexidade (LC) MPEG-2 Parte 7 combinado com Substituição de ruído perceptual (PNS) (definido em MPEG-4 Parte 3 Subparte 4).[4][19]
3
AAC SSR (Taxa de Amostragem Escalável) (Scalable Sample Rate)
1999
O tipo de objeto de áudio MPEG-4 AAC SSR é baseado no perfil de taxa de amostragem escalável (SSR) MPEG-2 Parte 7 combinado com substituição de ruído perceptual (PNS) (definido em MPEG-4 Parte 3 Subparte 4).[4][19]
ER BSAC (codificação aritmética em fatias de bits) (Bit-Sliced Arithmetic Coding)
2000
Também é conhecido como "Fine Granule Audio" ou ferramenta de escalabilidade de grão fino. É usado em combinação com as ferramentas de codificação AAC e substitui a codificação silenciosa e a formatação de fluxo de bits do codificador MPEG-4 Versão 1 GA. Resiliente a erros
Resiliente a erros, usado com CELP, ER CELP, HVXC, ER HVXC e TTSI no "Perfil de baixo atraso" ("Low Delay Profile"), (comumente usado para aplicações de conversação em tempo real)
24
ER CELP
2000
Resiliente a erros (Error Resilient)
25
ER HVXC
2000
Resiliente a erros (Error Resilient)
26
ER HILN (Linhas Harmônicas e Individuais mais Ruído) (Harmonic and Individual Lines plus Noise)
usado com AAC LC e SBR no "HE-AAC v2 Profile" ("HE-AAC v2 Profile"). A ferramenta de codificação PS foi definida em 2004 e o Tipo de Objeto definido em 2006.
também conhecido como MPEG Spatial Audio Coding (SAC), é um tipo de codificação de áudio espacial[28][29] (MPEG Surround também foi definido na ISO/IEC 23003-1 em 2007[30])
Este tipo de objeto transmite informações secundárias de codificação surround MPEG de baixo atraso (que foram definidas na Parte 2 do MPEG-D – ISO/IEC 23003-2[40]) na estrutura de áudio MPEG-4.
45
SAOC-DE
2013
Melhoria do diálogo de codificação de objeto de áudio espacial
46
Sincronização de áudio (Audio Sync)
2015
A ferramenta de sincronização de áudio oferece a capacidade de sincronizar vários conteúdos em vários dispositivos.
Perfis de Áudio
O padrão de áudio MPEG-4 define vários perfis. Esses perfis são baseados nos tipos de objetos e cada perfil suporta uma lista diferente de tipos de objetos. Cada perfil também pode ter vários níveis, o que limita alguns parâmetros das ferramentas presentes em um perfil. Esses parâmetros geralmente são a taxa de amostragem e o número de canais de áudio decodificados ao mesmo tempo.
Perfil de Áudio Sintético (Synthetic Audio Profile)
TTSI, Síntese principal (Main synthesis)
1999
Perfil de áudio de alta qualidade (High Quality Audio Profile)
AAC LC, AAC LTP, AAC Scalable, CELP, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER CELP
2000
Perfil de áudio de baixo atraso (Low Delay Audio Profile)
CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC
2000
Perfil de áudio natural (Natural Audio Profile)
AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC, ER HILN, ER Parametric
2000
Perfil de rede de áudio móvel (Mobile Audio Internetworking Profile)
ER AAC LC, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD
Audio Data Transport Stream (ADTS) – somente para AAC
Transmissão (Transmission)
ISO/IEC 14496-3
Low Overhead Audio Stream (LOAS), baseado em LATM
Não há um padrão para o transporte de fluxos elementares por um canal, porque a ampla gama de aplicações MPEG-4 tem requisitos de entrega muito amplos para serem facilmente caracterizados com uma única solução.
O transporte no Protocolo de Transporte em Tempo Real é definido no RFC 3016 (Formato de Carga Útil RTP para Fluxos de Áudio/Visual MPEG-4), RFC 3640 (Formato de Carga Útil RTP para Transporte de Fluxos Elementares MPEG-4), RFC 4281 (Parâmetro de Codecs para Tipos de Mídia "Bucket") e RFC 4337 (Registro de Tipo MIME para MPEG-4).
LATM e LOAS foram definidos para aplicações de áudio natural, que não exigem codificação sofisticada baseada em objetos ou outras funções fornecidas pelos sistemas MPEG-4.
A Codificação Avançada de Áudio em MPEG-4 Parte 3 (Áudio MPEG-4) Subparte 4 foi aprimorada em relação ao padrão anterior MPEG-2 Parte 7 (Codificação Avançada de Áudio), a fim de fornecer melhor qualidade de som para uma determinada taxa de bits de codificação.
Presume-se que quaisquer diferenças entre a Parte 3 e a Parte 7 serão resolvidas pelo órgão de padrões ISO em um futuro próximo para evitar a possibilidade de futuras incompatibilidades de bitstream. No momento, não há incompatibilidades conhecidas de player ou codec devido à novidade do padrão.
O padrão MPEG-2 Parte 7 (Advanced Audio Coding) foi publicado pela primeira vez em 1997 e oferece três perfis padrão:[45][46] Perfil de baixa complexidade (LC), perfil principal e perfil de taxa de amostragem escalável (SSR).
O MPEG-4 Parte 3 Subparte 4 (Codificação Geral de Áudio) combinou os perfis do MPEG-2 Parte 7 com Substituição de Ruído Perceptual (PNS) e os definiu como Tipos de Objetos de Áudio (AAC LC, AAC Main, AAC SSR).[4]
AAC Scalable Sample Rate foi introduzida pela Sony nos padrões MPEG-2 Parte 7 e MPEG-4 Parte 3.[carece de fontes?] Foi publicada pela primeira vez na ISO/IEC 13818-7, Parte 7: Codificação Avançada de Áudio (AAC) em 1997.[45][46] O sinal de áudio é primeiro dividido em 4 bandas usando um banco de filtros de quadratura polifásica de 4 bandas. Então essas 4 bandas são divididas ainda mais usando MDCTs com um tamanho k de 32 ou 256 amostras. Isso é semelhante ao AAC LC normal que usa MDCTs com um tamanho k de 128 ou 1024 diretamente no sinal de áudio.
A vantagem dessa técnica é que a troca de blocos curtos pode ser feita separadamente para cada banda PQF. Assim, altas frequências podem ser codificadas usando um bloco curto para melhorar a resolução temporal, baixas frequências ainda podem ser codificadas com alta resolução espectral. No entanto, devido ao aliasing entre as 4 bandas PQF, as eficiências de codificação em torno de (1,2,3) * fs/8 são piores do que o MPEG-4 AAC LC normal.
MPEG-4 AAC-SSR é muito semelhante ao ATRAC e ATRAC-3.
Por que o AAC-SSR foi introduzido
A ideia por trás do AAC-SSR não era apenas a vantagem listada acima, mas também a possibilidade de reduzir a taxa de dados removendo 1, 2 ou 3 das bandas PQF superiores. Um divisor de bitstream muito simples pode remover essas bandas e, assim, reduzir a taxa de bits e a taxa de amostragem.
Exemplo:
4 subbandas: taxa de bits = 128 kbit/s, taxa de amostragem = 48 kHz, f_lowpass = 20 kHz
3 subbandas: taxa de bits ~ 120 kbit/s, taxa de amostragem = 48 kHz, f_lowpass = 18 kHz
2 subbandas: taxa de bits ~ 100 kbit/s, taxa de amostragem = 24 kHz, f_lowpass = 12 kHz
1 subbanda: taxa de bits ~ 65 kbit/s, taxa de amostragem = 12 kHz, f_lowpass = 6 kHz
Nota: embora possível, a qualidade resultante é muito pior do que a típica para essa taxa de bits. Então, para LC AAC de 64 kbit/s normal, uma largura de banda de 14–16 kHz é alcançada usando estéreo de intensidade e NMRs reduzidos. Isso degrada a qualidade audível menos do que transmitir largura de banda de 6 kHz com qualidade perfeita.
BSAC
Bit Sliced Arithmetic Coding é um padrão MPEG-4 (ISO/IEC 14496-3 subparte 4) para codificação de áudio escalável. BSAC usa uma codificação sem ruído alternativa ao AAC, com o restante do processamento sendo idêntico ao AAC. Esse suporte para escalabilidade permite qualidade de som quase transparente a 64 kbit/s e degradação suave em taxas de bits mais baixas. A codificação BSAC é melhor executada na faixa de 40 kbit/s a 64 kbit/s, embora opere na faixa de 16 kbit/s a 64 kbit/s. O codec AAC-BSAC é usado em aplicativos de Transmissão Multimídia Digital (DMB).
Licenciamento
Em 2002, o Comitê de Licenciamento de Áudio MPEG-4 selecionou a Via Licensing Corporation como Administradora de Licenciamento para o pool de patentes de Áudio MPEG-4.[3][47][48]
Ver também
TwinVQ – um dos tipos de objetos definidos no MPEG-4 Audio versão 1
↑ abHeiko Purnhagen (7 de junho de 1999), An Overview of MPEG-4 Audio Version 2(PDF), Heiko Purnhagen, consultado em 4 de setembro de 2024, arquivado do original(PDF) em 6 de julho de 2017
↑ abScheirer, Eric D.; Ray, Lee (1998). «Algorithmic and Wavetable Synthesis in the MPEG-4 Multimedia Standard». Audio Engineering Society Convention 105, 1998. CiteSeerX10.1.1.35.2773. 2.2 Wavetable synthesis with SASBF: The SASBF wavetable-bank format had a somewhat complex history of development. The original specification was contributed by E-Mu Systems and was based on their "SoundFont" format [15]. After integration of this component in the MPEG-4 reference software was complete, the MIDI Manufacturers Association (MMA) approached MPEG requesting that MPEG-4 SASBF be compatible with their "Downloaded Sounds" format [13]. E-Mu agreed that this compatibility was desirable, and so a new format was negotiated and designed collaboratively by all parties.