Le MPEG Audio à l'assaut du WEB

Le bon profil

Cette troisième phase élargit encore le champ d'action du MPEG, poursuit les efforts menés par le MPEG-2 pour se plier aux exigences des médias à faibles débits, Internet en tête. La télévision numérique et les applications à base de graphisme interactif sont également concernées. Plus conceptuel, le MPEG-4 décrit des éléments visuels, audio ou audiovisuels. Qualifiés de Media Objects, ces éléments pourront être issus de sources enregistrées/numérisées ou générés par ordinateur. Mentionnons-le au passage : le format de fichiers s'appuie sur l'architecture QuickTime Apple.

Revenons à l'audio, qui occupe toujours la “troisième partie” et fait logiquement l'objet de la norme 14496-3. Sous cette référence sont réunis quatre Profiles, consistant chacun en un ensemble de fonctions et d'outils associés. Dans l'ordre, nous trouvons : Speech (compression de la parole au travers des algorithmes HVXC et CELP, synthèse vocale), Synthesis (synthèse vocale toujours, mais surtout synthèse au sens large, avec transmission des “instruments”mis en équations pour que l'ordinateur puisse générer les sons nécessaires, et de la “partition électronique”... notamment via Midi), Scalable (fonctionnalités de Speech, auxquelles s'ajoute la compression de musique via les algorithmes AAC LC, AAC SSR et TwinVQ), Main (fonctionnalités des trois autres Profiles, auxquelles s'ajoute la compression de musique via l'algorithme AAC Main).

En pratique, ces différents outils servent à coder le son, pour des débits compris entre 2 et 64 kbps. Le HVXC est recommandé pour la voix (de 2 à 4 kbps, sur des signaux à 8 ou 16 kHz), le CELP aussi (de 4 à 24 kbps, cette fois), la musique s'appuyant sur l'AAC et le TwinVQ. Les débits couverts par ces deux algorithmes s'échelonnent de 6 à 64 kbps/canal, pour l'encodage de signaux PCM dont les fréquences d'échantillonnage démarrent à 8 kHz.

L'échelle des valeurs

Par rapport à sa version MPEG-2, l'AAC se voit amélioré et agrémenté de nouveaux outils de codage, au coeur de la technologie exploitée par le MPEG-4 pour véhiculer un contenu audio musical. Parmi les améliorations apportées, nous retiendrons entre autres le concept de “scalability” (terme difficilement traduisible - éventuellement par “mise à l'échelle”) : l'un des points clefs de ce standard naissant.

On rencontre des termes tels que “bitrate scalability” (moyennant une baisse de qualité, bien sûr, le débit d'un flux de données peut être réduit, à la transmission ou au décodage), “bandwidth scalability” (même principe, en conservant une même qualité mais en se privant cette fois d'une partie du spectre), ou “decoder complexity scalability” (possibilité de soumettre le décodage d'un même signal à des décodeurs de complexité différentes), sans parler d'un mélange des genres (couche de base encodée en TwinVQ, couche supplémentaire en AAC).

On écoute

Tout comme avec le MPEG-2, de nombreux tests ont été menés pour évaluer la qualité des algorithmes de compression du MPEG-4 et les comparer à des équivalents. Par exemple, le TwinVQ à 6 kpbs se montre meilleur que le MPEG-1 Layer III à 8 kbps, et l'AAC 16 kbps un peu moins performant qu'un dénommé G.722 48 kbps (au débit trois fois supérieur, donc). Destiné à compresser des signaux musicaux, l'AAC, dans sa déclinaison “scal”, ou “Large Step Scaleable System” (flux à 56 kbps dont on peut extraire des versions 24 et 40 kbps), affiche une nette supériorité par rapport au MPEG-1 Layer III, mais ne détrône pas l'AAC Main, auquel il est légèrement inférieur en 40 et 56 kpbs (seul le 24 kpbs soutient la comparaison).

Enfin, dans sa déclinaison “scal BSAC”, ou “Small Step Scaleable” (flux à 56 kbps, dont on peut extraire des versions descendant jusqu'à 40 kpbs), il s'avère quasi-identique à l'AAC Main en 56 kpbs, mais très en-dessous en 40 kpbs. Peut mieux faire ! Signalons que l'AAC scal, BSAC ou non, encode des signaux échantillonnés à 24 kHz.

Vectorisation

Si le TwinVQ, avec l'AAC, représente une avancée majeure par rapport au MPEG-1 Layer III, difficile de savoir exactement comment il procède. On murmure que le signal serait encodé, non plus selon l'effet de masquage, mais en fonction d'une “table” de variations sonores : une sorte de “vectorisation”... Toujours est-il que la qualité de cet algorithme développé par le géant des télécommunications japonais NTT est étonnante. La plage de fréquence d'échantillonnage des signaux à encoder, mono ou stéréo, en 8 ou 16 bits, s'échelonne de 8 kHz (8 kbps par canal) à 44,1 kHz (48 kbps par canal), ce qui donne des ratios compris entre 1:15 et 1:86.

On murmure que les TwinVQ 80 et 96 kbps seraient meilleurs que les MPEG-1 Layer III 128 et 256 kbps. On dit aussi que l'on peut atteindre des ratios de 1:17 à 1:20 sans trop de conséquences sur la qualité, ou encore que le TwinVQ (les fichiers sont flanqués du suffixe “.vqf”), comme d'ailleurs l'AAC, ménage plus les aigus que le Layer III.

Pour conclure

Après le succès du MPEG-1 (Internet, Video CD, DAB, DVD...), et de son grand-frère le MPEG-2 (satellite, càble...), on peut s'attendre à ce que cette nouvelle phase accélère la diffusion audio sur le Web. Les outils sont là, semblent faire leurs preuves, et ne demandent qu'à être exploités. Cela n'empêche pas les travaux de poursuivre, avec la concrétisation du MPEG-7, sous-titré Multimedia Content Description Interface. Encore plus abstraite que le MPEG-4, cette nouvelle phase code des objets à un niveau cognitif... pourrait-on dire en toute simplicité !

Quoiqu'il en soit, entre la facilité avec laquelle télécharger des fichiers “.mp3” sur Internet et les prometteurs AAC ou Twin VQ, nous voici à l'aube d'une petite révolution dans la façon d'écouter de la musique. Un phénomène dont l'ampleur est renforcée par l'arrivée des baladeurs à mémoire conçus pour accueillir de tels fichiers. Un phénomène qui récolte les suffrages des internautes et sème la panique chez les ayant-droits. Mais ça, c'est une autre histoire...
P.S. : merci à Youssef Saidi (Philips), pour sa relecture attentive...

 Abréviations
 

Musicam : Masking Pattern Universal Sub-band Integrated Coding and Multiplexing
AAC : Advanced Audio Coding
ASPEC : Adaptive Spectral Perceptual Entropy Coding
AT&T : American Telephone and Telegraph
Atrac : Adaptative TRansform Acoustic Coding
DCC : Digital Compact Cassette
IEC : International electrotechnocal Commission
ISO : International Organisation for Standardization
MPEG : Moving Pictures Expert Group
Pasc : Precision Adaptive Sub-band Coding
BRAUT : Broadcast Rating Auxiliary Unit Transmission :-)
BSAC : Bit Sliced Arithmetic Coding
CELP : Code Excited Linear Predictive
DAB : Digital Audio Broadcasting
HVXC : Harmonic Vector eXcitation Coding
NTT : Nippon Telegraph and Telephone
TwinVQ : Transform Domain Weighted Interleave Vector Quantization

Dossier réalisé par Christian Braut

Pin It

Voir également...

Les ENVELOPPES - Explications et mise en pratique
Les ENVELOPPES - Explications et mise en pratique Par définition, le générateur d'enveloppe (EG pour envelope generator) est un module destiné à faire...
Les RÉVOLUTIONS TECHNOLOGIQUES
Les RÉVOLUTIONS TECHNOLOGIQUES En 1988, Jean-Michel Jarre a composé un album sur les révolutions. Bien placé pour en parler, car ét...
Le SCSI et le SAMPLING
Le SCSI et le SAMPLING Ou comment un standard informatique a révolutionné l'usage des échantillonneurs (sampleurs) auprès d...
AKAI - Listing des DISQUETTES S900 / S950 / S1000 ...
AKAI - Listing des DISQUETTES S900 / S950 / S1000 ... Le listing ci-dessous regroupe les disquettes originales Akai pour les échantillonneurs S900 / S950 ...
La SYNTHÈSE FM - La plus compliquée des synthèses
La SYNTHÈSE FM - La plus compliquée des synthèses Le raz-de-marée de la synthèse F.M. remonte à 1983, avec l'arrivée du DX7. Un succès sans précédent,...