Le MPEG Audio à l'assaut du WEB

Mettez m'en trois couches

Globalement, à débit égal, la qualité obtenue est proportionnelle au niveau de la couche utilisée. Le temps de compression/décompression l'est aussi, cela coule de source... En pratique, le Layer I convient à des applications où prime la qualité et/ou le temps d'encodage/décodage. Par contre, si la bande passante, trop faible, constitue un frein (comme sur Internet, par exemple), on s'orientera vers le Layer III.

La plage de débits qu'offre le MPEG-1 s'échelonne de 32 à 448 kbps pour le Layer I (sa version 384 kbps est utilisée par la DCC sous le nom de PASC), de 32 à 384 pour le Layer II et de 32 à 320 pour le Layer III. Plusieurs remarques par rapport à cela. Premièrement, quoique rien n'empêche d'encoder un signal en choisissant n'importe quel débit à l'intérieur de ces plages, toutes proposent 14 valeurs présélectionnées. Deuxièmement, à chacun de ces trois niveaux correspond en quelque sorte un débit idéal, celui pour lesquels ils ont été conçus : 192 kbps par canal pour le Layer I, 128 kbps par canal pour le Layer II et 64 kbps par canal pour le Layer III. Sur Internet, c'est ce dernier débit, de 128 kbps pour un signal stéréophonique, donc, que l'on rencontre le plus souvent. Nous l'avons dit, les fichiers ainsi encodés portent le suffixe “.mp3” (le “.mp2” identifie les fichiers Layer II, et le “.mp1” les fichiers Layer I).

On considère que le MPEG-1 Audio procure une qualité proche de celle du CD avec un débit 384 kbps pour le Layer I (soit un ratio de compression de 1:4), de 192 à 256 kbps pour le Layer II (soit un ratio de compression compris entre 1:6 et 1:8) et de 112 à 128 kbps pour le Layer III (soit un ratio de compression compris entre 1:10 et 1:12). Pour en revenir au principe du masquage, les Layer I et II découpent le signal en 32 bandes, à leur tour décomposées en 18 bandes par le Layer III (soit un total de 576) : des tranches de 27,78 Hz avec un signal d'origine échantillonné à 32 kHz, contre 500 Hz seulement pour les Layer I et II. Afin d'améliorer encore l'efficacité de la compression, le MPEG-1 Audio traque également la redondance (codage de Huffman).

MPEG-2

Étant donné le succès rencontré par le MPEG-1, il a été décidé de poursuivre dans cette voie et d'étendre le standard à d'autres types d'applications, de le rendre plus efficace mais aussi mieux armé pour faire face à de faibles débits. D'où la naissance du MPEG-2, publié sous la référence 13818. Cette nouvelle norme compte neuf parties numérotées de 13818-1 à 13818-9 (les cinq premières reprennent les intitulés de leurs homologues MPEG-1). Le développement de ces différentes parties s'est échelonné dans le temps. Deux d'entre elles concernent l'audio, à commencer par la troisième (ISO/IEC 13818-3).

Finalisée en 1994 et publié en 1995, elle est non seulement très proche du standard MPEG-1 Audio, mais surtout compatible avec lui. C'est la raison pour laquelle on la surnomme MPEG-2 BC (Backward Compatible). Elle reprend le principe des trois Layers et propose une structure de fichiers similaire (pour augmenter la confusion, eux aussi sont écopent des suffixes “.mp1” , “.mp2” et “.mp3”). Les différences portent essentiellement sur deux points.

Quoi de neuf ?

Primo sur les fréquences d'échantillonnage des signaux à encoder : 16, 22,05 et 24 kHz, soit la moitié de celles du MPEG-1. D'où des débits plus faibles, s'échelonnant de 32 à 256 kbps (Layer I) et de 8 à 160 kpbs (Layer II /III). Notons qu'en dépit d'une compatibilité descendante, un logiciel de décodage MPEG-1 Audio ne pourra exploiter ces trois nouvelles fréquences.

Secundo sur l'apport de canaux supplémentaires : jusqu'à sept, par exemple pour le surround, en 5.1 (canaux avant gauche et droit, canal central, canaux arrière gauche et droit, canal sub en option), ou dans un but de diffusion multilingue. Stockés dans des zones auxiliaires - un genre d'équivalent des subcodes d'une cassette DAT, en quelque sorte -, ces canaux seront purement et simplement ignorés par un décodeur MPEG-1. Pour maintenir une compatibilité avec ce dernier dans le cadre d'une transmission surround, il est prévu de pouvoir scinder la modulation en deux flux : d'une part un mixage stéréo matricé (canaux avant gauche + centre + arrière gauche à gauche, canaux avant droit + centre + arrière droit à droite), de l'autre des informations permettant d'en extraire nos cinq canaux.

Concrètement, seul le mixage stéréo matricé sera lu par un décodeur MPEG-1, tandis qu'un décodeur MPEG-2 tirera profit des informations en question, stockées dans les zones auxiliaires réservées aux canaux supplémentaires, pour reconstituer et restituer un signal 5.1. élégante sur le papier, cette solution induit des compromis (la redondance des canaux centre et arrière gauche/arrière droit nuit à l'efficacité du système) qui la rendent moins efficace que celles n'ayant pas ce souci de compatibilité - le Dolby AC-3, notamment (c'est au décodeur qu'incombe la tàche de fournir, si besoin, un mixage stéréo des cinq canaux).

Toujours plus loin

De ces considérations, il ressort clairement que le MPEG-2 BC, s'il présente assurément une avancée par rapport au MPEG-1, n'est pas une révolution en soi... d'autant qu'il n'améliore pas à proprement parler la qualité audio.

Devant la nécessité de répondre plus efficacement aux exigences de la diffusion multicanal, mais aussi d'intégrer les progrès effectués en matière de compression, une extension au MPEG-2 Audio a été créée. Naturellement incompatible avec le MPEG-1, parfois surnommée MPEG-2 NBC (Non Backward Compatible), elle est officiellement baptisée MPEG-2 AAC.

Finalisé en avril 1997 et matérialisé en 1998 par le document ISO/IEC 13818-7, ce standard représente l'état de l'art en matière de compression. Plus élaboré que le Dolby AC-3, particulièrement approprié à la transmission d'audio sur Internet, il a été développé par des sociétés comme Fraunhofer Institute for Integrated Circuits IIS, AT&T, Dolby Labs, Sony, l'université d'Hanovre, NEC, Sony, Lucent Technologies... Dans les faits, il est possible de véhiculer jusqu'à 48 canaux pleine bande, 15 canaux basse fréquence, des canaux multilingues..., et d'encoder des signaux aux fréquences d'échantillonnage comprises entre 8 et 96 kHz. Si la notion de Layer s'est envolée, on retrouve trois niveaux de complexité : Main, LC (Low Complexity) et SSR (Scaleable Sampling Rate). Là encore, plus la structure est complexe, plus les temps d'encodage/décodage sont longs (un Pentium 90 MHz minimum est requis pour un décodage temps réel), et meilleure est la qualité à débit égal.

A l'oreille

Des tests ont démontré que l'AAC Main, l'AAC LC et l'AAC SSR à 128 kpbs étaient supérieurs au MPEG-1 Layer-II à 192 kbps et au MPEG-1 Layer III à 128 kbps. L'AAC Main 96 kbps se comporte également mieux que le MPEG-1 Layer III à 128 kbps, en usage sur Internet. Cela signifie concrètement que le MPEG-2 AAC laisse le choix entre un temps de chargement 1,33 fois plus rapide pour un son équivalent (25% d'économie), ou une qualité supérieure pour un même débit. Par ailleurs, 80% des auditeurs sondés n'ont décelé aucune différence sensible entre l'AAC Main 128 et l'original ! Enfin, l'AAC Main cinq canaux à 320 kpbs (64 kbps par canal) dépasserait le MPEG-2 BC à 640 kbps. Si l'AAC était sorti plutôt, nul doute qu'il aurait pris la place de mon second sur les DVD PAL. Dommage...

Au rayon logiciels, en théorie, on ne trouverait soi-disant pas de freewares ou de sharewares. En effet, si le “code source” du décodeur est public, des rumeurs circulent comme quoi des royalties seraient prélevées sur l'exploitation. En pratique, il existe d'ores et déjà quelques programmes de décodage et d'encodage en téléchargement sur le Web. D'autre part, le site a2b exploite l'AAC à des fins commerciales, en association avec des systèmes de cryptage et de paiement.

En attendant que le MPEG-2 NBC se répande sur Internet, on ne sait toujours pas de quelle extension seront affublés les fichiers : “.mp4” ? “.aac” ? L'AAC faisant partie intégrante de la quatrième phase, dite MPEG-4, qui incorpore d'autres procédés de compression et fera l'objet d'un second volet, voilà encore une belle source de confusion en perspective ! Nous vous donnons donc rendez-vous le mois prochain, pour la suite et fin de la saga MPEG Audio...

Après avoir retracé l'historique des phases 1 et 2, voici les dernières nouvelles du front MPEG Audio, avec un tour d'horizon de la phase 4.

Prévu pour la télévision haute-définition, le MPEG-3 n'a jamais vu le jour : il fut abandonné, le MPEG-2 ayant été jugé suffisant. Nous passons donc directement au MPEG-4, sous titré Very Low Bitrate Audio-Visual Coding. Finalisés en octobre 1999, les travaux avaient démarré en juin 1993.