Le MPEG Audio à l'assaut du WEB

Primo, les fichiers audio “.mp3”, déjà solidement implantés, poursuivent leur ascension. Secundo, les écouter n'importe où devient réalité gràce aux baladeurs à mémoire : Rio, iPod, Archos et autres. Tertio, l'arrivée de nouveaux algorithmes, AAC et TwinVQ en tête, repousse encore plus loin les limites de la compression. Historique et état des lieux de standards en constante évolution...

Nul n'ignore les contraintes de l'Internet en matière d'audio : les “tuyaux” (modems) sont trop étroits pour le son. Le rapport entre le débit requis par la lecture d'un CD et celui d'un modem à 33 600 bauds est d'exactement 42 (44 100 kHz x 16 bits x 2 canaux/33 600 bauds), soit deux heures pour rapatrier un titre de 3 mn. Autant faire une croix sur le téléchargement ! Quant aux procédés de streaming, c'est-à-dire de diffusion temps réel, les taux de compression élevés nécessaires - d'au moins 42, donc, sur la base d'un modem 33 600 -, se traduisent par une qualité plus qu'approximative : tout juste suffisante pour écouter les extraits d'un album avant achat ou découvrir un nouveau groupe au hasard d'un site...

En attendant la démocratisation des accès haut débit, câble ou satellite, la solution passe par un habile compromis entre temps de téléchargement (raisonnable) et qualité (acceptable). En la matière, les fichiers “.mp3” font des étincelles. Malgré un taux de compression proche de douze, soit à peine quatre fois la durée d'un morceau pour le télécharger en 33600 (deux fois avec une ligne Numeris), le son reste honnête - relativement proche de celui d'un CD... Mais au fait ? Que signifie donc “.mp3” ? Ce suffixe identifie les fichiers audio compressés au standard MPEG-1 Layer III. Une dénomination qui mérite des éclaircissements...

MPEG contre Dolby

Le débit d'un signal audionumérique 16 bits / 44,1 kHz frôle les 1,4 mégabits/seconde (1378,125 kbps pour être précis), là où un signal audio/vidéo atteint les 200 Mégabits/seconde. Compte tenu des contraintes technologiques actuelles, tant en termes de capacité que de débit, la plupart des applications requièrent donc une compression de l'image et/ou du son. En conséquence, l'industrie ne cesse de développer des algorithmes toujours plus performants, adaptés aux supports et médias d'aujourd'hui : radio et télédiffusion numérique, CD-ROM, DVD, Internet... Côté son, deux géants s'affrontent : le Dolby AC et le MPEG Audio, appellation regroupant “l'aspect son” des différents standards MPEG, initialement développés pour offrir un signal numérique audio/vidéo de qualité équivalente à celle du VHS.

En perpétuelle progression, ces procédés parmi les plus populaires offrent diverses options : choix du taux (et donc du débit), de la fréquence d'échantillonnage du son d'origine, du nombre de canaux (mono, stéréo, 5.1...), etc. En cela, ils savent s'adapter à la plupart des applications. Ce n'est d'ailleurs pas un hasard si l'un et l'autre ont été retenus pour le DVD Video ou, dans un autre style, si la majorité des techniques de streaming Internet (Real Audio, Liquid Audio, Xing...) sont issues, soit du MPEG, soit du Dolby. Depuis ses débuts, ce dernier bien évolué : il a démarré avec l'AC-1 (stéréo), suivi de l'AC-2 (toujours stéréo, mais plus performant), pour en arriver à l'AC-3, également connu sous la dénomination Dolby Digital (encore plus performant, il offre la possibilité de transmettre du 5.1). Du MPEG-1 au MPEG-4, son concurrent a suivi lui aussi nombre d'évolutions, objets de cet article.

MPEG-1

Contrairement aux algorithmes Dolby, développés par la firme du même nom, les standards MPEG sont le fruit d'une cellule de travail créée en mai 1988 par l'ISO. Les trois cents et quelque professionnels qu'elle rassemble - constructeurs, centres de recherche, instituts de normalisation... - se réunissent environ quatre fois l'an, une semaine durant, pour développer des standards de compression audio/vidéo.

Côté nomenclature règne un certain flou. Sachez tout d'abord que le MPEG procède par phases. La première d'entre elles, le MPEG-1, fut achevée en 1992. Publié en 1993, le document officiel correspondant porte la référence ISO/IEC 11172 et s'intitule Coding of Moving Pictures and Associated Audio for Digital Storage at up to About 1,5 Mbits/s. En clair, il s'agit de coder l'image et le son à destination d'applications à débit relativement élevé : CD-ROM, liaisons ISDN, certains systèmes broadcast... La qualité obtenue est supposée égaler celle du VHS.

J'encode, je décode

Cette première phase se décompose en cinq parties : Systems (11172-1), Video (11172-2), Audio (11172-3), Conformance Testing (11172-4) et Software Simulation (11172-5). La troisième, celle qui nous intéresse présentement, décrit une structure de fichiers compressés à partir de signaux PCM échantillonnés à 32, 44,1 ou 48 kHz. Cette structure fournit les informations nécessaires et suffisantes pour procéder à la décompression – ou au décodage, c'est comme vous voulez – desdits fichiers. Par contre, rien ne normalise la façon dont les compresser - ou de les encoder -, ce qui constitue l'un des atouts majeurs du MPEG : permettre à chacun de développer sa propre méthode de compression, avec comme seul impératif de stocker le résultat conformément à la structure décrite. Conséquence : les encodeurs évoluent et s'améliorent au fil du temps !

Cela rend d'autant plus difficile le choix des logiciels (de nombreux freewares et sharewares sont disponibles sur Internet en téléchargement), tous n'affichant pas des performances identiques. Pour information, l'algorithme de compression du MiniDisc, l'Atrac de Sony (aujourd'hui en version 4.5), bénéficie du même avantage. Précisons enfin que les temps d'encodage sont sensiblement plus élevés que les temps de décodage. D'autre part, sauf à en réduire considérablement la qualité, les encodeurs sont encore loin, sur les ordinateurs “grand public”, de travailler en temps réel.

Bas les masques

Comme beaucoup d'autres algorithmes, le MPEG tire parti du célèbre effet psychoacoustique de masquage. Schématiquement, on considère comme non perceptibles, et donc susceptibles d'être éliminés, des sons de faible amplitude masqués par des sons de forte amplitude dans la même zone spectrale. A l'instar de procédés tels le Dolby AC-2/AC-3, le Real Audio, l'Atrac..., le MPEG, pour procéder à la compression, découpe le signal en plusieurs bandes de fréquences. Les anglo-saxons parlent de “subband coding”.

Autre particularité : les taux de compression offerts par le MPEG sont variables. Toutefois, on ne les choisit pas directement : ils découlent du débit qui lui, se sélectionne... en fonction d'un objectif à atteindre. Plus ce débit est faible, plus la compression est élevée, bien sûr. En admettant que l'on souhaite encoder un signal stéréo 16 bits/44,1 kHz pour qu'il “tienne” dans une bande passante de 320 kbps (kilobits par seconde), le taux de compression sera d'environ 4,31 (rappelons qu'en 16 bits / 44,1 kHz le débit avoisine les 1,4 mbps).

La partie audio du MPEG-1 permet de compresser des signaux selon quatre modes : mono, double mono (deux canaux indépendants dans un même flux), stéréo et “joint stero” (la compression tire alors parti des redondances entre canaux gauche et droit). Par ailleurs, le standard se décompose en trois couches, ou Layers, de complexité croissante. Les deux premiers sont dérivés du MUSICAM (développé par le CCETT, Philips et l'IRT), et le troisième, de l'ASPEC (développé par le Frauenhofer Institute). Contrairement aux phases, numérotées avec des chiffres Arabes, les couches utilisent des chiffres Romains. On parle de MPEG-1 Layer I, de MPEG-1 Layer II et de MPEG-1 Layer III.