FORMATS AUDIO NUMERIQUES : UNE VRAIE JUNGLE !

Objectif :

Les formats numériques audio sont très nombreux, de qualité variable, peuvent être regroupés en 3 catégories :

* les formats non-compressés (ex : WAV, AIFF)
* les formats compressés sans perte (ex : Flac, Alac, WMA lossless, APE)
* les formats compressés avec perte (ex : MP3, AAC, OGG)

Ce regroupement effectué, l'on est pas beaucoup plus avancé... et un certain nombre de questions se posent encore, notamment :

* est-ce que les formats compressés sans perte sont réellement sans perte ?
* pour les formats compressés avec perte, la perte est-elle significative et/ou mesurable ?
* à quel point ces pertes augmentent-elles avec l'augmentation du taux de compression qui peut être variable ?
* est-ce que certains de ces formats génèrent plus de pertes que d'autres à niveau de compression équivalent ?

Nous avons donc réutilisé les outils d'analyse qui nous ont permis de trancher la question du "bit-perfect" et avons regardé cela de plus près.

Cette analyse ne prétend pas être exhaustive, ni mesurer toutes les différences qui peuvent exister entre les échantillons analysés, mais un certain nombre de points éclairants ont pu être mis en évidence.

Pour cette analyse, nous avons utilisé comme base un fichier audio extrait à partir d'un CD en mode bit perfect en format WAV, puis nous l'avons décliné dans différents formats parmi les plus utilisés :

* WAV (qui a servi de référence pour tous les tests)
* FLAC (avec 3 taux de compression différents)
* ALAC (ou Apple Lossless)
* WMA Lossless
* APE (ou Monkey, avec 3 taux de compression différents)
* MP3 (avec 5 taux de compression différents)
* AAC (avec 6 taux de compression différents)
* OGG (avec 6 taux de compression différents)
* WMA (avec 6 taux de compression différents)

soit 32 échantillons en tout. Pour les formats lossless, nous avons varié les taux de compression lorsque c'était possible et pour les formats avec pertes également, sans descendre en dessous de 96 kbps et en testant le meilleur taux de compression possible.

Les encodeurs utilisés ont été ceux fournis ou disponibles dans dBpoweramp Music Converter :

* MP3 : Lame v3.98.2
* AAC : Nero Encoder Release 1
* WMA : Windows Media Audio 10 Pro Release 7
* OGG : Ogg v1.2.0, Vorbis v1.3.1
* APE : Monkey Audio v4.06

Pour faciliter la comparaison, nous avons ensuite reconverti ces échantillons - en l'état - dans le format WAV pour éviter d'avoir à prendre en compte des formats aux structures de données différentes qui auraient faussés les résultats.

Comme pour le test des logiciels d'extraction, après des premiers résultats pour le moins étonnants, nous avons dû recaler tous les échantillons de sorte qu'il démarrent exactement au même moment, car la simple conversion d'un format dans l'autre peut générer des décalages temporels au début des échantillons (notamment sur le format AAC).

Décalage échantillon WAV - AAC

Nous ne nous expliquons pas du tout comment cela est possible dans la mesure où aucun élément mécanique (lecteur CD) n'intervient dans cette conversion d'un format dans un autre, mais le décalage est bien là...

Première étape : formats non-compressés vs formats lossless

Nous avons voulu confirmer que les formats lossless (avec compression mais sans perte) étaient bien identiques aux formats sans aucune compression.

Pour cela, nous avons utilisé la fonction de soustraction entre deux signaux audio du logiciel Sigview. Lorsque l'on applique cette fonction entre deux signaux parfaitement identiques, le résultat est une droite à 0 sur la totalité de l'échantillon. Lorsque les signaux ne sont pas parfaitement identiques, une courbe apparaît, mettant en évidence les différences.

Deuxième étape : qualification et quantification des pertes

La deuxième étape a consisté à essayer de déterminer le type de pertes engendrées par les formats lossy (compressés avec pertes), de les quantifier et de les différencier d'un format lossy à l'autre.

Le premier test que nous avons effectué a été de comparer les spectres audio des différents formats, en fonction du taux de compression utilisé. Ce test avait déjà été fait par d'autres personnes mais nous voulions le confirmer par nous-mêmes.

Analyse spectre WAV

Spectre du format WAV

Analyse spectre ALAC

Spectre du format ALAC

Analyse spectre AAC à 400 kbps

Analyse spectre AAC à 320 kbps

Analyse spectre AAC à 256 kbps

Analyse spectre AAC à 192 kbps

Analyse spectre AAC à 128 kbps

Analyse spectre AAC à 96 kbps

Le résultat de ce test vérifie ce que nous savions, à savoir que les formats compressés avec pertes tronquent la musique dans les aigus. Pour les formats les plus compressés il s'agit même d'une coupure brutale.

Pour autant, les fournisseurs de ces algorithmes de compression se défendent en affirmant que ces informations manquantes se situent pour la plupart au delà du spectre audible et donc, que la différence est peu marquée.

Il suffit de faire l'expérience de comparer une piste encodée en MP3 à 128 k avec la même piste non-compressée pour s'apercevoir qu'il n'en est rien. Le premier est très mauvais à l'écoute, comparé au second.

Mais alors, où se situent les autres différences ? Car si l'on regarde les tableaux ci-dessus de plus près, l'on s'aperçoit que, sur le reste du spectre, il n'y a que très peu de différences...

Nous avons alors réalisé un autre test : effectuer le test de soustraction entre deux signaux pour mettre en évidence le niveau des différences entre un échantillon de référence et plusieurs échantillons compressés. Ce test n'indique pas dans quelle partie du spectre ce situent ces différences mais à quel point elle sont nombreuses et où elles se situent dans l'échantillon. Ce même test avait permis de constater qu'il n'y a aucune différence entre un échantillon en WAV et des échantillons en formats lossless.

Soustraction de signaux

Ce test indique donc une échelle de niveau des différences d'amplitude du signal entre les différents formats. L'on constate que les formats très compressés présentent des différences très importantes avec l'échantillon de référence. Le format le moins compressé indique également des différences d'amplitude qui ne sont pas négligeables.

En revanche, ce test n'indique toujours pas où se situent ces différences. Est-ce que cela se passe uniquement dans l'aigu ou bien est-ce que cela affecte le reste du spectre ?

Pour essayer de le déterminer, nous avons donc utilisé une autre fonction du logiciel Sigview : le fonction "Cross-Coherence". Celle-ci analyse les spectres de deux échantillons et indique - pour chaque fréquence - s'ils sont parfaitement identiques (valeur = 1) ou totalement différents (valeur = 0).

Nous avons donc repris les mêmes échantillons et nous sommes arrivés à ce résultat :

Cross-Coherence

Grâce à ce test, l'on s'aperçoit que les différences ne se situent pas uniquement dans l'aigu, loin s'en faut. C'est bien l'intégralité du spectre qui est concerné par la compression.

Même dans le format AAC à 320 k, considéré comme l'un des meilleurs et, parfois, comme étant indiscernable du format non-compressé, l'on constate des différences marquées en dessous de 15.000 Hz.

Sur le format AAC à 192 k, l'on constate également que, dès 7.500 Hz, il n'y a plus un seul signal parfaitement identique (valeur < 1) à l'original. Ce constat s'applique dès 3.000 Hz avec une compression à 128 kbps...

Cette analyse reflète donc bien les différences ressenties à l'écoute, du-moins pour les taux de compression élevés.

Troisième étape : comparaison entre les formats lossy

Cette troisième étape a consisté à essayer de déterminer si certains formats "lossy" (compressés avec pertes) s'en tiraient mieux que les autres en supprimant moins d'informations ou, à défaut, en présentant moins de différences par rapport au signal original.

Nous avons donc comparé au signal WAV les différents formats à taux de compression équivalents (128 et 256 k) et également au niveau de compression le plus faible permis par les différents formats (320 à 500 k, selon le cas).

Comme précédemment, nous avons d'abord utilisé la fonction de soustraction, puis la fonction "cross-coherence).

Différence entre ALAC et AAC, MP3, WMA et OGG à 128 k

Cross-Coherence entre ALAC et AAC, MP3, WMA et OGG à 128 k

Différence entre ALAC et AAC, MP3, WMA et OGG à 256 k

Cross-Coherence entre ALAC et AAC, MP3, WMA et OGG à 256

Différence entre ALAC et AAC, MP3, WMA et OGG meilleure qualité

Cross-Coherence entre ALAC et AAC, MP3, WMA et OGG meilleure qualité

Tout d'abord, ces tableaux confirment bien le test réalisé plus haut sur le format AAC, les différences avec l'original sont très importantes à 128 k. C'est un peu mieux à 256 k mais l'on est encore loin du signal original, quel que soit le format utilisé.

NB : n'oublions pas que iTunes Store propose de télécharger de la musique en 192 ou 256 k, au mieux, et ce, au même prix qu'un CD... Je vous laisse méditer la chose.

En revanche, nous avons été surpris de constater qu'en fonction du niveau de compression, les résultats étaient très différents d'un format à l'autre.

A 128 k, nous avons, du moins mauvais au plus mauvais : WMA, AAC, MP3 et OGG. Ce dernier présente des différences comparables à WMA jusqu'à 8.000 Hz mais ensuite cela se dégrade fortement.

A 256 k, nous avons, du meilleur au moins bon : OGG, WMA, AAC et MP3. Il est amusant de constater que l'ordre est le même, sauf pour le format OGG qui passe de la dernière place à la première.

Enfin, nous avons testé la plus faible compression possible dans chaque format. Pas de chance, tous ces formats proposent une résolution maximum différente : 320 k pour le MP3, 400 k pour AAC, 440 k en WMA et 500 k en OGG. En principe, ils ne sont donc pas directement comparables mais cela permet de déterminer quel format est capable de s'éloigner le moins possible du signal original.

Ce test est intéressant car l'on s'aperçoit que le format WMA à 440 k fait jeu égal avec le OGG à 500 k. De même, le AAC à 400 k est nettement moins bon que le WMA à 440 k (avec un taux de compression pourtant proche). Le MP3 à 320 k ferme la marche, ce qui confirme les classements ci-dessus mais, il est vrai que le taux de compression est plus important.

L'enseignement que l'on peut tirer de ce tests est que, selon le taux de compression désiré, le choix du format d'encodage pourra être différent, pour obtenir le moins de dégradation possible du signal.

Conclusion

Les différents tests effectués permettent d'arriver aux conclusions suivantes :

* les formats compressés avec pertes génèrent des pertes dont l'importance est directement proportionnelle au taux de compression. Ce fait était déjà connu mais il a été confirmé.

* contrairement à ce qu'affirment les éditeurs de ces différents formats, ces pertes ne se situent pas seulement dans l'aigu, ni au-delà du seuil de perception de l'oreille humaine, mais bien sur la totalité du spectre.

* le niveau de différence par rapport à un signal non-compressé n'est pas négligeable, loin s'en faut, du-moins dans les taux de compression utilisés couramment (radios internet, sites de téléchargement).

* tous les formats ne proposent pas un résultat équivalent, selon le taiux de compression utilisé. Ce fait était également connu mais, la surprise vient du fait qu'un format de compression peut être meilleur que les autres avec certains taux de compression et moins bon sur d'autres.

Enfin, pour finir, il est évident que, compte tenu du coût très bas de l'espace de stockage, la musique compressée avec pertes doit être réservée à un usage nomade (baladeurs), où le ratio entre qualité et quantité est important. Par ailleurs, les conditions d'écoute sur baladeur (casque souvent intra-auriculaire, bruit ambient important) ne permettent pas toujours de profiter d'une musique dans la meilleure qualité possible. Les tests ci-dessus semblent indiquer que le moins mauvais compromis pour cet usage nomade est une compression à 256 k en privilégiant les formats OGG ou WMA.

Suivez-nous sur Facebook

Facebook