Théorie de l’échantillonnage

14 Nov 2005 | Articles théoriques

Cette page a pour but de préciser quelques notions fondamentales sur le son et la théorie de l’échantillonnage, afin de mieux appréhender les différentes possibilités qui s’offrent au technicien lors de l’enregistrement numérique.

Le son et l’enregistrement numérique

Le son est crée lorsqu’un objet vibrant transmet sa vibration à l’air ambiant. La vibration de l’air se propage et atteint nos oreilles, où elle fait vibrer nos tympans. L’oreille interne transforme alors cette information mécanique en signaux chimiques que le cerveau sait interpréter. Le son est une grandeur analogique qu’il convient de transformer si on veut le stocker pour le reproduire. C’est le rôle du microphone (qui transforme la vibration acoustique en un signal électrique), puis du préamplificateur (qui amplifie le niveau électrique extrêmement faible du microphone pour pouvoir l’enregistrer).

En pratique, il est bon de noter que la mesure de la pression acoustique se fait en décibel (dB). Le seuil de l’audition est fixé à 0dB, le seuil de la douleur est de 120dB. Pour un nouveau né, les limites fréquentielles du spectre de l’audition s’étendent de 20Hz (vers le grave) jusqu’à 20kHz (dans les aiguës). Pour un adulte d’âge moyen, on admet que le spectre est réduit de 30Hz à 16KHz, la perception correcte des fréquences les plus aiguës devenant de plus en plus réduite avec l’âge.

L’analogique a atteint ses limites dans les années 80, quand le plafonnement des progrès de cette technologie ne permit plus d’amélioration significative de la qualité, notamment de la dynamique et du bruit de fond. Grâce au développement rapide des matériels et des logiciels, performants et de coût raisonnable; grâce à la baisse des coûts de production résultants; grâce à l’établissement progressif de normes et de formats d’échange internationaux ainsi qu’à à la spectaculaire amélioration de la qualité en fin de chaîne, le numérique a rapidement envahi toute la filière de l’audio.

Fréquence d’échantillonnage et bande passante

Les mathématiciens ont toujours une longueur d’avance sur l’industrie. Le mathématicien le plus connu du monde de l’enregistrement numérique est sans conteste un certain M Shannon, qui découvrit bien avant qu’il pût en deviner l’utilité, que pour définir numériquement un son de fréquence F, il faut appliquer une fréquence d’échantillonnage Fs qui soit au moins du double de F.

En pratique : FS = 2,2 x F

Le signal à numériser arrive sous la forme d’un signal électrique analogique continu. Or, le numérique est par essence un système d’enregistrement discontinu, composé d’une suite de « 0 » et de « 1 » logiques. Il est donc nécessaire de « tronçonner » ce signal analogique continu, afin d’en mesurer la valeur à des instants fixes et réguliers. C’est la suite de ces mesures qui sera enregistrée. La fréquence d’échantillonnage correspond à la fréquence avec laquelle on vient « tronçonner » le signal d’origine.

L’oreille humaine est normalement capable de percevoir des sons jusqu’à 20KHz, au grand maximum. Si l’on veut pouvoir enregistrer la totalité du spectre audible, il faudra donc que FS soit d’au moins 20 x 2,2 = 44KHz. A l’inverse, si on applique une fréquence d’échantillonnage plus faible, la « bande-passante » (Bp) sera réduite.

Par exemple, si FS = 32KHz, alors Bp = 32 / 2,2 = 14,5KHz.

De nos jours, en utilisation professionnelle, les fréquences d’échantillonnage de 48KHz ou 96KHz n’engendrent plus aucun problème de bande passante, et les fréquences les plus aiguës sont parfaitement définies !

Résolution, dynamique et bruit de fond :

Deuxième grandeur fondamentale de l’enregistrement numérique: la résolution. Après échantillonnage, on dispose d’une suite de valeurs (échantillons) proportionnels au signal analogique d’entrée. Mais il reste à savoir comment « coder » ces valeurs. Les systèmes numériques ne comprennent que les valeurs logiques « 0 » et « 1 ». Ces valeurs sont appelées « Bit » (abréviation de Binary Digit). Il serait hors propos d’entrer ici dans les détails de la numérotation binaire et hexadécimale. Retenons seulement que plus on code une grandeur avec un nombre de bits élevé, plus la résolution est grande.

La résolution R est telle que : R=2(n-1) (nombres binaires signés – où n est le nombre de bits).

Ainsi les formats couramment utilisés sont :

  • 8 et 16 bits en micro-informatique et téléphonie
  • 16 bits en audio amateur (CD et DAT)
  • 16 à 24 bits en audio professionnelle

La résolution est donc de 128 niveaux en 8 bits, 32768 niveaux en 16 bits et… 8388608 niveaux en 24 bits !

Plus on quantifie un son avec une résolution élevée, plus on va pouvoir en discerner les infimes détails. La précision maximale obtenue est celle du plus petit échantillon. Cela fixe directement la dynamique que l’on va pouvoir reproduire, c’est à dire la différence entre le plus petit échantillon enregistré (qui correspond au bruit de fond dit de quantification) et la valeur maximale du signal numérique.

La dynamique s’exprime en décibel :

D=20.Log(R)

La dynamique théorique maximale est donc de :

  • 42dB en 8 bits
  • 90dB en 16 bits
  • 138dB en 24 bits.

On remarque que si les quantifications sur 8 et même 16 bits restent en deçà des possibilités de l’oreille humaine, la quantification sur 24 bits dépasse quant-à elle de près de 20dB la dynamique maximale que nous pouvons percevoir.

Débit numérique

Le débit d’informations numérique D est tel que (K=1 en mono, 2 en stéréo) :

D=(K.Fs.n)/1024 Kbits/s (en informatique 1Kbit=1024 bits)
D=(K.Fs.n)/8192 Ko/s

Tableau des débits pour quelques formats courants (en Kbits/sec) :

Mono Stéréo
FS 8 bits 16 bits 24 bits 8 bits 16 bits 24 bits
96 KHz 1500 2250 3000 4500
48 KHz 750 1125 1500 2250
44,1 KHz 344,5 689 1033,6 689,1 1378,1 2067,2
32 KHz 250 500 750 500 1000 1500
16 KHz 125 250 250 500

En pratique:

Type d’enregistrement Qualité souhaitée Format à employer
Musique stéréophonique Studio / Master 48~96 KHz – 16~24 bits linéaire – stéréo
CD 44,1 KHz – 16 bits linéaire – stéréo
Archive qualité CD 44,1 KHz – 16 bits – MPeg 256K – Stéréo
Assez bonne qualité pour
transmission sur Internet
32 KHz – 16 bits – MPeg 128K Stéréo-joint
Voix ou musique mono Studio / Master 48~96 KHz – 16~24 bits linéaire – mono
CD 44,1 KHz – 16 bits linéaire – mono
Archive qualité CD 44,1 KHz – 16 bits – MPeg 128K – mono
Assez bonne qualité pour
transmission sur Internet
32 KHz – 16 bits – MPeg 64K mono
Son type « téléphone » 16 KHz – 8 bits – Mono