Les connexions audio numériques

Jean-Philippe Mamosa 12 March 202419 September 2024

Table of Contents

Les interfaces numériques

Connexion, transfert et synchronisation pour l’audio numérique

Même si aujourd’hui le numérique est omniprésent dans une majorité d’équipements, autant domestiques que spécialisés dans l’audio pour ce qui nous concerne, l’interconnexion et le dialogue n’est pas aussi simple et facile qu’en analogique. On pourrait être tenté de transposer nos habitudes prises en analogique sur le matériel digital, mais c’est plus compliqué qu’il n’y paraît. En effet, si c’est très simple de faire converser des machines analogiques en les reliant entre elles — quoique… —, c’est bien plus compliqué en numérique parce que les différents formats — les différents langages numériques — ne se comprennent pas forcément entre eux. Il faut que les appareils numériques dépendent de la même norme, le même format. A ce jour ne subsiste que trois grandes familles d’interfaces audionumériques à usage commun dans nos homes studio. Ce sont les formats AES3 (nommé couramment AES/EBU), S/PDIF dérivé du premier, et ADAT. Il y a plus de 15 ans, les formats étaient plus nombreux et compliquaient ou même interdisaient toute communication entre ces normes : Sony S-DIF et les interfaces DASH, Yamaha Y1 et MEL-2, Mitsubishi PD, par exemple. Heureusement, ces formats propriétaires ont disparu. Ne subsiste que les formats d’interfaces spécifiques aux fabricants Tascam avec le T-DIF et Roland et son R-BUS. Ces formats numériques sont exclusifs et limités à celui de la marque de l’équipement. Leur disparition dans les années à venir est à envisager…

L’AES/EBU

Le format AES3 est une norme ouverte créée en collaboration entre l’AES (Audio Engineering Society) et EBU (European Broadcasting Union) en 1985 sous la référence IEC-60958 type I. Il est aussi appelé AES/EBU qui est celui de l’interface. Aujourd’hui, le format AES3 est très rependu dans le milieu professionnel. Ce standard a connu plusieurs évolutions, la dernière remonte à 2003. La variante “grand public” de l’AES3 est le format S/PDIF qui a été normalisée IEC-60958 type II. Nous y reviendrons plus loin.

C’est un phénomène électromagnétique — appelé aussi « effet de peau » — qui fait que lorsqu’un conducteur est traversé par un courant alternatif, les électrons tendent à se déplacer à sa surface et non en son centre. Au fur et à mesure que la fréquence augmente « l’épaisseur de pénétration » du courant à l’intérieur du conducteur diminue. Il provoque la décroissance de la densité de courant à mesure que l’on pénètre au cœur du conducteur. Il en résulte que la section de conducteur utilisé diminue aussi et que la résistance augmente (R=ρl/S). La section utile sera inversement proportionnelle à la fréquence. Ce phénomène d’origine électromagnétique existe pour tous les conducteurs parcourus par des courants alternatifs.

L’interface AES3 est matérialisée par des connexions XLR — dites “Canon” — à trois broches (XLR3-31 femelle et XLR3-32 mâle). Les câbles sont des paires torsadées de 110 ohms avec un écran total. Comme pour l’audio analogique classique, le signal sort par le connecteur mâle et entre par un connecteur femelle. Le câblage utilise la même convention : le blindage sur la broche 1 et le signal sur les broches 2 et 3. Mais contrairement à la connexion analogique sur XLR, l’AES3 fait transiter un signal stéréo ou deux canaux dans un seul câble. Les données AES3 sont transférées via un signal carré d’une amplitude pouvant attendre 7V crête à crête avec une fréquence de l’ordre de 1,5 MHz. A de telles fréquences, il se produit ce qui est appelé « l’effet pelliculaire » (cf. encart). Il est grandement recommandé d’utiliser un câble 110 ohms au lieu d’un simple câble micro pour faire communiquer des périphériques avec interface AES3 (AES/EBU). Dans le même temps (les années 80), la vidéo passe aussi au numérique. Mais là, le même type de câble et de connexion comme pour le signal vidéo analogique sont utilisés. Les liaisons sont réalisées avec des câbles coaxiaux de 75 ohms (asymétrique) et connecteurs BNC (connecteurs à baïonnette de verrouillage). Ce type de liaison donna des idées au groupe de normalisation audio. Ainsi, en 1995, l’AES a publié une mise à jour de l’interface AES3 en y ajoutant les connexions asymétriques utilisant des connecteurs BNC et des câbles coaxiaux de 75 ohms. Appelé AES3-id, elle a été largement adoptée dans les milieux professionnels, car les câbles permettent indifféremment de faire circuler de l’audio ou de la vidéo, suivant l’appareil sur lequel ils sont branchés bien entendu. La tension du signal est typiquement 1 V crête à crête, et la portée maximale prévue est donnée pour 1000 mètres.

Bien que certains appareils amateur ou semi-professionnel en soit équipé, l’interface AES/EBU est boudée des home-studios, le S/PDIF lui étant préféré. Ce choix est peut-être guidé par la présence de l’interface “grand public” S/PDIF quasi systématique sur les appareils audio et instruments de musique électronique produits aujourd’hui.

Une prise RCA, ou connecteur RCA, ou prise cinch, ou encore connecteur cinch, est un connecteur électrique couramment utilisé dans le domaine audio et vidéo. Ces prises concentriques sont à chaque extrémité d’un câble coaxial. Elles sont constituées d’un doigt central, entouré d’un anneau métallique. L’anneau est souvent sous forme de sections, pour des raisons de flexibilité. Les connecteurs RCA femelles, que l’on trouve sur les appareils sont constitués d’un trou central entouré d’un cylindre métallique. Ce cylindre de la même taille que la partie mâle, permet une connexion mécanique et une connexion électrique correcte.

Le nom “RCA” est l’acronyme de « Radio Corporation of America ». RCA était une entreprise américaine dont le nom, qui appartient aujourd’hui à Thomson, est utilisé par Sony BMG Music Entertainment en tant que label discographique et par d’autres sociétés pour commercialiser des produits électroniques.

Le S/PDIF (ou SPDIF)

La version grand public de l’interface AES3 est connue sous l’acronyme S/PDIF (Sony / Philips Digital Interface). Elle est décrite sous la référence IEC-60958 Type II (initialement IEC-958). Electriquement, elle est très similaire au format AES3-id (même si elle lui est antérieure). Elle nécessite des câbles coaxiaux de 75 ohms terminés par des connecteurs phono CINCH appelés aussi fiches RCA (cf. encart “Prise RCA”). Cette connexion est souvent dénommée « COAXIAL S/PDIF ». La tension du signal est réduite à 0,5 V nominal crête-à-crête et la distance de transmission maximale est de 10 mètres maximum. Je vous conseille d’utiliser des câbles de 75 ohms adaptés à la place de simples câbles phono analogique qui y ressemblent à tous points de vues et qui pourrait sembler faire l’affaire. Bien que cela puisse fonctionner sur de courtes distances, l’interface S/PDIF sera beaucoup moins fiable et beaucoup plus sujettes au JITTER, décalage de l’horloge de synchronisation (lire ci-après). Les informations numériques S/PDIF sont transmises dans le câble à des fréquences étant de 2 Mhz (Fs = 32 kHz), 2,8 MHz (Fs = 44,1 kHz) et 3.1Mhz (Fs = 48 kHz). A de telles fréquences, il se produit ce qui est appelé « l’effet pelliculaire » (cf. encart).

Le S/PDIF a été initialement conçu dans une résolution de 16 bits pour des fréquences d’échantillonnage de 32 kHz pour le DSR (Digital Satellite Receiver), 44,1 kHz pour le CD (Compact Disc) et 48 kHz pour le DAT (Digital Audio Tape). Les révisions successives portèrent la résolution du S/PDIF à 20 puis 24 bits. La fréquence n’a pas été en reste car certains matériels acceptent maintenant une fréquence de 96 kHz : applications professionnelles et semi-professionnelles : échantillonneurs (samplers), synthétiseurs, workstations, interfaces et enregistreurs audionumériques…

Ce connecteur optique a été créé en 1983 par Toshiba pour les liaisons de ses lecteurs CD à ses amplificateurs audio haut de gamme. Son nom vient de TOShiba-LINK (LINK = lien). Le connecteur est défini « F05 JIS », et l’interface dépend de la norme « EIAJ CP340-optical ». Cette connectique fut rapidement adoptée par les autres constructeurs de lecteurs CD et enregistreur DAT, ainsi que Alesis pour ses enregistreurs ADAT. Les connecteurs TOSLINK les plus utilisés sont, et de loin, le « EIAJ/JEITA RC-5720 », le « CP-1201 » et le « JIS C5974-1993 F05 ».

Il y a aussi une version S/PDIF avec interface optique et fibres optiques. Le signal optique a le même format (protocole) que la liaison électrique « cuivre » sur RCA. Il est juste convertit en lumière émise par une diode LED rouge (jour, nuit…). Les connecteurs optiques utilisés sont connus sous le nom de TOSlink (cf. encart). Le principal avantage de ce format réside dans son immunité totale face aux perturbations électromagnétiques. La longueur maximum sans perte dépend en grande partie de la qualité intrinsèque de la fibre. Il est conseillé de ne pas dépasser 10 mètres sous peine de voir apparaître le JITTER (lire ci-après).

IEC958 a été nommé IEC60958 en 1998. IEC60958 (S/PDIF) transporte de l’audio stéréo normal et IEC61937 celui d’un flux de données plus complexe. Les données sous la norme IEC-61937 peuvent contenir un son multi-canal comme le MPEG2, AC3 ou DTS. Quand des données sont transférées en IEC61937, les bits qui transportent normalement les échantillons audio sont remplacés par des données multi-canal dans le signal S/PDIF. L’information sur le statut de canal contient un bit qui indique si les données S/PDIF sont de l’audio numérique ou d’autres données (DTS, AC3, MPEG audio, etc.). En fonction de ce bit, l’équipement audio numérique traite les données différemment. L’audio en multi-canal est compressé. C’est pour cela qu’on ne parle plus d’audio mais de données. Ce mode est utilisé pour connecter la sortie d’un lecteur DVD à un système audio home-cinéma qui prend en charge le son encodé en Dolby Digital, en AC3 ou en DTS Surround.

Attention : Ne pas confondre S/PDIF avec SDIF (pas de « P »). Ils sont très différents. Le format SDIF a été développé et utilisé exclusivement par Sony sur les premières machines numériques professionnelles. Ce format est mono et non auto-synchronisés, nécessitant par conséquent trois câbles d’interconnexion : un pour chaque canal du signal stéréo et un pour l’horloge de synchronisation.

ADAT

L’interface ADAT, dite aussi « Lightpipe », a été conçue par Alesis en 1991 pour ses enregistreurs numériques 8 canaux : « Alesis Digital Audio Tape ». Cette interface utilise le connecteur physique TOSlink fibre optique (cf. encart). Mais son format de données numérique est complètement différent de celui employé en S/PDIF. Il a été conçu pour transporter jusqu’à huit canaux audio à des taux d’échantillonnage de 44,1 kHz ou 48 kHz, initialement dans une résolution de 16 bits. Les révisions successives portèrent celle-ci à 20 puis 24 bits. Très vite, le format ADAT s’est popularisé, et il est devenu une interface de connexion très prisée pour les équipements semi-professionnels.

Autres formats professionnels et assimilés

MADI

La dernière déclinaison de l’AES3 est le MADI (Multi-channel Audio Digital Interface). Elle vise à fournir une connexion simple entre une console de mixage numérique et un enregistreur multi-canal. En 1991, lorsque cette interface a été publiée en tant que AES10, elle a été conçue pour transmettre 56 canaux audio (configurés en 28 paires AES3) sur un seul câble coaxial équipé de connecteurs BNC. Toutefois, une version améliorée a été introduite en 2003 appelée Extended MADI ou MADI-X, et elle prévoit des 64 canaux à 48 kHz et 32 à 96 kHz. Plusieurs type de connexions sont possibles : fibre optique ou câble catégorie 5 (CAT5) : câbles à quatre paires torsadées. Beaucoup d’installations sont réalisées avec de la fibre optique ou câble Cat 5 au lieu du câble coaxial. L’interface fibre est particulièrement utile dans les lieux où l’isolement électrique complet évite les boucles de masse et les éventuels problèmes de sécurité électrique. MADI est de plus en plus courant pour les connexions entre une station de montage audio numérique sur ordinateur (DAW : Digital Audio Workstation) et console, ou pour relier plusieurs appareils situés dans une salle des machines avec la salle de contrôle (control room) en utilisant un seul câble ou fibre optique. Plusieurs fabricants offrent maintenant des interfaces MADI. Une différence significative entre le MADI et les autres interfaces AES3-est qu’elle ne dispose pas d’une horloge intégrée dans un code de service. Un signal d’horloge séparée est indispensable pour synchroniser la source et la destination des appareils utilisant MADI. On utilisera alors un générateur Word Clock (voir plus loin).

SMUX (ou S/MUX)

Pour tenir compte de fréquences d’échantillonnage plus élevées, le format original ADAT Lightpipe a été modifié par la société Sonorus en utilisant des techniques de multiplexage. S/MUX est l’abréviation de « Sample MUltipleXing ». Vous pouvez avoir normalement huit canaux à 48 kHz. Puis vous en avez quatre à 96 kHz, et deux canaux à 192 kHz. De nombreux fabricants intégrant l’interface ADAT à leurs produits font prendre en charge l’interface SMUX. Couramment, le SMUX accepte des fréquences d’échantillonnage atteignant 96 kHz et utilise deux fibres optiques respectivement pour les canaux 1 à 4 et 5 à 8. Pour synchroniser une interface audio via SMUX (double fibre optique) sur un autre appareil comme une console de mixage numérique, vous devez utiliser deux câbles optiques (de préférence de même longueur et de même marque) entre l’appareil source de l’horloge SMUX et les deux entrées optiques de votre interface audio numérique. Depuis la face avant, sélectionnez ADAT comme source d’horloge externe. L’interface se synchronisera sur le Word Clock contenu dans le signal numérique arrivant à ses entrées optiques. Dans les rares cas où les canaux SMUX 1—4 et 5—8 viennent d’appareils différents, il est important de s’assurer que les trois appareils ont une bonne synchronisation Word Clock (voir ci-après). Dans ce cas on utilisera une horloge externe « Clock Master » que l’on branchera via des câbles 75 ohms à connecteurs BNC sur tous les appareils sur lesquels on choisira « External Clock », « DIG EXT » ou quelque chose de ce genre.

La synchronisation numérique

WORD CLOCK (ou wordclock), la synchronisation externe

A l’exception déjà mentionnée de l’interface MADI, les interfaces AES3, S/PDIF et ADAT « Lightpipe » sont auto-synchronisés. Le signal d’horloge est intégré au flux audio (« embedded » : encapsulé). Ainsi, dans un système simple, un appareil numérique récepteur se synchronise spontanément sur le signal d’horloge reçu sur son entrée car il est généré par un appareil source, et mélangé au flux de données audio. Dans de nombreux cas cela se produit de manière entièrement automatique et transparente. Un enregistreur/graveur de CD se synchronise forcément sur son entrée numérique lors de l’enregistrement/gravure, par exemple.

Il est plus facile à une machine numérique de fonctionner de manière autonome que synchronisé à l’échantillon près avec plusieurs autres. Par analogie, un musicien seul suivra son propre rythme, alors que plusieurs doivent forcément se caler sur le bon tempo pour que la musique soit cohérente. C’est le rôle du batteur lorsqu’il y a plusieurs musiciens. Un générateur Word Clock rempli cette mission de batteur pour assurer un rythme constant. La fréquence Wordclock correspond toujours à la fréquence d’échantillonnage sélectionnée. Ce générateur est aussi appelé aussi « Clock Master ». Il ne s’agit pas ici de la synchronisation MIDI ou SMPTE mais de la synchronisation de tous les circuits de traitement audio numérique. La fonction de synchronisation numérique ne fonctionne que lorsque la chaîne de signal Wordclock est correctement établie (et terminée). Lorsque tous les appareils d’un système se servent de la même source de synchronisation, ils doivent tous être mis sous tension, même si vous ne les utilisez pas. Commencez toujours par mettre l’appareil maître sous tension puis les appareils asservis (esclaves). Lors de mise hors tension, inversez l’ordre: les éléments asservis d’abord, puis l’appareil maître. Avant une session d’enregistrement importante, assurez-vous que tous les appareils sont bien synchronisés sur l’appareil maître. En général, les appareils numériques sont pourvus d’un témoin ou d’un affichage qui indique s’ils sont pilotés par une source interne ou externe. Selon votre interface ou appareil audio numérique, les options de source d’horloge externe peuvent inclure AES/EBU, S/PDIF, S/PDIF Optical, ADAT Optical, TDIF et Word Clock.

L’importance de la synchronisation numérique

Il est évident que la principale différence entre le haut de gamme et les convertisseurs premier prix est la qualité, la stabilité et la cohérence des circuits d’horloge interne — la partie qui détermine le moment où un échantillon est prélevé. Si cette horloge de référence n’est pas particulièrement stable alors l’intervalle entre les échantillons — qui devrait être absolument précis — peut varier. Ce problème est connu sous le nom de « JITTER » (prononcez « jiteur »), et il affecte différents aspects des systèmes audio numériques. Il impacte surtout la conversion analogique vers numérique (« A/N », en anglais « A/D »), et, dans une moindre mesure, la conversion numérique vers analogique (« N/A », en anglais « D/A »).

Lorsque le signal audio analogique est converti en signal audio numérique, celui-ci est échantillonné à intervalles réguliers et ces échantillons sont convertis en données (signal) numériques. Plus la fréquence est élevée, plus la conversion est précise. Afin d’atteindre un très haut degré de précision dans le traitement des signaux audio numériques par plusieurs appareils, ces échantillons doivent être synchronisés. Le signal transmis pour réaliser cette synchronisation est appelé « Wordclock » ou horloge. Le signal d’horloge est transmis par un câble différent que celui qui véhicule l’audio. Le signal Wordclock est généralement diffusé en réseau, en chaîne ou en étoile. Il est transporté par un câble coaxial 75 ohms et les connecteurs sont du type BNC. Ces connecteurs sont étiquetés WORD CLOCK. Tous les appareils d’un réseau sont synchronisés sur une même horloge « Clock Master ». Ce système est utilisé pour synchroniser deux appareils ou plus. Si la synchronisation n’est pas établie, un message « UNLOCK », « LOCK ERROR », « SYNC ERROR », « PLL ERROR » ou « WD ERROR » est signalé (par un voyant LED ou un afficheur LCD), ou quelque chose de ce genre.

La création d’un signal de synchronisation s’appuie sur la fréquence d’un oscillateur à quartz pour sa grande stabilité. Malgré les contrôles qualité effectués sur les chaînes de productions mettant à l’écart certains produits ; aucun oscillateur n’est identique. De plus la fréquence de fonctionnement des oscillateurs dépend de facteurs électriques (température). S’il y a des fluctuations du signal Word Clock de l’appareil de référence cela n’a que peu d’importance car les appareils asservis suivront ces variations de la fréquence de l’horloge. Sauf si le phénomène de Jitter s’en mêle…

Connexions et terminateur Wordclock

Le Wordclock est un signal carré TTL; c’est pourquoi les entrées et sorties sont des bornes BNC. Le signal d’horloge est transporté dans un câble coaxial de 75 ohms normé portant le nom de RG59. La fonction de synchronisation numérique ne fonctionne que lorsque la chaîne de signal Wordclock est correctement établie et terminée. Si la terminaison n’est pas effectuée correctement, il peut y avoir disruption de la forme d’onde du signal d’horloge, ce qui risque de générer de la distorsion et du bruit, d’où des pertes de synchronisations aléatoires. La terminaison est bien souvent sous la forme d’une résistance de 75 ohms incorporée dans un simple connecteur BNC.
On verrouille ce terminateur — appelé aussi « bouchon » — sur la branche du Té BNC opposée à celle où est branchée le coaxial de 75 Ω par lequel arrive le signal d’horloge. La « jambe » du Té est branchée sur l’appareil à synchroniser. La console Yamaha 03D, le préamplificateur Presonus Digimax FS, le mixeur Roland M-1000 ou l’interface RME Fireface 800, par exemple, sont pourvus d’un terminateur 75Ω interne, commutable en face arrière sur la borne WORDCLOCK INPUT. Vous trouverez ci-dessous trois exemples de connexions. Notez aussi le réglage du terminateur 75Ω Wordclock.

1. Répartition parallèle avec une interface IFU4

Dans cet exemple, une interface IFU4 de Yamaha sert à répartir le signal Wordclock. C’est pourquoi tous les appareils asservis doivent être terminés.

Pour le dernier appareil en bout de chaîne Wordclock, il faut utiliser la terminaison (interrupteur « 75Ω » sur la position « ON »). La résistance du terminateur est de 75Ω, la même que celle du câble Wordclock, et arrête les signaux. Pour certains appareils se trouvant en bout de chaîne et ne disposant pas de la résistance de 75Ω interne, comme le Behringer SRC2496, il est impératif d’arrêter le signal par un terminateur 75Ω monté sur la branche libre du Té BNC.

Il existe des horloges maîtres (Clock Master) qui possèdent plusieurs sorties comme le SYNCGEN de ART.

2. Avec des connecteurs BNC T-bar

Ce système ressemble au précédent mais la répartition se fait ici avec des connecteurs en T. C’est pourquoi seul le dernier appareil doit être terminé. Ici on considère que l’appareil D n’a pas de résistance de terminaison interne ; c’est pourquoi un « bouchon » est

3. Connexion en chaîne

Dans cet exemple, l’appareil maître est un enregistreur multipiste numérique. Les terminateurs des deux appareils sont sur ON. Toutefois, ce type de répartition Wordclock n’est pas idéal pour les grands systèmes car un retard se crée dans la retransmission, mais la dégradation du signal envoyé aux appareils en aval est moindre.

Sur certains appareils il existe un interrupteur « THRU », à l’instar des connexions MIDI. Dans ce cas il devra être sur ON pour l’appareil A sur lequel 75 Ω sera sur OFF. Le signal d’horloge est retransmis. Les appareils A, B sont synchronisés avec un timing exact.

La dérive du signal d’horloge

JITTER

Dans la conversion de signaux analogiques et leurs traitements numériques, la fréquence d’échantillonnage est généralement supposée être constante. Dans le domaine des transmissions numériques et plus particulièrement des liaisons série, les échantillons doivent être convertis à intervalles réguliers et constant. Le Jitter (en français « Gigue ») est le phénomène de fluctuation d’un signal. Cette fluctuation peut être un glissement de phase et/ou une dispersion temporelle liée à la déformation des fronts montants et descendant du signal numérique. Elle entraîne des erreurs en sortie lors de la récupération des données.

Le Jitter semble ne pouvoir être évité. Les constructeurs minimisent son effet en employant des circuits électronique complexes tâchant de neutraliser la déformation et fluctuation du signal numérique d’horloge. Certains analystes ont trouvé une corrélation entre le Jitteur et la performance musicale des processeurs numérique et son influence sur la restitution musicale…

Musicaly

Les connexions audio numériques

Les interfaces numériques

Autres formats professionnels et assimilés

La synchronisation numérique

La dérive du signal d’horloge

Jean-Philippe Mamosa

Le patchbay audio, l’art du brassage dans un studio

Home-Studio & informatique musicale

Prises de tête, ou comment faire ses câbles audio

Les connexions audio numériques

Les interfaces numériques

Autres formats professionnels et assimilés

La synchronisation numérique

La dérive du signal d’horloge

Jean-Philippe Mamosa

Recommended Posts

Le patchbay audio, l’art du brassage dans un studio

Home-Studio & informatique musicale

Prises de tête, ou comment faire ses câbles audio