Il Futuro dell'Audio Spaziale

È ormai trascorso un secolo e mezzo dai primi timidi esperimenti di registrazione della voce di Edouard-Leon Scott de Martinville, culminati poi nella celebre dimostrazione di Thomas Alva Edison che, al cospetto dell’Accademia Nazionale delle Scienze, riuscì a registrare la propria voce che recitava la filastrocca “Mary had a little lamb”. Da allora le tecnologie audio sono evolute in un lento ma costante crescendo di qualità, con qualche occasionale impennata. Quelle più importanti sono state la transizione dalla registrazione meccanica a quella elettronica e infine a quella digitale, ma anche l’introduzione dell’audio stereofonico e multicanale, e la miniaturizzazione dei sistemi grazie all’integrazione dei circuiti.

Anche se ho vissuto in prima persona solo l’ultimo mezzo secolo di questa evoluzione, di emozioni associate a questi avanzamenti tecnologici ne ho vissute parecchie. Ricordo come fosse oggi l’impatto che ebbe su di me il primo ascolto di un disco in vinile su un impianto stereo ad alta fedeltà, o l’indossare il primo “walkman”, o sentire il mio primo CD. Sono le stesse emozioni che provo ancora oggi, quando in laboratorio testiamo i nostri algoritmi e sistemi di riproduzione in audio spaziale, o quando giochiamo con l’acustica interattiva olofonica o binaurale. Confesso, infatti, di appartenere a quella schiera di ricercatori che hanno voluto fare il mestiere che fanno, non solo per vivere quest’evoluzione in prima persona, ma per continuare a rimanere a bocca aperta davanti allo spettacolo della musica, anche quando i musicisti hanno messo via i propri strumenti. 

Le tecnologie audio e acustiche continuano a evolvere e a sorprenderci, e sicuramente possiamo contare su un futuro carico di nuove emozioni. Se la digitalizzazione e la miniaturizzazione delle tecnologie audio erano i protagonisti di ieri, oggi è la volta dell’audio spaziale. A onor del vero, l’audio spaziale non è un concetto nuovo, ma la realizzazione di sogno perseguito con fervore da molti decenni. Un sogno che solo oggi comincia prendere una forma concreta, sulla spinta delle nuove tecnologie del virtual reality e augmented reality a basso costo (Oculus Rift, HTC Vive, PlayStation VR, Microsoft Hololens).

Chiariamo anzitutto cosa s’intende per “audio spaziale”. Si tratta di una modalità di riproduzione sonora capace di ricreare non solo le qualità sonore e timbriche della scena acustica considerata, ma anche le sue proprietà spaziali (posizione e orientamento delle sorgenti acustiche, forma e caratteristiche dell’ambiente, ecc.). L’aggiunta dello spazio in questa modalità di ascolto, consente di evocare l’impressione di essere “presenti” nella scena acustica che viene riprodotta, il che significa “immersi” e “attivi”. Si tratta quindi di un enorme “salto quantico” nella tecnologia del rendering acustico, perchè oltre al realismo e all’accuratezza della riproduzione spaziale richiede di introdurre anche la possibilità di interagire con l’acustica della scena riprodotta. 

 

Installazione ambisonics nearfiled presso il laboratorio di Musical Acoustics Lab del Politecnico di Milano (sede di Cremona) 

La percezione acustica dello spazio

Se ci pensate bene, il nostro senso dell’udito non è in grado di catturare l’intero campo acustico in cui siamo immersi. Siamo dotati di due soli “sensori”, ciascuno dei quali si limita a catturare un semplice segnale audio. Eppure siamo in grado, a occhi chiusi, di localizzare le sorgenti acustiche intorno a noi, o di descrivere a grandi linee l’ambiente che ci circonda. Alcuni ipovedenti sono addirittura in grado di navigare abbastanza agevolmente in un ambiente, usando il solo senso dell’udito. Questo è possibile grazie all’uso combinato di diversi “suggerimenti pecettivi” acustici, che costantemente interpretiamo per estrarre informazioni geometriche e fisiche sullo spazio che ci circonda. 

Un esempio concreto di suggerimento percettivo spaziale è l’Interaural Level Difference (ILD), ovvero la differenza fra i livello di pressione acustica alle due orecchie attribuibile alla posizione  della sorgente rispetto alla testa dell’ascoltatore (dovuta all’ombra acustica prodotta dalla testa stessa). Un’altro esempio è l’Interaural Time Difference (ITD), che descrive il ritardo che separa gli istanti di arrivo dello stesso stimolo acustico alle due orecchie dell’ascoltatore. Sia l’ILD che l’ITD sono in grado di fornire informazioni più o meno accurate sulla direzione di arrivo (orizzontale) della sorgente, ma non dicono nulla sulla sua elevazione. Ci sono poi numerosi suggerimenti percettivi dovuti all’interazione fra le sorgenti e l’ambiente, che sono in grado di fornire informazioni piuttosto ricche sia sull’ambiente circostante (geometria e riflettività delle pareti dell’ambiente), che sulla posizione reciproca di sorgente e ascoltatore in relazione alle pareti. Uno di questi è il rapporto fra l’intensità del suono diretto e quella della componente riverberata (ovvero la combinazione degli echi generati dall’ambiente), che immediatamente dà un’idea di quanto lontana sia la sorgente rispetto all’ascoltatore. 

Per estrarre informazioni più accurate su dove effettivamente siano posizionate le sorgenti (compresa la loro elevazione), occorre capire meglio come lavora il nostro sistema uditivo. Il segnale che viene elaborato dal nostro cervello è una traduzione in impulsi elettrici del segnale che giunge ai nostri timpani. A sua volta, questo segnale, è il risultato dell’interazione fra il campo acustico che ci circonda e il nostro corpo (spalle, testa, lobi auricolari, canali uditivi). In altre parole, il corpo funziona come un “filtro spaziale”, che colora il suono in modo diverso a seconda della posizione della sorgente, e il nostro cervello impara a interpretare questa coloritura in modo costruttivo, per ricavare informazioni spaziali. Questo filtro è noto come “Head-Related Transfer Function” (HRTF), ed è alla base della cosiddetta “riproduzione binaurale” del suono. Infatti, conoscendo la nostra HRTF saremmo in grado di simulare numericamente l’interazione fra il campo acustico e il nostro corpo per generare i segnali da “iniettare” direttamente nei canali uditivi (bastano delle semplici cuffie di qualità). L’audio binaurale risultante viene percepito come una perfetta riproduzione del campo acustico spaziale. Il rendering binaurale è quindi molto promettente perchè è “accessibile” e compatto.  Purtroppo però le cose non sono così semplici... Il problema è la HRTF rappresenta la “virtualizzazione” del nostro corpo, che varia da persona a persona, così come varia la nostra fisionomia. Questa “impronta acustica” è quindi molto difficile da misurare o stimare. Inoltre, anche conoscendo la propria HRTF, le cose non si semplificano più di tanto... Per generare i segnali binaurali da iniettare nei canali uditivi, occorre infatti conoscere o calcolare anche il campo acustico da filtrare spazialmente. Infine, volendo avere un minimo di ruolo attivo in questa interazione, occorre anche conoscere la propria posizione e orientamento rispetto al campo acustico, in modo tale da poter percepire un campo acustico “fermo nello spazio”, invece che “attaccato alla propria testa”. Quest’ultimo problema, fortunatamente, non è difficile da risolvere, perchè possiamo far uso di un “head tracker”, che si preoccupi di “inseguire” la posizione e l’orientamento della testa dell’ascoltatore facendo uso di varie tecnologie (collimatori, accelerometri, microbussole, ...). Comunque, quella che sembra una “missione impossibile” è in realtà solo complicata da realizzare. Attualmente il nostro laboratorio sta lavorando assieme all’Università di Sydney per risolvere esattamente i problemi rimasi. 

Un’alternativa più invasiva all’audio binaurale sono le distribuzioni spaziali di altoparlanti. Un sistema stereo o multicanale (surround) è solo in grado solo di riprodurre suggerimenti percettivi come l‘ILD e, l’ITD (a condizione di stare esattamente nella posizione dello “sweet spot”, un po’ come fa Sheldon Cooper in The Big Bang Theory). Oltre a questo non si riesce a fare. Con questo tipo di resa acustica, al massimo riusciamo a dire approssimativamente da quale direzione arriva il suono della sorgente (sul piano orizzontale), anche se il suono continuiamo a sentirlo “uscire dalle casse acustiche” invece che provenire dalla posizione desiderata.  Se aumentiamo il numero di casse acustiche per formare una specie di cupola intorno all’ascoltatore, riusciamo anche a evocare l’impressione di “elevazione” della sorgente rispetto al piano orizzontale. Sistemi di questo tipo si chiamano “Vector-Based Amplitude Panning” (VBAP), e funzionano come un surround “sotto steroidi”, operante cioè sia in orizzontale che in verticale. Ci sono diversi sistemi di home theater ispirati al VBAP (ad esempio il Dolby Atmos) e spesso erroneamente confusi con sistemi audio 3D. Il risultato comunque non è male: la sensazione di elevazione c’è, anche se non precisissima, ma l’impressione che il suono “esca dalle casse” continua ad essere molto forte, ed è principalmente dovuta al fatto che vengono riprodotte solo le impressioni di ILD e ITD, e solo in una zona piuttosto ristretta. Per superare questo limite dovremmo aumentare ulteriormente il numero di casse acustiche ed effettuare elaborazioni ben più sofisticate rispetto al semplice mix di segnali previsto dal surround o dal VBAP. Un esempio è la codifica multicanale nota col nome di Ambisonics, che usa una configurazione a “cupola” sferica di diffusori in grado di ricostruire il campo acustico desiderato una zona centrale limitata dello spazio (il famigerato “sweet spot” di Sheldon Cooper). Questa tecnica è molto più sofisticata del VBAP (e quindi anche del surround) perchè elabora il segnale destinato ai diffusori in modo tale da ricostruire il campo acustico attorno alla testa dell’ascoltatore attraverso una sovrapposizione pesata di componenti acustiche direzionali chiamate “armoniche sferiche” (Figura 2). Una tecnica di questo ha prestazioni superiori rispetto al VBAP: le sorgenti sono riprodotte al posto giusto, il suono non lo si sente più uscire dagli altoparlanti ma sembra fluttuare a mezz’aria, l’effetto immersivo è completo, ...un vero e proprio giro di giostra. Il problema di questa tecnica è che fa felice una persona alla volta, ovvero il Sheldon Cooper di turno che ha la fortuna di poter scegliere il posto a sedere sul sweet spot. La dimensione di questa zona privilegiata dipende dal numero di casse. Volendo essere precisi, la dimensione del sweet spot dipende dall’ordine delle componenti armoniche sferiche. Per le componenti fino al primo ordine (componente sferica e figure “a otto” orientate secondo gli assi principali), bastano anche solo 4 diffusori. Per includere anche le componenti del terzo ordine occorrono ben 16 diffusori, mentre col 4 ordine occorrono almeno 25 diffusori, e così via (il quadrato dell’ordine aumentato di uno). Il sweet spot del primo ordine è davvero piccolo, quindi anche usando una configurazione di 4 diffusori a tetraedro (che ricorda un po’ il Dolby Atmos) non otterremmo grandi risultati, ragion per cui alla Dolby non si sono nemmeno scomodati a implementare gli algoritmi Ambisonics per così poche casse. Con un terzo ordine (16 diffusori) il sweet spot è sufficiente per una persona con un minimo di libertà di movimento. Con un quarto ordine (25 diffusori) si allarga per far spazio anche a una seconda persona. Alla fine si capisce perchè questa tecnica non è adatta ad ambienti di ascolto come il cinema, dove la platea molto più ampia del sweet spot che riusciamo a realizzare con un numero ragionevole di casse acustiche. Per superare questo limite occorre quindi far uso di una distribuzione molto più fitta di altoparlanti che circondano tutta la zona d’interesse, soluzione troppo costosa e complessa da gestire per una fruizione a livello “consumer”. 

 Armoniche sferiche di ordine 0, 1, 2 e 3

Un’alternativa all’ambisonics è rappresentata dal WaveField Synthesis (WFS), che funziona sulla base di un principio di ricostruzione diverso da quello della combinazione di armoniche sferiche. Il WFS, infatti, realizza una sorta di olografia acustica (olofonia). I sistemi WDS sono in grado di ricostruire con notevole accuratezza il campo acustico desiderato in un’ampia zona d’interesse (praticamente tutta la zona circondata da altoparlanti). Il bello del WDF, quindi, è che non ha un “sweet spot” ma tratta in modo “democratico” tutti i punti d’ascolto circondati dagli altoparlanti. Per contro il WFS richiede un numero elevatissimo di altoparlanti (uno di fianco all’altro) anche solo per una ricostruzione “planare” del campo acustico (ovvero ignorando l’elevazione delle sorgenti e geometrie ambientali complesse). Un altro grosso limite è la scarsa flessibilità perchè questi sistemi non consentono di modellare scene acustiche in ambienti virtuali, e richiedono un grosso sforzo di calcolo per ricavare i segnali di controllo di tutti gli altoparlanti usati, quindi non sono facili da usare in produzione, e non sono assolutamente adatti ad applicazioni interattive (gaming). Negli ultimi due decenni si sono visti casi sperimentali di cinema (IOSONO 3D Sound) dotati di sistemi di questo tipo, che però hanno avuto scarsa fortuna, a causa dell’elevato costo di realizzazione del sistema di ascolto, ma anche dell’altissimo sforzo di produzione dei contenuti richiesto. 

Più promettente è una tecnica recentemente proposta dai nostri laboratori di “Sound and Music Computing” e “Musical Acoustics” del Politecnico di Milano. Si tratta del cosiddetto “Rendering Plenacustico”. Questo metodo si basa su una distribuzione spaziale di proiettori acustici (schiere di casse acustiche in grado di formare fasci acustici direzionali controllabili), che lavorano in modo collaborativo per “intessere” il campo acustico desiderato nello spazio circoscritto da questi proiettori. I vantaggi di questo sistema sono molteplici: consentono di ricostruire il campo desiderato anche senza circondare completamente l’area di interesse di altoparlanti, e sono capaci di riprodurre l’acustica di ambienti virtuali e di sorgenti acustiche in movimento all’interno di essi. Inoltre sono così efficienti (dal punto di vista computazionale) da consentire applicazioni interattive (gaming) anche su piattaforme di calcolo a basso costo. Una dimostrazione pubblica di acustica interattiva basata su questo sistema è stata fatta all’IEEE International Conference of Acoustic Speech and Signal Processing nel 2014. Migliaia di persone si sono divertite a sentire come cambiava il suono spostando i muri di un ambiente virtuale.

 Dimostrazione di acustica virtuale interattiva del Politecnico dei Milano a ICASSP 2014 (IEEE International Conference on Acoustic Speech and Signal Processing)  


Ma allora quali di queste tecnologie vincerà nell’immediato futuro? Dipende ovviamente dalle applicazioni. L’unica tecnologia realmente a basso costo per una resa in audio 3D rimane quella binaurale. Il potenziale di questa soluzione è ovviamente enorme, perchè richiede solo un set di cuffie di buona qualità e un player dotato di buoni convertitori D/A ad alta risoluzione e di una ragionevole potenza di calcolo on-board. Possiamo immaginare un sistema capace finalmente di completare i “goggle” di HTC Vive, PlayStation VR e Microsoft Hololens con un audio che renda giustizia all’esperienza visiva offerta.

  Dimostrazione di acustica immersiva interattiva in ambito gaming con visualizzazione basata su sistema HTC Vive, sviluppata presso il Politecnico di Milano

Se invece l’applicazione richiede un’esperienza condivisa non invasiva, nella quale non c’è posto per cuffie che ci isolino dagli altri, allora le soluzione più promettente per un audio 3D destinato a platee di molte persone rimane il rendering plenacustico, grazie al suo ridotto costo computazionale e la sua flessibilità per applicazioni interattive. Rimane la questione del numero di altoparlanti necessari per rendere queste tecnologie fruibili in un mercato consumer. Forse per questo dovremo aspettare ancora qualche anno. Ci sono forti speranze nella nuova generazione di altoparlanti digitali integrati con tecnologie MEMS (MicroElectroMechanical Systems). Ma di questo vi parlerò un’altra volta...

 

Augusto Sarti

Professore di Sound and Music Computing 

Dipartimento di Elettronica, Informazione e Bioingegneria

Politecnico di Milano