Interview: Tom Ammermann (New Audio Technology) – 3D-Audio-Special

Anlässlich zu unserem 3D-Audio-Special in der KEYS-Ausgabe 12/16 haben wir uns mit Tom Ammermann von New Audio Technology unterhalten.


KEYS: Dein Unternehmen gilt inzwischen als führend bei rein softwarebasiertem binauralen Audio. Wie bist du zu diesem Marktsegment gekommen?


Tom Ammermann:
Das hat 1999 auf der AES in Paris begonnen. Damals sah ich mich nach Hard- und Software für Surround-Produktionen um. Dabei bin ich über ein Demo von Studer und dem IRT gestolpert. Hier handelte es sich um eine Binauralsimulation, die schon mit Head-Tracking vorgeführt wurde. Dieses Erlebnis hat mich wirklich vom Sockel gehauen, und seitdem wusste ich, dass das die Zukunft der Mehrkanal-Reproduktion sein wird.

KEYS: Die aktuelle Terminologie ist ja etwas verwirrend. Binaurales Audio, 3D-Audio, Surround, Immersive Audio …


Tom Ammermann:
Heute sagt man dazu ja immersives Audio. Ein neuer Begriff, da man früher fälschlicherweise 5.1-Surround-Sound als 3D-Audio verkaufte – obwohl es eigentlich nur 2D-Audio ist.

KEYS: Wie ging es bei dir weiter auf dem Weg zu New Audio Technology?


Tom Ammermann:
Seit 2002 habe ich dann sehr viele Headphone-Surround-Mischungen kreiert, was meine Brand für binaurale Virtualisationen ist. Mit der Zeit hat sich eine ganz ordentliche Referenzliste mit Titeln wie „T2“, „Mr. & Mrs Smith“ und „Expendables I-III“ ergeben. 2008 und 2009 habe ich dann meine ersten 3D-Mischungen für Sony Music Entertainment Germany gemacht, wobei ich 5.1+2 und meine ersten Headphone-Surround-3D-Versionen (12.1) erstellt habe. Bei dieser Production musste ich schmerzlich erfahren, dass wir ohne ein anständiges Panning-Tool keine Chance mit 3D-Audio-Content-Creation haben werden. Gesagt getan, hab ich ein wirklich tolles Entwicklerteam zusammengesucht und mit der Entwicklung des Spatial Studio Designers begonnen, der mit seinem offiziellen Release Anfang 2012 sicher eins der führenden 3D-Audio-Content-Creation-Tools am Markt ist. Mit den von uns kreierten Methoden, Audioquellen aus der DAW via virtueller Busse in eine Mixengine zu routen, haben wir, glaube ich, den Grundstein für viele neue Anwendungen gelegt. Dieses Verfahren lässt uns wirklich effektiv mit verschiedensten Anwendungen für binaurale Kopfhörer-Virtualisierungen agieren.

KEYS: New Audio Technology bietet eine ganze Reihe verschiedener Software-Pakete für binaurales Audio und 3D-Sound an. Welche Produkte sind das genau?


Tom Ammermann:
Der Spatial Audio Designer (SAD) ist sozusagen unser Flaggschiff. Man kann jedes Format von Mono bis aktuell 22.2 in jeder beliebigen DAW und OS mischen – natürlich in Realtime. Wir haben null Latenz und man kann Audioquellen in die Mix-Engine oder auch in verschiedene Mix-Engines hineinwerfen, bis die CPU platt ist – und das dauert. Der SAD ist also das Swiss-Army-Knife für Mehrkanal-Audioproduktionen. Auch mit einer Stereo-DAW wie Ableton Live oder Studio One kann man all diese Formate kreieren. Wir haben auch einen Array-Configurator in Planung, womit man dann letztendlich auch total formatfremde Anordnungen wie in Theatern oder Events, Shows und Freizeitparks mischen kann. Etwas gänzlich Ungeplantes hat sich dann aber noch mit dem SAD ergeben.

KEYS: Welche neuen Anwendungsmöglichkeiten bietet der SAD?


Tom Ammermann:
Neben dem Mischen für reale Lautsprecheranwendungen, kann man mit dem SAD ein komplett neues Audio-Entertainment erschaffen, indem man neuartige Mischungen für Kopfhörer kreiert. Schließlich hören über 85 Prozent der Menschen ihre Musik mit Kopfhörern. Dazu halte ich viele Vorträge auf Conventions wie beispielsweise auf der diesjährigen SAE Alumni und auf der Tonmeistertagung in Köln.

KEYS: Und dann gibt es ja auch noch die Spatial Sound Card. Worin unterscheiden sich die Produkte?


Tom Ammermann:
Die Spatial Sound Card (SSC) bedient andere Anwendungen und somit auch eine leicht unterschiedliche Zielgruppe. Der SAD ist ja ein Plug-in und ist somit „nur“ innerhalb einer DAW einsetzbar. Doch viele Kunden benötigen lediglich eine Monitorlösung auf Ihrem Rechner, beispielsweise für unterwegs. Die SSC ist eine Standalone-Application, welche sich zur Standard-Audio-Device des Mac oder Windows Rechners macht. Man kann also alles, was auf dem Rechner tönt, mit handelsüblichen Kopfhörern auf einem virtuellen Lautsprechersystem bis 7.1 abhören. Also auch den Ausgang der DAW oder den Ausgang einer Videoworkstation, Games, VLC-Player, Netflix, iTunes und so weiter. Man darf die SSC nur nicht mit einer Art Enhancer verwechseln – noch nicht. Wenn man beispielsweise Stereo einspielt, hört man das dann auch nur auf zwei virtuellen Lautsprechern, 5.1 hingegen über sechs. Aber auch Stereo kommt viel natürlicher und angenehmer über eine Stereo-Virtualisierung, zumal wir viele Stereo-Studios gemessen haben, die wirklich gut klingen. Da war bisher für jeden etwas dabei. Die SSC wird im Übrigen als Upgrade in Kürze verfügbar sein und neben Mac-OS 10.11/12- und Windows-10-Support auch einige Bugfixes, eine überarbeitete GUI, verbessertes Processing und ein paar neue Locations und Kopfhörermessungen beinhalten.

KEYS: Wir kommen zu den technischen Details. Das Zauberwort heißt HRTF und beschreibt eine kopfformbezogene Transferfunktion, die herkömmliche Signale binaural erfahrbar macht, also deren räumliche Lokalisation abbildet. Was steckt dahinter?


Tom Ammermann:
Unsere Mess- und Processing-Methode ist vertraulich. Smyth steckt in der Tat Leuten Mikrofone in die Ohren. Das Ergebnis klingt toll, solange man vor den Lautsprechern sitzt, die man grade gemessen hat und das wirklich gute Head-Tracking von Smith nutzt. Es gibt jedoch riesige Unterschiede, beispielsweise im Vergleich mit dem Waves NX, das mir persönlich bei weitem nicht reicht. Macht man das Head-Tracking bei Smyth aber aus und setzt sich in einen anderen Raum, gar ohne einen sichtbaren Lautsprecher, ist der Budenzauber vorbei und wir sind mit dem SAD oder der SSC mindestens genauso gut, für einige sogar deutlich besser.

KEYS: Wäre es nicht an der Zeit, den SAD auch mit Headtracking auszustatten? Schließlich hat Waves als Nachzügler auf diesem Gebiet kürzlich den NX mit Headtracking auf den Markt gebracht.


Tom Ammermann:
Wir werden auch bald das Head-Tracking in den Pro-Anwendungen aktivieren, das wir ja schon lange in unserer Game-Engine SAGE verwenden. Damit werden wir sicher extrem attraktive VR-Content-Creation-Anwendungen direkt aus einer beliebigen DAW anbieten können.

KEYS: Noch mal zurück zu HRTF. Was kann man sich denn darunter vorstellen?


Tom Ammermann:
Hinter HRTF verbirgt sich erstmal nichts weiter als die Psychoakustik, die unser Gehirn verwendet um mit unseren beiden Ohren Audiosignale so auszuwerten, dass es Audiosignale in unserem Umfeld lokalisieren kann, beziehungsweise den Raum, in dem wir uns befinden, detektieren kann – also wie groß der ist und was für eine Wand und Bodenbeschaffenheit er beispielsweise hat. Um es also deutlich zu sagen: Alle Hersteller, die binaurale Kopfhörer-Virtualisierungen anbieten, nutzen HRTFs. Daran führt für niemanden ein Weg vorbei.

KEYS: Dann müssten doch alle binauralen Pluig-ins gleich gut klingen, oder?


Tom Ammermann:
Das Besondere sind nicht die HRTFs an sich, sondern Ihre Qualität, und da liegen Welten zwischen den unterschiedlichen Produkten. Unsere HRTFs sind gemessen und beinhalten somit reale frühe Reflexionen von kontrollierten Studioräumen und deren angepassten Lautsprechersystemen. Das ist wirklich hilfreich und lässt unsere Virtualisierungen sehr realistisch wirken. Sogar die Oben- und Unten-Lokalisation ist zum Teil wirklich erschreckend gut. Immer wieder kommt aber auch die Frage auf: Geht das nicht ohne Reflexionen, also trocken? Klar, man kann diese im Envelop des Setting-Menüs gegen Null setzen und für die, denen das noch nicht reicht, werden wir bald Messungen aus einem schalltoten Raum hinzufügen. Das sage ich schon lange, werde es jetzt aber auch bald schaffen. Also auch hier ist für jeden etwas dabei.

 

KEYS: Wo liegt konkret die besondere Kunst beim Erstellen der HRTFs?


Tom Ammermann:
Die Kunst bei HRTF ist, sie möglichst realistisch klingen zu lassen, und da sind gute Messmethoden, wie wir und auch Smyth sie benutzen, maßgeblich. Die meisten erzeugen die HRTFs mit gezielten Parametermanipulationen (Delay, Pegel, Phase, Frequenz, Hall etc.). Das klingt eigentlich nie sehr realistisch, ist aber einfacher zu machen, kostet meistens jedoch deutlich mehr CPU-Power.

KEYS: Wenn man mit dem SAD arbeitet, kann man auch diverse Surround-Effekte wie etwa die GRM Tools Spaces oder surroundfähige Raumsimulatoren wie Audio Ease Indoor, Zynaptiq Altiverb oder IRCAM Tools Spat mit einbeziehen. Deren Hall vermischt sich allerdings mit der Rauminformation der simulierten Studioumgebung. Eigentlich sollten solche Hall-Vermischungen doch vermieden werden, oder nicht?


Tom Ammermann:
Gute Frage (lacht). Also, man stelle sich vor, man sitzt in einem Studio und fängt an, eine Mischung zu machen. Gehen wir mal davon aus, dass das Studio einen angenehmen Raumklang erzeugt, also nicht knochentrocken, aber auch nicht wie eine Tropfsteinhöhle klingt. Niemand von uns würde damit ein Problem haben und den Hall falsch dosieren. Schließlich hören das ja auch später alle mit dem Raumklang ihrer Anlage beispielsweise zu Hause oder im Auto. Es ist also gut, dass unser Studio ähnliche, nur kontrolliertere Reflexionen verursacht, verglichen mit einer Anlage zu Hause. Demzufolge sollte das doch auch in einer Virtualisierung so sein, sonst mischt man gegebenenfalls beispielsweise zu viel Hall rein. Der Unterschied zwischen realer und virtueller Welt besteht lediglich in unserer Wahrnehmung des Raumklangs. Interessanterweise, das können uns sicher ein paar Wissenschaftler erklären, nehmen wir den Raumklang eines gemessenen Studios sehr viel deutlicher mit Kopfhörern wahr als in der Realität. In der Realität filtert unser Gehirn viel vom Raumklang weg. Das ist ein unbewusster Prozess. Hier muss man bei Virtualisierungen nun also tätig werden und die Reflexionen im Envelop des SAD oder auch der SSC im Setting-Menü soweit runtersetzen, dass er dem realen Empfinden des Raumklangs entspricht. Ab da wird man dann sehr souverän mit beispielsweise Hall umgehen und auf realen Boxen später hören, was man auch gemischt hat.

KEYS: Wie sieht es mit dem Mastern aus? Kann man bedenkenlos Mehrkanal-Prozessoren zur Bearbeitung des Frequenzgangs oder der Dynamik einsetzen, eine binaurale Zweikanal-Spur vielleicht sogar im Nachhinein weiter bearbeiten, oder führt das zu Verfälschungen des binauralen Signals?


Tom Ammermann:
Das ist im Prinzip absolut kein Problem. Wichtig ist dabei nur, im Auge zu behalten, dass bei Dynamikbegrenzung immer Räumlichkeit verlorengeht und dass man bei binauralen Virtualisierungen generell aufpassen muss, wenn man beispielsweise mit MS-Mastering in die Phasenlage eingreift. Soll nicht heißen, dass das nicht geht. Man muss es beobachten und gegebenenfalls anpassen. Wenn man das also fachgerecht macht und keinen Unsinn treibt, ist das also kein Problem, im Gegenteil. Ich habe immer Kompressoren und Limiter hinter der Virtualisierung, denn schließlich und endlich muss man immer gegen professionell gemasterte Stereomischungen antreten.

KEYS: Eure Technologie wird nicht nur in der Film- und Spielevertonung, sondern auch von berühmten Musikern verwendet, beispielsweise von Kraftwerk. Gab es eine regelrechte Zusammenarbeit mit diesen Künstlern? Hat diese Erfahrung vielleicht zu speziellen Weiterentwicklungen des SAD beigetragen?


Tom Ammermann:
Ja, das war hilfreich. Fritz Hilpert von Kraftwerk mal ein bisschen bei der Arbeit zuschauen zu dürfen, war eine Ehre und auch sehr erhellend. Wieder mal ein Kollege, der einen ganz eigenen Workflow entwickelt und damit ein wirklich atemberaubendes Erlebnis kreiert. Wir, ich meine Fritz, – ich bin dabei so eine Art 3D-Polizei – mischen gerade das komplette Kraftwerk-Repertoire komplett neu im Sound, wie man ihn von den aktuellen Konzerten kennt, in Dolby Atoms und Headphone-Surround-3D für einen Blu-ray Release, das nicht mehr weit hin ist. Diese Produktion in unserem Studio zu konzipieren und auch durchzuführen war wirklich eine Herausforderung und hat mich wieder zu vielen neuen Features inspiriert. Nicht nur einmal kamen mir neue Ideen für Verbesserungen des SAD-Interfaces und auch des Workflows. Also ja, die direkte Zusammenarbeit gibt es und sie hat mich, und ich denke auch Fritz, viele neue und nützliche Erfahrungen machen lassen. Das alles mit Nuendo und Pro Tools in einem Home-Environment, also keiner Dub-Stage, was nicht zweckdienlich gewesen wäre, zu mischen, war eine echte Herausforderung – wobei der SAD seine Arbeit sehr gut gemacht hat.

KEYS: Ein Update zum SAD soll in Kürze folgen. Mit welchen Neuerungen darf man rechnen und wird das Update kostenpflichtig sein?


Tom Ammermann:
Das generelle Update wird nichts kosten. Es wir jedoch ein paar neue Module geben, wie beispielsweise den Objekt-Export, die ein bisschen was kosten werden. Der SAD hat eine komplett überarbeitetet Engine, die alle aktuellen Plug-in Formate wie VST3 und AAX sowie Windows 10 und Mac OS 10.1 und vermutlich auch schon 10.12 unterstützt. Auch die GUI wird angepasst. So beispielsweise die Send-Module nun aus wie die Mix-Module, sind also mit Panning-Funktion ausgestattet. Ein großes neues Feature dieses Updates wird der Object-Based-Export sein. Intern haben wir ja schon immer mit Objekten gearbeitet und die dann auf Arrays gerendert. Nun kann man Audio-Objekte und deren Metadaten exportieren. Das erste große Format, das wir unterstützen, wird MPEG-H sein. Wir schöpfen ja bereits aus einer über 5 Jahre andauernden User-Response und wissen sehr genau, was wichtig und auch was unnötiger Schnickschnack hinsichtlich effektiven Workflows ist. All das wird sich im Upgrade wiederfinden und noch ein paar neue Ideen, die wir für die Zukunft als wichtig erachten.

KEYS: Sennheiser arbeitet an AMBEO 3D-Audio, einem umfangreichen Produktionssystem für unterschiedliche 3D-Audio-Anwendungen. Unter anderem ist dabei auch eine binaurale Software mit ähnlichen Eigenschaften wie dem SAD gefragt. Wird es zu einer Zusammenarbeit mit Sennheiser kommen und wenn ja, in welcher Form?


Tom Ammermann:
Also lass mich das mal so sagen. Sennheiser benutzt für seine Lautsprecheranordnungen 9.0, was wir im SAD schon lange können. Insofern kann man sagen, dass der SAD, AMBEO unterstützt. Dass Sennheiser unseren Virtualisierungen gegenüber nicht abgeneigt ist, lässt sich daran erkennen, dass wir ihre David-Bowie-Demos, die mit dem Sennheiser-eigenen Upmix von Gregor Zielinsky hergestellt wurden, als Virtualisierung in unserm Demo-Player zeigen sowie den „… Supported by Sennheiser“-Link setzen durften. Eine direkte Zusammenarbeit gibt es derzeit jedoch nicht, außer dass man sich sehr gut kennt und auf Messen und Conventions, zuletzt auch wieder auf der AES in LA, zusammen Präsentationen macht. Was in Zukunft geht, kann ich noch nicht sagen, aber ich schätze schon, dass man sich bei der einen oder anderen Gelegenheit mal darüber unterhalten wird. Was sich genau alles hinter AMBEO verbirgt, kann ich aber auch noch nicht sagen – bin aber gespannt.

KEYS: Tom, danke für deine Zeit.

Das zugehörige Special finden Sie in der Ausgabe 12/16.