UPD 14/21 - 17.02.2021

Klanglandschaften mit künstlicher Intelligenz entschlüsseln

Reinhart-Koselleck-Projekt startet an der Universität Augsburg

Die Sprachanalyse spielt bereits im heutigen Leben eine Rolle: Sprache kann aufgenommen, verarbeitet und übersetzt werden. SprachApps, die Erkrankungen anhand von Stimme und Sprache analysieren können, sind bereits in der Entwicklung. Nun geht das Team um Prof. Dr. Björn Schuller den nächsten Schritt: Mit dem im Januar 2021 gestarteten Projekt „ADI0NOMOUS“ erforschen sie Klang insgesamt. Das Projekt wird im Rahmen des renommierten Reinhart Koselleck-Programms von der Deutschen Forschungsgemeinschaft (DFG) zunächst für fünf Jahre gefördert.

© Universität Augsburg

„Klanglandschaften sind unsere alltägliche akustische Umwelt; wir sind praktisch immer von Geräuschen umgeben, wir reagieren auf sie, genau wie wir sie auch erzeugen. Mit ADI0NOMOUS interessiert uns die ganze Komplexität unseres Audiosystems – insbesondere jede einzelne Klangquelle wie Sprache, Musik oder Fluglärm. Wir arbeiten daran, diese Klänge per IT zu verstehen und zu dechiffrieren“, erläutert Prof. Dr. Björn Schuller, Professor für Embedded Intelligence for Health Care and Wellbeing an der Universität Augsburg.

Der besondere Charakter des Ansatzes ist das tiefergehende Verständnis jeder einzelnen Klangquelle, ihrer Eigenschaften und ihres Zustands in der gesamten hörbaren Szene. Schuller beschreibt seine Idee in einem Beispiel: „Stellen Sie sich eine Audioszene in einer Werkstatt vor, in der zwei Personen an der Reparatur eines Autos arbeiten, während sie Musik hören und sich dabei unterhalten. Eine AUDI0NOMOUS isoliert das Gespräch, die Musik und die Motorgeräusche und weist jeder Klangquelle individuell relevante Merkmale zu. Zum Beispiel können die Musikrichtung und die individuelle Instrumentierung erkannt werden. Außerdem entschlüsselt die Audioanalyse das Alter und Geschlecht jeder Person und ihre Beziehung zueinander, auch Alter, Modell und Zustand des Autos können anhand seiner Geräusche identifiziert werden ebenso wie die Reparaturdauer protokolliert wird.“

AUDI0NOMOUS ist ein Langzeitprojekt, das auf künstlichen intelligenten Systemen basiert und darauf abzielt, einen großen Durchbruch bei der Analyse, Kategorisierung und dem Verständnis von realen Klanglandschaften zu erreichen. Der neuartige Ansatz subsummiert Forschungsergebnisse der vergangenen Jahre mit Blick auf einzelne Bereiche der Audio-Forschung und ermöglicht so völlig neue Perspektiven: Das tiefergreifende Erfassen von Klanglandschaften mit Hilfe künstlicher Intelligenz eröffnet dem Verständnis des Hörens von Computersystemen eine neue Dimension, denn es geht weit über das bislang bekannte menschliche Hörverständnis hinaus.

Für die Entschlüsselung der Klanglandschaften planen Björn Schuller und sein Team zunächst vier hochkooperative und interaktive „Hör-Agenten“ auf Basis künstlicher Intelligenz zu entwickeln. „Im Zusammenspiel werden diese Agenten ein tieferes und ganzheitliches Verständnis von Klang ableiten“, beschreibt Schuller. So wird ein „neugieriger“ Agent neue Daten aus Webquellen und sozialen Medien sammeln, ein Audio-Dekompositions-Agent zerlegt überlappende Klänge in die einzelnen Quellen, der Lern-Agent erkennt eine unbegrenzte Anzahl von unmarkierten Klängen und ein Ontologie-Agent soll die Klanglandschaften in verbale Inhalte übersetzen. „AUDI0NOMOUS eröffnet so eine völlig neue Dimension des umfassenden Audioverständnisses und generiert ein Wissen, das einen hohen und breiten Einfluss auf Disziplinen sowohl der Natur- als auch der Geisteswissenschaften aber auch im Gesundheitswesen haben kann“, beschreibt Björn Schuller sein Projekt.

Hintergrundinformationen zum Lehrstuhl für Embedded Intelligence for Health Care and Wellbeing

Der Lehrstuhl für Embedded Intelligence for Health Care and Wellbeing an der Universität Augsburg verbindet Informatik mit moderner Medizin. Das Forschungsfeld ist die sensor- und wissensbasierte Begleitung und Überprüfung aller gesundheitsrelevanten Parameter bei sportlichen und anderen Aktivitäten. Das Hauptinteresse liegt in der Erfassung, Analyse und Interpretation von Biosignalen, wie sie etwa bei der Überwachung der Herzaktivität, des Stoffwechsels oder neuronalen Aktivitäten anfallen. Daneben werden auch akustische Parameter (Sprache und andere akustische Ereignisse) sowie visuelle Parameter (Gesicht, Gestik, Körpermotorik) in einem realistischen Szenario (Alltagsleben) verarbeitet. Der Lehrstuhl von Prof. Dr. Björn Schuller ist angesiedelt in der Fakultät für Angewandte Informatik (FAI), Björn Schuller ist darüber hinaus Zweitmitglied der Medizinischen Fakultät sowie im Schwerpunkt Medizinische Informatik aktiv.

Wissenschaftlicher Ansprechpartner

Professor
Lehrstuhl für Embedded Intelligence for Health Care and Wellbeing

Suche