Hear The Species

HearTheSpecies: Using computer audition to understand the drivers of soundscape composition, and to predict parasitation rates based on vocalisations of bird species (#SCHU2508/14-1)

(“Einsatz von Computer-Audition zur Erforschung der Auswirkungen von Landnutzung auf Klanglandschaften, sowie der Parasitierung anhand von Vogelstimmen“)

DFG (German Research Foundation) Project, Schwerpunktprogramm „Biodiversitäts-Exploratorien“ 

Runtime: 36 Months

Partner: University of Freiburg


The ongoing biodiversity crisis has endangered thousands of species around the world and its urgency is being increasingly acknowledged by several institutions – as signified, for example, by the upcoming UN Biodiversity Conference. Recently, biodiversity monitoring has also attracted the attention of the computer science community due to the potential of disciplines like machine learning (ML) to revolutionise biodiversity research by providing monitoring capabilities of unprecedented scale and detail. To that end, HearTheSpecies aims to exploit the potential of a heretofore underexplored data stream: audio. As land use is one of the main drivers of current biodiversity loss, understanding and monitoring the impact of land use on biodiversity is crucial to mitigate and halt the ongoing trend. This project aspires to bridge the gap between existing data and infrastructure in the Exploratories framework and state-of-the-art computer audition algorithms. The developed tools for coarse and fine scale sound source separation and species identification can be used to analyse the interaction among environmental variables, local and regional land-use, vegetation cover and the different soundscape components: biophony (biotic sounds), geophony (abiotic sounds) and anthropophony (human-related sounds).





SHIFT: MetamorphoSis of cultural Heritage Into augmented hypermedia assets For enhanced accessibiliTy and inclusion (#101060660)


EU Horizon 2020 Research & Innovation Action (RIA)


Runtime: 01.10.2022 – 30.09.2025

Partners:  Software Imagination & Vision, Foundation for Research and Technology, Massive Dynamic, Audeering, University of Augsburg, Queen Mary University of London, Magyar Nemzeti Múzeum – Semmelweis Orvostörténeti Múzeum, The National Association of Public Librarians and Libraries in Romania, Staatliche Museen zu Berlin – Preußischer Kulturbesitz, The Balkan Museum Network, Initiative For Heritage Conservation, Eticas Research and Consulting, German Federation of the Blind and Partially Sighted


The SHIFT project is strategically conceived to deliver a set of technological tools, loosely coupled that offers cultural heritage institutions the necessary impetus to stimulate growth, and embrace the latest innovations in artificial intelligence, machine learning, multi-modal data processing, digital content transformation methodologies, semantic representation, linguistic analysis of historical records, and the use of haptics interfaces to effectively and efficiently communicate new experiences to all citizens (including people with disabilities).





causAI: AI Interaktionsoptimierung bei Videoanrufen im Vertrieb (#03EGSBY853)


BMWi (Federal Ministry for Economic Affairs and Energy) EXIST Business Start-up Grant


Runtime: 01.03.2022 - 28.02.2023


causAI analysiert die Sprache, Gestik und Mimik von vertrieblichen Videoanrufen mithilfe von künstlicher Intelligenz, um die digitale Vertriebskompetenz zu verbessern. Ziel ist es, causAI als innovatives Softwareprodukt für Vertriebsgesprächsunterstützung und -schulung im Vertrieb zu etablieren.




Machine Learning für Kameradaten mit unvollständiger Annotation

Machine Learning für Kameradaten mit unvollständiger Annotation


Industry Cooperation with BMW AG

Runtime: 01.01.2022 – 31.12.2023

Partner: BMW AG


The project aims at self-supervised and reinforced learning for analysis of camera data with incomplete annotation.

Leader Humor

A Multimodal Approach to Humor Recognition and an Analysis of the Influence of Leader Humor on Team Performance in Major European Soccer Leagues

DFG (German Research Foundation) Project

Runtime: 36 Months

Partners: University of Passau, University of Augsburg


In this project, scholars active in the fields of management and computerized psychometry take the unique opportunity to join their respective perspectives and complementary capabilities to address the overarching question of “How, why, and under which circumstances does leader humor affect team processes and team performance, and how can (leader) humor be measured on a large scale by applying automatic multimodal recognition approaches?”. Trait humor, which is one of the most fundamental and complex phenomena in social psychology, has garnered increasing attention in management research. However, scholarly understanding of humor in organizations is still substantially limited, largely because research in this domain has primarily been qualitative, survey-based, and small scale. Notably, recent advances in computerized psychometry promise to provide unique tools to deliver unobtrusive, multi-faceted, ad hoc measures of humor that are free from the substantial limitations associated with traditional humor measures. Computerized psychometry scholars have long noted that a computerized understanding of humor is essential for the humanization of artificial intelligence. Yet, they have struggled to automatically identify, categorize, and reproduce humor. In particular, computerized approaches have suffered not only from a lack of theoretical foundations but also from a lack of complex, annotated, real-life data sets and multimodal measures that consider the multi- faceted, contextual nature of humor. We combine our areas of expertise to address these research gaps and complementary needs in our fields. Specifically, we substantially advance computerized measures of humor and provide a unique view into the contextualized implications of leader humor, drawing on the empirical context of professional soccer. Despite initial attempts to join computerized psychometry and management research, these two fields have not yet been successfully combined to address our overall research question. We aspire to fill this void as equal partners, united by our keen interest in humor, computerized psychometry, leader rhetoric, social evaluations, and team performance. 




Agent-based Unsupervised Deep Interactive 0-shot-learning Networks Optimising Machines’ Ontological Understanding of Sound
DFG (German Research Foundation) Reinhart Koselleck-Projekt
# 442218748

Soundscapes are a component of our everyday acoustic environment; we are always surrounded by sounds, we react to them, as well as creating them. While computer audition, the understanding of audio by machines, has primarily been driven through the analysis of speech, the understanding of soundscapes has received comparatively little attention.


AUDI0NOMOUS, a long-term project based on artificial intelligent systems, aims to achieve a major breakthroughs in analysis, categorisation, and understanding of real-life soundscapes. A novel approach, based around the development of four highly cooperative and interactive intelligent agents, is proposed herein to achieve this highly ambitious goal. Each agent will autonomously infer a deep and holistic comprehension of sound.  A Curious Agent will collect unique data from web sources and social media; an Audio Decomposition Agent will decompose overlapped sounds; a Learning Agent will recognise an unlimited number of unlabelled sound; and, an Ontology Agent will translate the soundscapes into verbal ontologies.


AUDI0NOMOUS will open up an entirely new dimension of comprehensive audio understanding; such knowledge will have a high and broad impact in disciplines of both the sciences and humanities, promoting advancements in health care, robotics, and smart devices and cities, amongst many others.


Start date: 01.01.2021


Duration: 5 years



Bayerischer Forschungsverbund zum gesunden Umgang mit digitalen Technologien und Medien
BayFOR (Bayerisches Staatsministerium für Wissenschaft und Kunst) Project


Partners: University of Augsburg, Otto-Friedrichs-University Bamberg, FAU Erlangen-Nuremberg, LMU Munich, JMU Würzburg


Runtime 2019-2023 (48 Months)   


Die Digitalisierung führt zu grundlegenden Veränderungen unserer Gesellschaft und unseres individuellen Lebens. Dies birgt Chancen und Risiken für unsere Gesundheit. Zum Teil führt unser Umgang mit digitalen Technologien und Medien zu negativem Stress (Distress), Burnout, Depression und weiteren gesundheitlichen Beeinträchtigungen. Demgegenüber kann Stress auch eine positive, anregende Wirkung haben (Eustress), die es zu fördern gilt. Die Technikgestaltung ist weit fortgeschritten, sodass digitale Technologien und Medien dank zunehmender künstlicher Intelligenz, Adaptivität und Interaktivität die Gesundheit ihrer menschlichen Nutzerinnen und Nutzer bewahren und fördern können. Ziel des Forschungsverbunds ForDigitHealth ist es, die Gesundheitseffekte der zunehmenden Präsenz und intensivierten Nutzung digitaler Technologien und Medien – speziell in Hinblick auf die Entstehung von digitalem Distress und Eustress und deren Folgen – in ihrer Vielgestaltigkeit wissenschaftlich zu durchdringen sowie Präventions- und Interventionsoptionen zu erarbeiten und zu evaluieren. Dadurch soll der Forschungsverbund zu einem angemessenen, bewussten und gesundheitsförderlichen individuellen wie kollektiven Umgang mit digitalen Technologien und Medien beitragen.



Huawei & University of Augsburg Joint Lab

The Huawei-University of Augsburg Joint Lab aims to bring together Affective Computing & Human-Centered Intelligence for Human-centred empathic interaction.


The Lehrstuhl for Embedded Intelligence in Health Care and Wellbeing is one of two Lehrstuhls in the collaboration.


Start date: 01.01.2020


Duration: 3 years


Paralinguistische Stimmcharakteristika bei Depression

Start date: 01.01.2020


Duration: 36 Months


Funding body: Deutsche Forschungsgemeinschaft (DFG)




Die Erklärung, Diagnostik, Vorhersage und Behandlung der Major Depression stellen nach wie vor zentrale Herausforderungen der Psychotherapieforschung dar.


Als neuer und innovativer Ansatz in der Diagnostik und Therapie der Depression erforscht die Paralinguistik Intonationsmerkmale wie Sprechpausen, Sprachrhythmus, Intonation, Tonhöhe und Lautstärke. In diesem interdisziplinären Projekt arbeiten die klinische Psychologie und Informatik zusammen, um über optimierte Algorithmen Depressionen anhand paralinguistischer Stimmcharakteristika (PSCs) möglichst gut zu erkennen, vorherzusagen und zu klären, inwieweit ein bestimmter Intonationsstil dazu beiträgt, die Depression aufrecht zu erhalten.


Darüber hinaus wollen wir die PSCs perspektivisch auch als Therapie einsetzen. Das bedeutet, dass Therapeuten nicht nur, wie gewohnt in der Depressionsbewältigung, mit ihren Patienten erarbeiten, was sie sich sagen, sondern auch wie. Ein Du schaffst das schon! mit leiser, monotoner und kraftloser Stimme wird nichts bewirken, da es nicht emotional überzeugend klingt. Wenn der Satz dagegen mit kraftvoller, deutlicher und dynamischer Stimme ausgesprochen wird, sind die Chance deutlich größer, dass sich damit auch ein Gefühl von Hoffnung und Optimismus auslösen lässt.


Das von der DFG geförderte Forschungsprojekt will die wissenschaftliche Grundlage hierfür schaffen. Dazu sollen Sprachproben mit Hilfe von maschinellem Lernen untersucht werden, um Intonationsunterschiede zwischen klinisch-depressiven und nicht-depressiven Personen zu erkennen. Wir werden Algorithmen entwickeln, mit deren Hilfe depressionsrelevante Intonations-Muster identifiziert werden können. Die gewonnenen Erkenntnisse sollen dann wiederum helfen, ein Intonations-fokussiertes Feedback-Training zu entwickeln, das Menschen mit Depressionen helfen soll, depressive Phasen zu bewältigen.

Vergangene Projekte

Hier finden Sie eine Übersicht über vergangene Projekte