Silvan Mertes M.Sc.

Wissenschaftlicher Mitarbeiter
Lehrstuhl für Menschzentrierte Künstliche Intelligenz
Telefon: +49 (821) 598 - 2342
E-Mail:
Raum: 2038 (N)
Adresse: Universitätsstraße 6a, 86159 Augsburg

Forschungsinteressen

  • Generative Modelle
  • Adversarial Learning
  • Deep Learning
  • Explainable AI (insbesondere Counterfactual Explanations)

Akademische Aktivitäten

  • Reviewtätigkeiten für Transactions on Affective Computing
  • Reviewtätigkeiten für ACM Conference on Human Factors in Computing Systems (CHI)
  • Reviewtätigkeiten für IEEE Signal Processing Magazine
  • Reviewtätigkeiten für International Conference on Multimodal Interaction (ICMI)

  • Reviewtätigkeiten für Transactions on Audio, Speech and Language Processing

  • Reviewtätigkeiten für Applied Artificial Intelligence

  • Reviewtätigkeiten für XAI2023 (XAI@IJCAI)

  • Reviewtätigkeiten für European Conference on Artificial Intelligence (ECAI)

  • Reviewtätigkeiten für IEEE Robotics and Automation Letters

  • Reviewtätigkeiten für Elsevier Expert Systems With Applications

 

  • Session Chair 2nd International Conference on Deep Learning Theory and Applications (DeLTA’21)

  • Program Committee member International Conference on Multimodal Interaction (ICMI) 2021-2023

  • Program Committee member XAI2023 (XAI@IJCAI) 2023

  • Program Committee member International Conference on Affective Computing & Intelligent Interaction (ACII) 2024

  • Koordinator Human-Centered Production Technologies (im Rahmen des KI-Produktionsnetzwerks Augsburg)

 

 

 

Auszeichnungen

  • International Conference on Deep Learning Theories and Applications (DeLTA 2020) - Best Paper Award Paper
  • IEEE Virtual Reality (IEEEVR 2022) - Honorable Mention Paper
  • Creativity & Cognition (C&C 2022) - Honorable Mention Paper
  • ACII A-VB Challenge 2022 "Type" Subtask - 1st Place Paper
  • ComParE Challenge 2021 "Escalation Detection" Subtask - 2nd Place
HCMKDT SIIHKI '23 Honorable Chad Award CC BY-NC-ND

Projekte

KI-Produktionsnetzwerk

Betreute Abschlussarbeiten

  • Entwicklung eines interaktiven, durch maschinelles Lernen gestützten Trainingssystems für extreme Gesangstechniken. (Bachelor, 2024, Co-Betreuung)
  • Texture Editing with Diffusion Models. (Projektmodul, 2024)
  • GradCam zur Analyse von GAN-Trainingsprozessen. (Bachelor, 2024)
  • Using CycleGAN to Learn Image-to-Image Translation for Unpaired Facial Expression Data. (Master, 2023, Co-Betreuung)
  • Computational Generation and Adaption of Climbing Routes through Adversarial Learning. (Master, 2023, Co-Betreuung)
  • Generating Audio Triggers for an Autonomous Sensory Meridian Response with Generative Adversarial Networks. (Bachelor, 2023)
  • Diffusion-based Counterfactual Explanation Generation for Facial Emotion Recognition. (Projektmodul, 2023)
  • Using GANs for Combining Counterfactual Explanations and Feature Attribution. (Master, 2023)
  • Evaluating GAN-based Alterfactual Explanation Generation. (Projektmodul, 2023)
  • Exploring Tangible User Interfaces for Latent Space Manipulation of Generative Adversarial networks. (Bachelor, 2022, Co-Betreuung)
  • Implementation of a Classification Model for Rhythmic Attunement in Music Therapy Sessions. (Bachelor, 2022, Co-Betreuung)
  • Generating Counterfactual Explanations for Atari Agents via Generative Adversarial Networks. (Master, 2022, Co-Betreuung)
  • Alterfactuals as a Novel Explanation Method for Image Classifiers. (Master, 2021)
  • Exploring Opportunities for Musical Creativity Support in VR through Human-Computer-Interfaces and Interaction Design. (Master, 2021, Co-Betreuung)
  • Reinforcement Learning Techniques as Enhancement of frame-level Speech Emotion Recognition. (Master, 2021, Co-Betreuung)
  • Konträre Chatbotpersonas im internen Businessumfeld: Entwicklung und Präferenzanalyse. (Master, 2021)
  • Conditional Human Image Synthesis with Generative Adversarial Networks. (Bachelor, 2020)

Offene Themen für Abschlussarbeiten und Projektmodule

Die folgenden Themen können in Umfang und Ausrichtung flexibel variiert werden, sodass die Durchführung als Bachelorarbeit, Masterarbeit oder Projektmodul möglich ist. Außerdem kann der inhaltliche Schwerpunkt selbstverständlich auf die Interessen des durchführenden Studenten ausgerichtet werden.

Darüber hinaus freue ich mich jederzeit über eigene Themenvorschläge, sofern sie eine gewisse Überschneidung mit meinem Forschungsschwerpunkt aufweisen.

 

 

Alterfactual Explanations

Alterfactual Explanations sind ein neuartiger Ansatz, künstliche Intelligenz zu erklären. Hierbei werden Eingabedaten so verändert, dass für die Entscheidung der KI irrelevante Merkmale verändert werden. Ziel dieser Arbeit ist, existierende, GAN-basierte Algorithmen zur Erzeugung von Alterfactual Explanations auf mehrere Datensätze anzuwenden und anschließend das Konzept von Alterfactuals in einer Nutzerstudie zu evaluieren.

 

 

Audio Diffusion Models

Diffusion Models sind die neuester Generation generativer künstlicher Intelligenz, bekannt geworden unter anderem durch Applikationen wie "DALL-E 2" oder "Midjourney". In dieser Arbeit soll untersucht werden, ob mit Hilfe von Diffusion Models Textbeschreibungen zu Audiodaten umgewandelt werden können, so wie es im Bereich der Bildgenerierung bereits verbreitet ist.

 

 

Interaktives Lehrsystem mit Diffusion Models     

Diffusion Models sind die neuester Generation generativer künstlicher Intelligenz, bekannt geworden unter anderem durch Applikationen wie "DALL-E 2" oder "Midjourney", welche hochwertige Bilder aus Textbeschreibungen generieren können. Mit Hilfe von Diffusion Models ist es außerdem möglich, Teile eines vorhandenen Bildes neu zu generieren ("Inpainting"). In dieser Arbeit soll diese Möglichkeit ausgenutzt werden, um ein interaktives Erklärsystem zu implementieren, indem Diffusion Models und Techniken aus dem Bereich XAI kombiniert werden.

 

 

Text-to-Speech mit Diffusion Models     

Diffusion Models sind die neuester Generation generativer künstlicher Intelligenz, bekannt geworden unter anderem durch Applikationen wie "DALL-E 2" oder "Midjourney". In dieser Arbeit soll untersucht werden, ob mit Hilfe von Diffusion Models Text zu Audio umgewandelt werden kann, um ein hochqualitatives Text-to-Speech System zu erhalten.

 

 

Audio Counterfactual Explanations

In dieser Arbeit soll ein System entwickelt werden, das auf Basis von Latent Vector Evolution (LVE) Erklärungen für KI-Systeme für die Audio-Domäne erzeugt. LVE ist ein auf evolutionären Algorithmen basierendes Verfahren, um GANs zu durchsuchen. Mithilfe dieser Algorithmen sollen Counterfactual Explanations generiert werden. Dies bedeutet, von einer KI bewertete Audiodaten sollen so verändert werden, dass sich die Bewertung der KI ändert. Dadurch wird dem Nutzer des Systems eine „alternative Realität“ gezeigt, die ein besseres Verständnis der KI bewirken soll.

 

 

Video Style Conversion mit Diffusion Models     

Diffusion Models sind die neuester Generation generativer künstlicher Intelligenz, bekannt geworden unter anderem durch Applikationen wie "DALL-E 2" oder "Midjourney". Diffusion Models können beispielsweise dazu benutzt werden, den Stil eines Bildes zu ändern (z.B. von photorealistisch zu comic-like). In dieser Arbeit soll eine bestehende Diffusion Model Architektur erweitert werden, um den Stil von Videos zu ändern.

 

 

GUI Design für Social Signal Analysis-Framework     

In dieser Abschlussarbeit soll eine funktionale und ansprechende Nutzeroberfläche für ein existierendes, am Lehrstuhl entwickeltes Python-Framework konzeptioniert und implementiert werden. Hierzu sollen aktuelle Entwicklungen und Forschungsarbeiten aus dem Bereich User Design und User Experience in die Konzeption mit einbezogen werden.

 

 

 

Lehre

(Angewandte Filter: Semester: aktuelles | Dozenten: Silvan Mertes | Vorlesungsarten: alle)
Name Semester Typ
Embodied Characters and Interactive Virtual Worlds Lab Wintersemester 2023/24 Praktikum
Seminar Generative Künstliche Intelligenz Wintersemester 2023/24 Seminar

Publikationen

2023 | 2022 | 2021 | 2020 | 2019

2023

Andreas Triantafyllopoulos, Bjorn W. Schuller, Gokce Iymen, Metin Sezgin, Xiangheng He, Zijiang Yang, Panagiotis Tzirakis, Shuo Liu, Silvan Mertes, Elisabeth André, Ruibo Fu and Jianhua Tao. 2023. An overview of affective speech synthesis and conversion in the deep learning era. DOI: 10.1109/jproc.2023.3250266
PDF | BibTeX | RIS | DOI

Tobias Huber, Maximilian Demmler, Silvan Mertes, Matthew Olson and Elisabeth Andrè. 2023. GANterfactual-RL: understanding reinforcement learning agents' strategies through visual counterfactual explanations. DOI: 10.5555/3545946.3598751
BibTeX | RIS | DOI | URL

Luuk H. Boulogne, Julian Lorenz, Daniel Kienzle, Robin Schön, Katja Ludwig, Rainer Lienhart, Simon Jegou, Guang Li, Cong Chen, Qi Wang, Derik Shi, Mayug Maniparambil, Dominik Müller, Silvan Mertes, Niklas Schröter, Fabio Hellmann, Miriam Elia, Ine Dirks, Matias Nicolas Bossa, Abel Diaz Berenguer, Tanmoy Mukherjee, Jef Vandemeulebroucke, Hichem Sahli, Nikos Deligiannis, Panagiotis Gonidakis, Ngoc Dung Huynh, Imran Razzak, Reda Bouadjenek, Mario Verdicchio, Pasquale Borrelli, Marco Aiello, James A. Meakin, Alexander Lemm, Christoph Russ, Razvan Ionasec, Nikos Paragios, Bram van Ginneken and Marie-Pierre Revel Dubios. in press. The STOIC2021 COVID-19 AI challenge: applying reusable training methodologies to private data.
BibTeX | RIS | URL

Dominik Mueller, Silvan Mertes, Niklas Schroeter, Fabio Hellmann, Miriam Elia, Bernhard Bauer, Wolfgang Reif, Elisabeth André and Frank Kramer. 2023. Towards automated COVID-19 presence and severity classification. DOI: 10.3233/shti230309
PDF | BibTeX | RIS | DOI

Ruben Schlagowski, Dariia Nazarenko, Yekta Said Can, Kunal Gupta, Silvan Mertes, Mark Billinghurst and Elisabeth André. 2023. Wish you were here: mental and physiological effects of remote music collaboration in mixed reality. DOI: 10.1145/3544548.3581162
PDF | BibTeX | RIS | DOI

2022

Alexander Heimerl, Silvan Mertes, Tanja Schneeberger, Tobias Baur, Ailin Liu, Linda Becker, Nicolas Rohleder, Patrick Gebhard and Elisabeth André. in press. "GAN I hire you?" - A system for personalized virtual job interview training. DOI: 10.48550/arXiv.2206.03869
BibTeX | RIS | DOI

Silvan Mertes, Christina Karle, Tobias Huber, Katharina Weitz, Ruben Schlagowski and Elisabeth André. in press. Alterfactual explanations: the relevance of irrelevance for explaining AI systems. DOI: 10.48550/arXiv.2207.09374
BibTeX | RIS | DOI

Ruben Schlagowski, Fabian Wildgrube, Silvan Mertes, Ceenu George and Elisabeth André. 2022. Flow with the beat! Human-centered design of virtual environments for musical creativity support in VR. DOI: 10.1145/3527927.3532799
PDF | BibTeX | RIS | DOI

Silvan Mertes, Tobias Huber, Katharina Weitz, Alexander Heimerl and Elisabeth André. 2022. GANterfactual - counterfactual explanations for medical non-experts using generative adversarial learning. DOI: 10.3389/frai.2022.825565
PDF | BibTeX | RIS | DOI

Alexander Heimerl, Silvan Mertes, Tanja Schneeberger, Tobias Baur, Ailin Liu, Linda Becker, Nicolas Rohleder, Patrick Gebhard and Elisabeth André. 2022. Generating personalized behavioral feedback for a virtual job interview training system through adversarial learning. DOI: 10.1007/978-3-031-11644-5_67
PDF | BibTeX | RIS | DOI

Artificial Intelligence in Education: 23rd International Conference, AIED 2022, Durham, UK, July 27–31, 2022, Proceedings, Part I. Editors: Maria Mercedes Rodrigo, Noburu Matsuda, Alexandra I. Cristea, Vania Dimitrova

Ruben Schlagowski, Kunal Gupta, Silvan Mertes, Mark Billinghurst, Susanne Metzner and Elisabeth André. 2022. Jamming in MR: towards real-time music collaboration in mixed reality. DOI: 10.1109/vrw55335.2022.00278
PDF | BibTeX | RIS | DOI | URL

2021

Alice Baird, Silvan Mertes, Manuel Milling, Lukas Stappen, Thomas Wiest, Elisabeth André and Björn W. Schuller. 2021. A prototypical network approach for evaluating generated emotional speech. DOI: 10.21437/interspeech.2021-1123
PDF | BibTeX | RIS | DOI

Dominik Schiller, Silvan Mertes, Pol van Rijn and Elisabeth André. 2021. Analysis by synthesis: using an expressive TTS model as feature extractor for paralinguistic speech classification. DOI: 10.21437/interspeech.2021-1587
PDF | BibTeX | RIS | DOI

Silvan Mertes, Florian Lingenfelser, Thomas Kiderle, Michael Dietz, Lama Diab and Elisabeth André. 2021. Continuous emotions: exploring label interpolation in conditional generative adversarial networks for face generation. DOI: 10.5220/0010549401320139
PDF | BibTeX | RIS | DOI

Tobias Huber, Silvan Mertes, Stanislava Rangelova, Simon Flutura and Elisabeth André. 2021. Dynamic difficulty adjustment in virtual reality exergames through experience-driven procedural content generation. DOI: 10.1109/ssci50451.2021.9660086
PDF | BibTeX | RIS | DOI

Pol van Rijn, Silvan Mertes, Dominik Schiller, Peter M. C. Harrison, Pauline Larrouy-Maestri, Elisabeth André and Nori Jacoby. 2021. Exploring emotional prototypes in a high dimensional TTS latent space. DOI: 10.21437/interspeech.2021-1538
PDF | BibTeX | RIS | DOI

Silvan Mertes, Thomas Kiderle, Ruben Schlagowski, Florian Lingenfelser and Elisabeth André. 2021. On the potential of modular voice conversion for virtual agents. DOI: 10.1109/ACIIW52867.2021.9666349
PDF | BibTeX | RIS | DOI

Thomas Kiderle, Hannes Ritschel, Kathrin Janowski, Silvan Mertes, Florian Lingenfelser and Elisabeth André. 2021. Socially-aware personality adaptation. DOI: 10.1109/ACIIW52867.2021.9666197
PDF | BibTeX | RIS | DOI

Ruben Schlagowski, Silvan Mertes and Elisabeth André. 2021. Taming the chaos: exploring graphical input vector manipulation user interfaces for GANs in a musical context. DOI: 10.1145/3478384.3478411
PDF | BibTeX | RIS | DOI

2020

Silvan Mertes, Alice Baird, Dominik Schiller, Björn Schuller and Elisabeth André. 2020. An evolutionary-based generative approach for audio data augmentation. DOI: 10.1109/mmsp48831.2020.9287156
PDF | BibTeX | RIS | DOI

Silvan Mertes, Andreas Margraf, Christoph Kommer, Steffen Geinitz and Elisabeth André. 2020. Data augmentation for semantic segmentation in the context of carbon fiber defect detection using adversarial learning. DOI: 10.5220/0009823500590067
PDF | BibTeX | RIS | DOI

Dominik Schiller, Silvan Mertes and Elisabeth André. 2020. Embedded emotions - a data driven approach to learn transferable feature representations from raw speech input for emotion recognition.
PDF | BibTeX | RIS | URL

2019

Hannes Ritschel, Ilhan Aslan, Silvan Mertes, Andreas Seiderer and Elisabeth André. 2019. Personalized synthesis of intentional and emotional non-verbal sounds for social robots. DOI: 10.1109/ACII.2019.8925487
PDF | BibTeX | RIS | DOI

Suche