Silvan Mertes M.Sc.

Wissenschaftlicher Mitarbeiter
Lehrstuhl für Menschzentrierte Künstliche Intelligenz
Telefon: +49 (821) 598 - 2342
E-Mail:
Raum: 2038 (N)
Adresse: Universitätsstraße 6a, 86159 Augsburg

Forschungsinteressen

  • Deep Learning
  • Adversarial Learning
  • Generative Modelle
  • Explainable AI (insbesondere Counterfactual Explanations)

Akademische Aktivitäten

  • Reviewtätigkeiten für IEEE Signal Processing Magazine
  • Reviewtätigkeiten für International Conference on Multimodal Interaction (ICMI)

  • Reviewtätigkeiten für Transactions on Affective Computing

  • Session Chair 2nd International Conference on Deep Learning Theory and Applications (DeLTA’21)

  • Themenfeld-Koordinator Human-Centered Production Technologies (im Rahmen des KI-Produktionsnetzwerks Augsburg)

Projekte

KI-Produktionsnetzwerk

Betreute Abschlussarbeiten

  • Alterfactuals as a Novel Explanation Method for Image Classifiers. (Master, 2021)
  • Exploring Opportunities for Musical Creativity Support in VR through Human-Computer-Interfaces and Interaction Design. (Master, 2021, Co-Betreuung)
  • Reinforcement Learning Techniques as Enhancement of frame-level Speech Emotion Recognition. (Master, 2021, Co-Betreuung)
  • Konträre Chatbotpersonas im internen Businessumfeld: Entwicklung und Präferenzanalyse. (Master, 2021)
  • Conditional Human Image Synthesis with Generative Adversarial Networks. (Bachelor, 2020)

Offene Themen für Abschlussarbeiten und Projektmodule

Die folgenden Themen können in Umfang und Ausrichtung flexibel variiert werden, sodass die Durchführung als Bachelorarbeit, Masterarbeit oder Projektmodul möglich ist. Außerdem kann der inhaltliche Schwerpunkt selbstverständlich auf die Interessen des durchführenden Studenten ausgerichtet werden.

Darüber hinaus freue ich mich jederzeit über eigene Themenvorschläge, sofern sie eine gewisse Überschneidung mit meinem Forschungsschwerpunkt aufweisen.

 

 

Kombination von Counterfactual Explanations und Saliency Maps

Counterfactual Explanations für Bild-Klassifikatoren sind Erklärungen für KI-Systeme, welche die Frage beantworten, wie Eingabedaten hätten aussehen müssen, wenn die KI eine Entscheidung getroffen hätte. Hierzu werden die Eingabedaten so verändert, dass sich die Entscheidung der KI ändert. Ein verbreitetes Problem von Counterfactuals ist, dass sich oft auch Merkmale der Daten verändern, die eigentlich keinen direkten Einfluss auf ein Klassifikationsergebnis haben. Eine Möglichkeit zur Adressierung dieses Problems ist es, bei der Erzeugung von Counterfactuals sogenannte "Saliency Maps" mit in die Erzeugung der Counterfactuals einzubeziehen. Saliency Maps können mit verschiedenen Standardverfahren (LRP, LIME, GradCAM) erzeugt werden, und geben an, wie wichtig bestimmte Pixel für eine Klassifikation sind. In dieser Arbeit soll ein GAN-basiertes System entwickelt werden, welches unter Berücksichtigung von Saliency Maps Counterfactuals erzeugt.

 

 

Explainable GANs

In dieser Arbeit sollen konventionelle Techniken aus dem Bereich der erklärbaren KI auf Generative Adversarial Nets (GANs) angewandt werden. GANs sind eine Form des Deep Learning, welche darauf abzielt, neue, künstliche und täuschend echte Daten wie z.B. Bilder oder Audio zu erzeugen.

 

 

Adversarial Domain Adaptation

Beim Training von Deep-Learning Modellen (Klassifikatoren etc.) braucht man eine große Menge Trainingsdaten. Eine Möglichkeit, viele Trainingsdaten zu verwenden ist, dass man mehrere kleinere Datensätze aggregiert. Wenn man dies macht, werden die trainierenden Modelle allerdings mit großer Wahrscheinlichkeit durch spezifische Eigenheiten der jeweiligen Datensätze beeinflusst. Z.B. könnte es sein, dass ein Datensatz unter stärkerer Beleuchtung aufgenommen wurde als ein anderer, und das Modell bezieht dann so eine eigentlich irrelevante Information mit in die Entscheidungen ein. Im Rahmen dieser Arbeit sollen GANs verwendet werden, um verschiedene Datensätze einander anzugleichen.

 

 

Audio Counterfactual Explanations

In dieser Arbeit soll ein System entwickelt werden, das auf Basis von Latent Vector Evolution (LVE) Erklärungen für KI-Systeme für die Audio-Domäne erzeugt. LVE ist ein auf evolutionären Algorithmen basierendes Verfahren, um GANs zu durchsuchen. Mithilfe dieser Algorithmen sollen Counterfactual Explanations generiert werden. Dies bedeutet, von einer KI bewertete Audiodaten sollen so verändert werden, dass sich die Bewertung der KI ändert. Dadurch wird dem Nutzer des Systems eine „alternative Realität“ gezeigt, die ein besseres Verständnis der KI bewirken soll.

 

 

Audio Phonem Mapping

Phoneme stellen die kleinsten sprachlichen Einheiten dar. In dieser Arbeit soll ein Konzept entwickelt und implementiert werden, dass Audioaufnahmen menschlicher Sprache in ein zeitliches Mapping von Phonemen überführt.

Publikationen

Silvan Mertes
2021 | 2020 | 2019

2021

Alice Baird, Silvan Mertes, Manuel Milling, Lukas Stappen, Thomas Wiest, Elisabeth André and Björn W. Schuller. 2021. A prototypical network approach for evaluating generated emotional speech. DOI: 10.21437/interspeech.2021-1123
PDF | BibTeX | RIS | DOI

Dominik Schiller, Silvan Mertes, Pol van Rijn and Elisabeth André. 2021. Analysis by synthesis: using an expressive TTS model as feature extractor for paralinguistic speech classification. DOI: 10.21437/interspeech.2021-1587
PDF | BibTeX | RIS | DOI

Silvan Mertes, Florian Lingenfelser, Thomas Kiderle, Michael Dietz, Lama Diab and Elisabeth André. 2021. Continuous emotions: exploring label interpolation in conditional generative adversarial networks for face generation. DOI: 10.5220/0010549401320139
PDF | BibTeX | RIS | DOI

Pol van Rijn, Silvan Mertes, Dominik Schiller, Peter M. C. Harrison, Pauline Larrouy-Maestri, Elisabeth André and Nori Jacoby. 2021. Exploring emotional prototypes in a high dimensional TTS latent space. DOI: 10.21437/interspeech.2021-1538
PDF | BibTeX | RIS | DOI

Silvan Mertes, Tobias Huber, Katharina Weitz, Alexander Heimerl and Elisabeth André. 2021. GANterfactual - Counterfactual Explanations for Medical Non-Experts using Generative Adversarial Learning.
PDF | BibTeX | RIS | URL

Silvan Mertes, Thomas Kiderle, Ruben Schlagowski, Florian Lingenfelser and Elisabeth André. in press. On the potential of modular voice conversion for virtual agents.
PDF | BibTeX | RIS | URL

Thomas Kiderle, Hannes Ritschel, Kathrin Janowski, Silvan Mertes, Florian Lingenfelser and Elisabeth André. in press. Socially-aware personality adaptation.
PDF | BibTeX | RIS | URL

Ruben Schlagowski, Silvan Mertes and Elisabeth André. 2021. Taming the chaos: exploring graphical input vector manipulation user interfaces for GANs in a musical context. DOI: 10.1145/3478384.3478411
PDF | BibTeX | RIS | DOI

2020

Silvan Mertes, Alice Baird, Dominik Schiller, Björn Schuller and Elisabeth André. 2020. An evolutionary-based generative approach for audio data augmentation. DOI: 10.1109/mmsp48831.2020.9287156
PDF | BibTeX | RIS | DOI

Silvan Mertes, Andreas Margraf, Christoph Kommer, Steffen Geinitz and Elisabeth André. 2020. Data augmentation for semantic segmentation in the context of carbon fiber defect detection using adversarial learning. DOI: 10.5220/0009823500590067
PDF | BibTeX | RIS | DOI

Dominik Schiller, Silvan Mertes and Elisabeth André. 2020. Embedded emotions - a data driven approach to learn transferable feature representations from raw speech input for emotion recognition.
PDF | BibTeX | RIS | URL

2019

Hannes Ritschel, Ilhan Aslan, Silvan Mertes, Andreas Seiderer and Elisabeth André. 2019. Personalized synthesis of intentional and emotional non-verbal sounds for social robots. DOI: 10.1109/ACII.2019.8925487
PDF | BibTeX | RIS | DOI

Suche