Hochschule Karlsruhe Hochschule Karlsruhe - University of Applied Sciences
Hochschule Karlsruhe Hochschule Karlsruhe - University of Applied Sciences
Projekt SAM_KI

SAM

BMBF-Projekt: Sprachsegmentierung und ihre Anwendungen in Meetings (SAM)

Ausgangslage

Die automatisierte Verarbeitung gesprochener Sprache ist ein grundlegender Bestandteil vieler Anwendungen, die Einzug in unseren Alltag gefunden haben. Dies umfasst Dialogsysteme im telefonischen Kundenservice ebenso wie digitale sprachbasierte Assistenzsysteme, die in Form von Apples Siri, Microsofts Cortana oder Amazons Alexa unsere Alltagsaufgaben erleichtern wollen. Obgleich sich die automatisierte Sprachverarbeitung in diesen Systemen bewährt hat, gibt es Anwendungsbereiche in denen die Verarbeitung und Erkennung gesprochener Sprache weiterhin eine große Herausforderung darstellt. Ein solcher Bereich, der neben der technischen Herausforderung ein hohes Nutzerpotential birgt, ist die automatisierte Sprachverarbeitung in virtuellen Meetings.

Videokonferenzen und virtuelle Meetings sind die Kommunikationsformen vieler Business Teams, die verteilt in Zweigstellen über mehrere Städte und Länder gemeinsam Projekte umsetzen. Die Sprachverarbeitung in Besprechungsräumen mit mehreren Teilnehmern ist erschwert, da häufig mehrere Teilnehmende durcheinandersprechen, eine Überlappung bei schnellen Sprecherwechseln stattfindet und zumeist nur ein Mikrofon im Raum platziert ist.

Der Einsatz von automatisierter Sprachverarbeitung in Kombination mit neuen, kostengünstigen Lösungen zur Mikrofonierung der Besprechungsräume für Mehrkanalaufnahmen birgt hier ein immenses Potential, um virtuelle Meetings für alle Teilnehmer angenehmer und effizienter zu gestalten. Neben einer Verbesserung der Qualität des Audiosignals in virtuellen Meetings betrifft dies insbesondere Möglichkeiten der automatischen Sprecheridentifikation sowie der Smart Meeting Guidance, die den Teilnehmenden automatisiert in Echtzeit Rückmeldung geben kann – etwa über eine schlechte Audioqualität.

Ziele

Das Projekt SAM hat es sich zum Ziel gesetzt, Verfahren und Anwendungen zu entwickeln, die die Kommunikation in virtuellen Meetings sowie deren organisatorischen Ablauf verbessern, um die Effizienz der Meetings zu steigern. Dies umfasst die Entwicklung kostengünstiger Verfahren zur Verbesserung des Audiosignals in Besprechungsräumen ebenso wie neue Lösungsansätze zur Segmentierung des Audiosignals. Diese Segmentierung dient der Zuordnung des Audiosignals zu den entsprechenden Sprechern, um eindeutig identifizieren zu können, wer wann, wo und wie lange gesprochen hat. Eine akkurate Sprecherzuordnung ist grundlegend für alle weiteren Schritte der Sprachverarbeitung, wie zum Beispiel Feedback an die Meeting Teilnehmer über ihre Sprecherbeteiligung in Form von Smart Meeting Guidance. Da die aufgeführten Ziele auf Basis einer Einkanalaufnahme, wie sie oftmals in Besprechungsräumen vorliegt, nur sehr schwer bis kaum umsetzbar sind, wird angestrebt, Mehrkanalaufnahmen durch die Zusammenschaltung von Mikrophonen der Smartphones von Teilnehmern zu ermöglichen.

Methoden

In diesem Projekt werden neue Verfahren zur Verbesserung der Audiosignalqualität und Segmentierung der Audiosignale zur Sprecherzuordnung entwickelt. Die Lösungsansätze kombinieren Methoden der Signalverarbeitung zur Hervorhebung bestimmter Eigenschaften des Audiosignals mit neuen Entwicklungen im Bereich des Deep Learnings zur Segmentierung und Sprecherzuordnung. Ergänzend zu diesen Verfahren wird eine App entwickelt, die es ermöglicht, über die Zusammenschaltung der Mikrophone mehrerer Smartphones eine Mehrkanalaufnahme auf Basis eines Ad-Hoc Microphone Arrays umzusetzen.

Stand

Laufendes Projekt 11/2019 — 10/2022

Dieses Projekt wird gefördert von

Das Projekt „Sprachsegmentierung und ihre Anwendungen in Meetings (SAM)“ ist finanziert durch das Bundesministerium für Bildung und Forschung (BMBF) über das Programm „Forschung an Fachhochschulen mit Unternehmen (FHprofUnt 2018)“ mit einer Laufzeit bis Oktober 2022.

Kontakt

Projektleitung
Prof. Dr. Ingo Stengel

Tel.: +49 (0)721 925-2968
ingo.stengelspam prevention@h-ka.de

alle Kontakte

Kontakt

Projektleitung
Prof. Dr.-Ing. Matthias Wölfel

Tel.: +49 (0)721 925-1491
matthias.woelfelspam prevention@h-ka.de

alle Kontakte