Künstliche-Intelligenz könnte Hörgeschädigten helfen, Stimmen zu entwirren

  • Science Advances

  • von Michael Simm
  • Studien – kurz & knapp
Der Zugang zum gesamten Inhalt dieser Seite ist nur Angehörigen medizinischer Fachkreise vorbehalten. Der Zugang zum gesamten Inhalt dieser Seite ist nur Angehörigen medizinischer Fachkreise vorbehalten.

Kernbotschaften

Ein experimentelles System aus einer Hirn-Computer-Schnittstelle und einem Algorithmus auf Basis Künstlicher-Intelligenz-Software war in der Lage, anhand von Signalen aus dem auditorischen Kortex zu erkennen, auf welche von mehreren Stimmen Probanden ihre Aufmerksamkeit richteten. Diese Informationen wurden dann genutzt, um selektiv die gewünschte Stimme zu verstärken und verständlich zu machen.

Hintergrund

Einzelne Stimmen in einer Menschenmenge wahrzunehmen ist für Hörgeschädigte eine Herausforderung. Das Problem, welches hier angegangen wurde, besteht darin, dass Hörgeräte keine Informationen darüber haben, auf welchen Sprecher sich ein Hörgeschädigter zu konzentrieren versucht. Sie können die störenden Stimmen daher nicht herausfiltern.

Design

Entwicklung eines Sprachtrennungssystems, das automatisch verschiedene Sprecher in einer Menschenmenge unterscheidet und deren Spektrogramme mit Signalen des auditorischen Cortex des Zuhörers vergleicht. Das System reagiert dann derart, dass jene Stimme, auf die sich der Zuhörer konzentriert, hervorgehoben wird. Erprobt wurde es mit implantierten Elektroden bei 3 Patienten mit einer Epilepsie und normalem Hörvermögen, die sich ohnehin einem Eingriff unterziehen mussten.

Ergebnisse

  • Die Autoren haben Sprachverarbeitungstechnologie mit einer Hirn-Computer-Schnittstelle kombiniert, und einen Algorithmus entwickelt, der zunächst die Stimmen in einer Menschenmenge auftrennt (im Versuch waren es 4 Stimmen gleichzeitig).
  • Der auditorische Fingerabdruck (Spektrogramm) dieser Stimmen wird dann verglichen mit einem Spektrogramm, das anhand der neuralen Reaktionen des auditorischen Cortex rekonstruiert wurde. Amplifiziert wird dann jene Stimme aus der Menschenmenge, auf die der Zuhörer am stärksten reagiert hat.
  • Das System basiert auf einer Variante der Künstlichen Intelligenz, dem Deep Learning. Es funktioniert auch in realen Situationen, ohne dass man es vorher auf die spezifischen Stimmen der unterschiedlichen Sprecher trainieren müsste.
  • Ein Nachteil ist, dass die Messung am auditorischen Cortex invasiv erfolgte. Jedoch erklären die Autoren, dass nichtinvasive Messungen der Hirnwellen durch den Schädel bzw. hinter dem Ohr ebenfalls möglich seien.

Klinische Bedeutung

Es handelt sich um eine Machbarkeitsstudie, die noch keine unmittelbare Relevanz für die Versorgung hörgeschädigter Menschen hat. Sie demonstriert allerdings das Potenzial von Computerprorammen auf Basis Künstlicher-Intelligenz-Algorithmen, neurologisch bedingte Einschränkungen und Behinderungen zu lindern.

Finanzierung: National Institutes of Health, National Institute of Mental Health, and the Pew Charitable Trusts.

Referenzen

Han C et al.: Speaker-independent auditory attention decoding without access to clean speech sources. Sci Adv. 2019 May 15;5(5):eaav6134. doi: 10.1126/sciadv.aav6134.