Article

Vergleich von PCA- und Autoencoder-basierter Dimensionsreduktion von Merkmalssequenzen für die effiziente Musiksuche

* Presenting author
Day / Time: 22.03.2018, 15:00-15:20
Room: MW 2050
Typ: Vortrag (strukturierte Sitzung)
Abstract: Die Problemstellung des Audiomatching verfolgt das Ziel, anhand eines kurzen Ausschnitts einer Musikaufnahme alle relevanten Dokumente in einer Musikdatenbank zu finden. So sollen zum Beispiel bei einer Anfrage eines 10- bis 30-sekündigen Ausschnitts einer Audioaufnahme klassischer Musik alle musikalisch entsprechenden Passagen in allen verfügbaren Einspielungen gefunden werden. Aktuelle Verfahren zum Audiomatching basieren auf 12-dimensionalen Chromamerkmalen, welche lokale Energieverteilungen eines Musiksignals bezüglich der 12 chromatischen Tonhöhenklassen (C, Cis, ..., H) erfassen. Eine solche Merkmalssequenz korreliert stark mit dem Harmonieverlauf des zugrunde liegenden Musikstücks und zeigt eine hohe Robustheit gegenüber Variabilitäten in Klangfarbe und Dynamik. In diesem Beitrag verwenden wir als Grundbausteine zum Datenabgleich kurze Sequenzen von Chromavektoren, die wir auch als Shingles bezeichen. Hierbei haben frühere Studien gezeigt, dass Shingles der Länge 20 mit einer Merkmalsauflösung von 1 Hz zu musikalisch sinnvollen Treffern führen. Bei großen Datenbanken ist allerdings der Abgleich von 240-dimensionalen Shingles, gerade auch in Hinblick auf Indexierungstechniken, problematisch. Eine Dimensionsreduktion der Shingles ohne Verlust ihrer semantischen Ausdruckskraft ist daher ein wichtiger Schritt. In dieser Studie vergleichen wir zwei unterschiedliche Strategien der Dimensionsreduktion, basierend auf PCA einerseits und auf Autoencodern andererseits. Dabei untersuchen wir, wie stark die Retrievalqualität von den jeweiligen Strategien und den von der erzielten Dimensionalität abhängt.