Was hängt von was ab? Wenn es eine Abhängigkeit gibt, wie stark ist diese? Lässt sich ein Zusammenhang einfach und interpretierbar beschreiben? All das sind klassische und grundlegende Fragen, die man sich in der Statistik stellt, bevor es zur Modellbildung geht, wo man dann versucht, Zusammenhänge möglichst einfach, dennoch hinreichend gut abzubilden, sodass einerseits die zugrunde liegenden Daten durch das Modell gut beschrieben werden und andererseits das Modell auch auf neuen Datensätzen eine gute Performance liefert.
Eine wichtige Methode, um die einflussreichsten Faktoren auf eine Zielgröße zu bestimmen, ist die sogenannte Feature Selection – also die Merkmalselektion. Dabei werden anhand der zugrundeliegenden Daten möglichst wenige, aber wichtige Inputvariablen bestimmt, die die Zielgröße angemessen gut beschreiben. Sehr komplexe Zusammenhänge sollen also auf die wesentlichen Einflussfaktoren heruntergebrochen werden.
Beispielsweise möchte man die Lebenserwartung einer Person anhand einer Reihe von Inputvariablen bestimmen, wie das aktuelle Alter, gesundheitsfördernde Faktoren sowie Risikofakoren. Es können also diverse Inputvariablen eingehen, wie die Stunden sportlicher Betätigungen pro Woche, die durchschnittliche Schlafdauer, der Beruf, die Arbeitszeiten als möglicher Indikator für Stress, die Ernährung, die individuelle Krankheitsgeschichte, Drogenkonsum, Größe, Gewicht, BMI (Body-Mass-Index) und vieles mehr. Nun möchte man bei der Feature Selection die wichtigsten Größen ausfindig machen, die die Lebenswartung einer Person bestimmen.
Wie man sich denken kann, sollte das aktuelle Alter eine wichtige Einflussgröße auf die zu erwartende noch verbleibende Lebenszeit sein, denn ein Kind wird vermutlich noch viele Jahre länger leben als eine Person, die bereits im Rentenalter ist. Intuitiv sollte die Lebenserwartung eher nicht von der Körpergröße abhängen, sehr wohl aber vom Gewicht. Da das Gewicht wiederum in Relation zur Körpergröße zu sehen ist, müssten daher sowohl Größe und Gewicht wesentliche Einflussfaktoren sein. In der Regel stellt jedoch der BMI ein sinnvolles Maß für ein angemessenes Verhältnis zwischen Größe und Gewicht dar. Entsprechend könnte die Feature Selection nur den BMI also Einflussgröße wählen, sodass das zu konstruierende Modell nur vom BMI statt von den beiden Variablen Größe und Gewicht abhängt. Entsprechend reduziert sich die Dimension des Modells um eine Variable, sodass das Modell weniger komplex ist. Dieses Beispiel zeigt sehr anschaulich den Grundgedanken der Feature Selection, nämlich eine Dimensionsreduktion durchzuführen, indem möglichst wenige, aber einflussreiche Faktoren bestimmt werden.
In der Statistik gibt es je nach Datenlage und Datentyp verschiedene Methoden der Feature Selection, die alle auf diversen Annahmen beruhen. Eine neue und sehr vielversprechende Methode, die fast ohne Annahmen auskommt, ist FOCI, eine Feature Selection, die im Jahr 2019 entwickelt wurde. Über eine mathematisch anspruchsvolle Methode konnte ein Schätzer entwickelt werden, anhand dessen eine Feature Selection durchgeführt werden kann, welche im Falle einer einzigen Zielgröße die wesentlichen Einflussfaktoren findet.
In einer gemeinsamen Arbeit mit meinem Kollegen Sebastian Fuchs konnte kürzlich eine wichtige und zugleich einfache Verallgemeinerung dieser Feature Selection auf höherdimensionale Outputvariablen gefunden werden. Nun ist es unter sehr allgemeinen Voraussetzungen möglich, eine Feature Selection für mehrere Zielgrößen durchzuführen. Beispielsweise kann man nun die wesentlichen Einflussfaktoren bestimmen, die zu Diabetes Typ 2, Herz-Kreislauf-Erkrankungen oder Krebs führen, wobei es unter den Zielgrößen beliebige Abhängigkeiten geben darf. Verschiedene Tests haben gezeigt, dass unsere Verallgemeinerung sehr vielversprechende Ergebnisse liefert. Wir sind gespannt, ob sich unsere Methode etabliert.
Nicht nur im medizinischen und wissenschaftlichen Bereich gibt es Anwendungen für Feature Selections. Vor allem in Industrie und Wirtschaft ist sie von großer Bedeutung, wie die folgenden Beispiele illustrieren.
Welche wirtschaftlichen und saisonalen Faktoren haben Einfluss auf den Absatz der Milch- und Joghurt-Produkte einer großen Molkerei? Kennt man diese Faktoren, können Bestellungen und Lieferungen sowie Produktpreise besser modelliert werden, damit es weniger Engpässe oder Verschwendung von Lebensmitteln gibt und letztlich besser gewirtschaftet wird.
Eine hohe Betonqualität ist wichtig für bauliche und optische Eigenschaften von Gebäuden, Fundamenten, Decken, Böden, Pfeilern, tragenden Wänden und vielem mehr. Da die Herstellung von Beton sehr energieintensiv ist, soll anhand von Messungen frühzeitig erkannt werden, ob eine Mindestbetonqualität im Herstellungsprozess eingehalten werden kann. Über eine Feature Selection können die Hauptursachen für mangelnde Qualität festgestellt werden und der Herstellungsprozess frühzeitig gestoppt werden. Damit können große Mengen Energie und Kosten eingespart werden.
Ein großes Eisenbahnunternehmen ist daran interessiert, seine Abo-Kund*innen langfristig zu binden. Anhand von Daten aus Suchanfragen, gebuchten Tickets, Tarifen, Reklamationen und Umfragen sowie aus persönlichen Daten, wie Wohnort, Anbindung zum ÖPNV, Alter, Geschlecht, Beruf, Kreditinstitut etc. soll herausgefunden werden, ob die Stammkund*innen dem regelmäßigen Bahnfahren treu bleiben. Abwanderungswillige Kunden sollen durch spezielle Angebote und Werbung gezielt angesprochen werden. Über eine Feature Selection können die entscheidenden Merkmale für eine Kündigung des Abonnements und damit für eine Reduzierung der Bahnfahrten bestimmt werden.
Die Liste von Beispielen lässt sich endlos fortsetzen. Wie wir gesehen haben, ist eine Feature Selection ein wesentliches Element einer statistischen Analyse. Auf die mathematischen Details bin ich nicht näher eingegangen. Diese Details spielen bei der Implementierung jedoch eine wichtige Rolle, denn wie bei allen Anwendungen ist entscheidend, wie weit die Praxis von der Theorie abweicht.
