You are currently viewing Data Science ist Handwerk

Data Science ist Handwerk

Ein Data Scientist wirkt manchmal wie ein Magier. Aus einem schier unendlichen Strom von Zahlen und Daten entstehen Erkenntnisse in Form von bunten Grafiken und interaktiven Apps. Für einen Außenstehenden wirkt das erst einmal unglaublich. Ein Genie am Werk.

Blickt man aber genauer hin, erkennt man, dass Data Science, wie jede andere anspruchsvolle Tätigkeit auch, im Prinzip eine Aneinanderreihung einzelner Basis-Fähigkeiten ist. Im Prinzip verfügt ein Data Scientist – wie ein Handwerker – über einen großen Werkzeugkasten. Die Werkzeuge darin heißen allerdings nicht Hammer und Schraubschlüssel, sondern NoSQL-Datenbank, Azure Pipeline, Boosted Tree Classifier, ggplot2 und vieles mehr.

Für jede einzelne dieser Fähigkeiten gibt es inzwischen High-Level-Frameworks, wodurch die Nutzung dieser Werkzeuge auch ohne ein sehr tiefes Verständnis möglich ist. So gibt es zum Beispiel für jeden einfachen Machine Learning Algorithmus leicht nutzbare Bibliotheken und sogar grafische Benutzeroberflächen, wodurch eine Nutzung dieser Modelle inzwischen möglich ist, ohne eine Zeile Code zu schreiben. Dies ist Chance und Risiko zugleich, denn zweifelsohne kann ein Algorithmus zielgerichteter eingesetzt werden, wenn die mathematischen Konzepte dahinter vom Anwender tiefgehend verstanden werden.

Diese Frameworks sind Chance und Risiko zugleich. Chance, weil ein einzelner Data Scientist ein Vielzahl von Technologien kombinieren kann, ohne in jeder Disziplin ein Experte zu sein. Für ein erfolgreiches Analyse-Projekt ist diese Kombination oft auch der Schlüssel zum Erfolg. So kann eine Person gewaltige Datenmengen auf einem Hadoop Cluster verarbeiten, diese durch ein tiefes neuronales Netz auf einem GPU-Cluster in der Cloud klassifizieren und die Ergebnisse in einer professionellen Web-Applikation seinen Kunden zur Verfügung stellen. Solch eine Aufgabe wurde früher auf mehrere Schultern verteilt, mit den üblichen Reibungsverlusten durch Abstimmungen und Wartezeiten.

Das Ganze ist zugleich auch ein Risiko, denn zweifelsohne

  • kann eine Datenbank performanter und effizienter gestaltet werden, wenn man die verschiedenen Mechanismen und Kniffe der einzelnen Datenbank-Technologie sehr gut kennt;
  • kann ein Algorithmus zielgerichteter eingesetzt werden, wenn die mathematischen Konzepte dahinter vom Anwender tiefgehend verstanden werden;
  • kann eine Web-Applikation Nutzer-freundlicher aufgebaut werden, wenn man sich mit den psychologischen Tiefen von Mensch-Maschinen-Schnittstellen auskennt.

So gibt es nicht nur den einen Typ Data Scientist, sondern vielerlei Ausprägungen und Schwerpunkte. Im Handwerk beherrscht ein Elektriker auch andere Tätigkeiten und Werkzeuge wie ein Zimmermann. Das Erfolgskonzept in Data Science ist das gleiche wie im Handwerk: Es ist gut in der Breite viele Konzepte zumindest oberflächlich zu verstehen (Generalismus), aber gerade die Tiefe in einem Spezialgebiet lässt einen herausragen.

Schreibe einen Kommentar