“Leider gibt es bisher relativ wenig gute Data Scientists”: Interview mit Prof. Göran Kauermann

Unternehmen in Deutschland suchen dringend nach Data Science Fachkräften. Die Ludwig-Maximilians-Universität hat nun den Masterstudiengang “Data Science” etabliert, um genau diese Fähigkeiten bei den Studierenden zu fördern. Wir haben mit LMU-Professor Göran Kauermann über den Studiengang und seine Besonderheiten gesprochen.

Prof. Dr. Göran Kauermann ist Professor am Lehrstuhl für Statistik und ihre Anwendungen in Wirtschafts- und Sozialwissenschaften der LMU. Er ist Sprecher des Elite-Studiengangs “Data Science”, der vom Elitenetzwerk Bayern gefördert wird. Neben der LMU als Trägeruniversität, sind auch die Technische Universität München, die Universität Augsburg und die Universität Mannheim am Studiengang beteiligt.

idalab: Wie kam es zu der Idee, einen Studiengang “Data Science” an der LMU ins Leben zu rufen?

Kauermann: Der Begriff Data Science ist grundsätzlich nicht konsolidiert und die Leute verstehen sehr unterschiedliche Dinge darunter. Das Feld der Datenanalyse wird von den Disziplinen Informatik und Statistik gleichzeitig getrieben. Deshalb fasse ich Data Science auch als eine Symbiose zwischen beiden Disziplinen auf. Und da hat die LMU den Vorteil, dass die Informatik und Statistik nicht nur an der gleichen Fakultät sind, sondern auch von der Größenordnung etwa gleich stark. Aus dieser engen Kommunikation entstand dann recht schnell die Idee, einen Data Science Studiengang aufzubauen, der zu 50% aus Statistik und zu 50% aus Informatik besteht. Diese Initiative wurde dann vorangetrieben und erfreulicherweise vom bayerischen Elitenetzwerk gefördert, sodass wir dann vor einigen Wochen den Elitestudiengang Data Science (Master) gestartet haben. Dieser Studiengang ist dabei international (und natürlich rein englischsprachig) und zielt auf die besten Studentinnen und Studenten weltweit ab.

idalab: Wie viele Studierende sind im ersten Jahr dabei?

Kauermann: Im ersten Batch haben wir elf Studierende, langfristig zielen wir ab auf 30. Das heißt, wir gehen nicht in Richtung hoher Studentenzahlen, um die existierende Nachfrage an Data Scientists zu bedienen. Uns ist natürlich bewusst, dass es diese Nachfrage gibt, aber wir wollen keinen Massenstudiengang aufbauen, sondern hohe Qualität garantieren, damit die Studierenden am Ende top ausgebildet sind.

idalab: Wie stellen Sie diese hohe Qualität sicher?

Kauermann: Wir achten bereits bei der Zulassung auf verschiedene Kriterien. So gibt es zum Beispiel die Voraussetzung, dass die Kandidaten im Bachelorstudium schon hinreichend Leistungspunkte im Bereich Informatik und Statistik erworben haben. Das ist insofern notwendig, als dass wir mit dem Master gleich auf einem hohen Niveau starten und wer da noch nie etwas von Zufallsvariablen gehört hat, ist dafür nicht geeignet. Mit den hohen Zugangshürden wollen wir die Besten herauspicken und so Data Scientists ausbilden, die nicht nur exzellent sind, sondern auch vom Ausbildungsprofil her genau das können, was wir unter Data Science verstehen: 50% Statistik und 50% Informatik.

idalab: Stellen Sie bereits Interdisziplinarität her?

Kauermann: Wir Dozenten sind keine ausgebildeten Data Scientists. Ich bin zum Beispiel Statistiker mit Herz und Seele. Für mich ist wichtig, dass die wahre Konsolidierung dieses Feldes erst mit der nächsten Generation einhergehen kann. Das ist vielleicht ähnlich wie mit der Informatik, die aus der Elektrotechnik entstand. Also werden wir wohl erst in circa zehn Jahren wissen, was Data Science wirklich ist. Meine Hoffnung ist hier, dass es nicht Informatiker mit Statistik Crash-Kursen und Statistiker mit Informatik Crash-Kursen sein werden, sondern genau die Leute, die sich sowohl mit Machine Learning als auch mit statistischen Konzepten bestens auskennen.

idalab: Die Herangehensweise der Disziplinen unterscheidet sich also weiterhin?

Kauermann: Ja, ich lege großen Wert auf diese Distinguierung, weil die Herangehensweise der beiden Felder Statistik und Informatik so unterschiedlich ist. Statistiker denken immer modellbasiert und bei Datenansicht ist der Gedankengang immer: “Wie sind die Daten entstanden, was ist das stochastische Modell dahinter?” Der Statistiker will die systematische von der stochastischen Komponente trennen. Ein Informatiker nimmt – stereotypisch gesprochen – immer einen algorithmischen Ansatz. Er hat Daten und möchte dort Erkenntnisse rausziehen, entwickelt also einen Algorithmus, der das Problem löst. Ein guter Data Scientist muss beide Perspektiven verstehen und wissen, welchen Ansatz die konkrete Daten-Problematik in der jeweiligen Situation verlangt. Und das können bisher leider relativ wenig Leute.

idalab: Das klingt sehr spannend und deckt sich mit unseren Erfahrungen. Welche Bereiche, die von anderen Personen als Data Science verstanden werden, deckt Ihr Studiengang explizit nicht ab?

Kauermann: Was wir explizit nicht machen ist beispielsweise Optimierung. Das würde das Format unseres Masterstudiengangs übersteigen. Irgendwo müssen wir Schwerpunkte setzen. Ebenfalls machen wir kein Big Computing. Was wir jedoch für wichtig halten, ist Daten-Ethik. Hierzu gehört auch das Feld der Mensch-Maschine-Interaktion. Das decken wir aus zwei Gründen ab: Zum einen gibt es gerade im Bereich Big Data den Fall, dass oft die (persönlichen) Daten erst durch die Nutzer geliefert werden. Das ist sehr wichtig zu vermitteln, weil Nutzer nicht unbedingt miteinander vergleichbar sind. Zum anderen ist es uns sehr wichtig den Studierenden auch technisch beizubringen, wie sich Datenschutz gewährleisten lässt.

idalab: Was ist aus Ihrer Sicht ursächlich dafür, dass das Thema Data Science aktuell eine so große Prominenz hat?

Kauermann: Einer der Gründe dafür ist sicherlich der Big Data Hype, der vor 5-6 Jahren begann. Auf diese Diskussion springen viele auf und erhoffen sich eine ganze Menge davon. Ich glaube, dass wir in 2-3 Jahren eine gewisse Desillusionierung haben. Wir werden feststellen, dass gewisse Dinge, die wir mit Data Science machen wollten, doch nicht gehen. Und das aus unterschiedlichen Gründen.

Nichtsdestotrotz wird es danach wieder bergauf gehen, denn Data Science bringt natürlich wirkliche Fortschritte – aktuell werden diese jedoch zu viel von Hoffnungen und Illusionen getrieben. Aus meiner Sicht ist Data Science etwas, was den wissenschaftlichen Fortschritt in der Diskussion widerspiegelt. Unternehmen haben mittlerweile immer mehr und immer größere, vernetzte Datensätze, die analysiert werden sollen. Und hier braucht es Leute, die vor den Daten keine Angst haben und mit der Situation umgehen können. Darum gibt es diese hohe Nachfrage aktuell und als Unternehmen muss man aufpassen, die richtigen Leute einzustellen.

idalab: Eines der großen Versprechen unter der Überschrift von Big Data, aber auch Data Science ist ja, dass ich aus großen Mengen an Daten zusammen mit algorithmischen Verfahren Zusammenhänge entdecken kann. Aber eigentlich können ja mit Statistik nur Korrelationen identifiziert werden.

Kauermann: Da sprechen Sie genau das an, was ich vor Kurzem in einem Vortrag diskutiert habe: Man kann – und das ist nicht neu – blind mit Data Mining nach Zusammenhängen suchen. Heute heißt es dann nicht mehr “neuronale Netze”, sondern “Deep Learning”. Aber das Grundproblem bleibt bestehen: In vielen Bereichen findet man tatsächlich nur Korrelationen und als Statistiker weiß man, dass das nicht unbedingt einen Kausalzusammenhang bedeutet. Da muss man dann stark hinterfragen, was man da eigentlich rausgelesen hat. Ist das nutzbar, oder nicht?

idalab: Welches Beispiel haben Sie hierzu?

Kauermann: Bei Preiskalkulationen von Produkten gibt es in vielen Bereichen riesige Datenmengen. Nimmt man diese Daten um die Preiselastizität zu schätzen, so läuft man Gefahr diese zu unterschätzen. Denn ein klassisches Regressionsmodell (oder eben ein neuronales Netz) geht davon aus, dass es eine exogene (von mir kontrollierte) und eine oder mehrere endogene (beeinflusste) Größen gibt. Nun ist es so, dass wann immer man Absatzdaten von Produkten hat, die zum Beispiel in einem Prozess protokolliert werden, so können wechselseitige Beziehungen vorliegen. So wird der Preis oft kurzfristig anhand der Nachfrage gesteuert, zum Beispiel bei niedriger Nachfrage gesenkt. Darauf reagieren die Kunden dann relativ kurzfristig, kaufen, und darauf steigt der Preis wieder. Daraufhin sinkt wieder die Nachfrage. Wenn ich diese Daten einfach so benutze, um für einen fixen Preis die Nachfrage zu bestimmen, geht das schief. Hier kann man eine ganze Menge Geld verlieren, wenn man die Daten ohne Nachdenken analysiert. Die Statistik (genau genommen die Ökonometrie) hat für diese Problemstellung Modelle und Methoden entwickelt, die man benutzen sollte, um aus den Absatzdaten nutzbare Information zu ziehen.

idalab: Was bedeutet das für die Praxis?

Kauermann: Ich warne davor, einfach einen Algorithmus auf vorhanden Daten zu schmeißen und das Ergebnis zu nutzen, weil schon irgendwas rauskommt. Das kann man natürlich für einen ersten Überblick machen, aber irgendwann kommt man immer an den Punkt, eine Frage formulieren zu müssen. Was will man eigentlich wissen? Und erst wenn die Frage formuliert ist, kann ich sich damit beschäftigen, was die richtigen Daten sind, um diese Frage zu beantworten. Und habe ich diese Daten überhaupt, und wenn nicht, woher könnte ich sie bekommen? Oder auch: Wie können vorhandene Daten so genutzt werden, dass man damit die Frage beantworten kann? Dies sind keine Probleme, die algorithmisch sind, sondern Fragen nach der kausalen Struktur in Daten. Da ist es sehr hilfreich, Statistik-Kompetenz zu haben, weil man viele Fallstricke vermeidet und die richtigen Verfahren anwendet. Die Verfahren können am Ende dabei wieder algorithmisch sein, insofern reichen sich Informatik und Statistik erneut die Hand.

idalab: Abschließend vielleicht noch zwei kurze Fragen. Was halten Sie vom Thema Künstliche Intelligenz?

Kauermann: Das ist ein klassisches Themenfeld aus der Informatik, wo sicher große Fortschritte gemacht wurden, aber ich als Statistiker wenig inhaltlich beisteuern kann.

idalab: Aber glauben Sie denn, dass es so etwas gibt?

Kauermann: Ich glaube, dass es Algorithmen gibt, die in diese Richtung gehen. Aber das ist eher eine philosophische Frage. Auch wenn das menschliche Gehirn in irgendeiner Form mal nachbaubar sein wird, was ich persönlich nicht für möglich halte. Zumindest nicht in den nächsten Jahren. Was ich schon glaube ist, dass verschiedene Dinge, die auch im menschlichen Gehirn nach klar definierten Algorithmen ablaufen, durch KI wiedergegeben werden können, beispielsweise Worterkennung. Sobald es aber um kontextuelles und strategisches Denken geht, bin ich skeptisch.

idalab: Wenn Sie auf eine Insel nur einen Algorithmus mitnehmen dürften, welcher wäre das?

Kauermann: Das wären im Zweifelsfall Regressionsanalysen, also den gesamten Topf von generalisierter Regression. Eine Ausgangsgröße Y, die irgendwie von einer Eingangsgröße X abhängt.

idalab: Prof. Dr. Kauermann, vielen Dank für das Gespräch.

gk

Prof. Dr. Göran Kauermann, Lehrstuhl für Statistik und ihre Anwendungen in Wirtschafts- und Sozialwissenschaften

Contact the author
Niels Reinhard
+49 (30) 814 513-13
Subscribe
Share

Leave a Comment

Your email address will not be published. Required fields are marked *