PodcastsTechnologieData Science Deep Dive

Data Science Deep Dive

INWT Statistics GmbH
Data Science Deep Dive
Neueste Episode

92 Episoden

  • Data Science Deep Dive

    #90: Demand Forecasting bei Krombacher – Mit Dr. Max Schüssler

    26.03.2026 | 45 Min.
    In dieser Episode sprechen wir mit Max, Team Lead Data Science bei der Krombacher Brauerei, über Demand Forecasting in der Konsumgüterindustrie. Gemeinsam beleuchten wir, wie Krombacher die tägliche Nachfrageprognose für Bier und weitere Produkte modelliert, von Vorbestellungen über Feature Engineering bis hin zu Gauß-Prozess-Modellen. Außerdem geht es um Modellgüte, den Umgang mit Corona-Effekten, Unsicherheitsintervalle und die Bedeutung von Domänenwissen. Ein weiterer Schwerpunkt liegt auf der Infrastruktur: vom Custom-Stack auf AWS hin zu einer skalierbaren Databricks-Plattform.

    **Zusammenfassung**

    Ziel: Kurzfristige Prognose der täglichen Auslieferungsmenge (Hektoliter) für die nächsten Werktage

    Starker Einfluss von Vorbestellungen, ergänzt durch Features wie Arbeitsstunden-Abstand, Wochentag und Öffnungszeiten

    Einsatz von Gauß-Prozess-Modellen für nichtlineare Zusammenhänge und perspektivisch Unsicherheitsintervalle

    Sliding Window mit 365 Tagen Trainingsdaten und täglichem Retraining

    Benchmark: < 10 % MAPE erreicht für bis zu fünf Werktage im Voraus

    Corona-Effekte über Dummy-Variablen berücksichtigt, besonders relevant für Gastronomie-Fässer

    Wechsel von AWS Custom Stack (SageMaker, MLflow, API) zu Databricks zur besseren Skalierbarkeit und Wartbarkeit

    Zentrale Learnings: Domänenwissen > Modellkomplexität, Use Case klar definieren, Datenqualität als Fundament

    **Links**

    Krombacher Brauerei https://www.krombacher.de/

    Dr. Max Schüssler auf LinkedIn https://www.linkedin.com/in/dr-max-schuessler/

    databricks https://www.databricks.com/

    #88: Anomalie-Erkennung im Loyalty-Programm bei Krombacher – Mit Fabian Wörenkämper https://www.podbean.com/ew/pb-apyrq-1a577b8

    #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack https://www.podbean.com/ew/pb-pep8h-147029f

    ML Tutorial: Gaussian Processes (Richard Turner) auf YouTube https://www.youtube.com/watch?v=92-98SYOdlY

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: [email protected]
  • Data Science Deep Dive

    #89: ROC around the clock – Alles rund um Gütemaße für Klassifikationsmodelle

    12.03.2026 | 36 Min.
    In dieser Episode des Data Science Deep Dive sprechen Mira und Amit über Modellgütemaße für binäre und kategoriale Zielvariablen. Sie erklären zentrale Kennzahlen wie Accuracy, Precision, Recall, F1-Score, AUC und Log Loss und zeigen, welche Vor- und Nachteile diese im praktischen Einsatz haben. Dabei geht es auch um typische Herausforderungen, etwa bei unbalancierten Daten oder der Wahl des richtigen Schwellenwerts. Anhand von Beispielen aus Betrugserkennung, Medizin und Spam-Filtering wird deutlich, warum die Wahl des passenden Gütemaßes immer vom konkreten Use Case abhängt. Ergänzend geben sie Tipps zur Interpretation von Modellergebnissen und zur Auswahl eines geeigneten Hauptgütemaßes.

    **Zusammenfassung**

    Überblick über Modellgütemaße für binäre und kategoriale Klassifikationsprobleme

    Einordnung: Klassifikation basiert meist auf Scores bzw. Wahrscheinlichkeiten und einem gewählten Schwellenwert

    Konfusionsmatrix als Grundlage zur Berechnung vieler Klassifikationsmetriken (TP, TN, FP, FN)

    Accuracy als einfache Kennzahl – jedoch problematisch bei stark unbalancierten Datensätzen

    Precision, Recall und Spezifität zur Bewertung verschiedener Fehlertypen und deren Kosten

    F1-Score als harmonisches Mittel von Precision und Recall, häufiges Hauptmaß bei unbalancierten Daten

    AUC als schwellenwertunabhängige Bewertung der Trennfähigkeit eines Modells

    Log Loss zur Bewertung der vorhergesagten Wahrscheinlichkeiten und als häufige Loss-Funktion beim Modelltraining

    Praktische Tipps: Wahl des Thresholds, Nutzung von Benchmarks, Analyse von Subgruppen und ggf. Rekalibrierung von Wahrscheinlichkeiten

    **Links**

    #83: Wie gut ist gut genug? Modellgütemaße richtig verstehen https://www.podbean.com/ew/pb-8q2a8-19a0252

    Wikipedia – Confusion Matrix: https://en.wikipedia.org/wiki/Confusion_matrix

    Wikipedia – Precision und Recall: https://en.wikipedia.org/wiki/Precision_and_recall

    Wikipedia – Receiver Operating Characteristic (ROC) / AUC: https://en.wikipedia.org/wiki/Receiver_operating_characteristic

    Wikipedia – Cross Entropy / Log Loss: https://en.wikipedia.org/wiki/Cross_entropy

    Scikit-learn Guide zu Klassifikationsmetriken: https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: [email protected]
  • Data Science Deep Dive

    #88: Anomalie-Erkennung im Loyalty-Programm bei Krombacher – Mit Fabian Wörenkämper

    26.02.2026 | 50 Min.
    In dieser Episode des Data Science Deep Dive spricht Mira mit Fabian Wörenkämper, Data Scientist bei der Krombacher Brauerei, über Anomalie-Erkennung im Loyalty-Programm. Im Fokus steht die Frage, wie auffällige Punkteaktivitäten erkannt werden, ohne ehrliche Power User zu benachteiligen. Fabian erklärt, wie ein Trust Score mithilfe eines Isolation Forests berechnet wird und welche Rolle Feature Engineering und Fachbereichsfeedback dabei spielen. Außerdem geht es um die technische Umsetzung auf Databricks und die tägliche Aktualisierung der Scores. Zum Abschluss gibt Fabian einen Ausblick auf zukünftige Entwicklungen, etwa GenAI-Projekte und die Verbindung von Trust Score und Customer Value.

    **Zusammenfassung**

    Loyalty-Programm: Kund*innen laden Kassenbons hoch und sammeln Punkte für Krombacher-Produkte

    Auffälligkeiten reichen von ungewöhnlich vielen Belegen bis hin zu manipulierten Bons

    Ziel ist es, Betrug zu erkennen, ohne wertvolle Kund*innen zu vergraulen

    Trust Score dient als kontinuierliches Maß für Auffälligkeit statt einer binären Entscheidung

    Modellbasis: Isolation Forest, ergänzt durch erklärbare Feature-Indikatoren

    Enge Zusammenarbeit mit Customer Care und Fachabteilung ist entscheidend für sinnvolle Features

    Infrastruktur wurde von einem Custom AWS-Stack zu Databricks migriert, tägliche Neuberechnung reicht aus

    **Links**

    Guinness und die Statistik von Karolin Breitschädel auf detektor.fm https://detektor.fm/wissen/geschichten-aus-der-mathematik-statistik-aus-der-brauerei

    Krombacher Loyalty-Programm: https://plus.krombacher.de/

    Isolation Forest (Anomaly Detection): https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html

    Databricks Plattform: https://www.databricks.com/

    Streamlit (interaktive Modell-Iteration): https://streamlit.io/

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: [email protected]
  • Data Science Deep Dive

    #87: [PAIQ3] Predictive AI Quarterly

    12.02.2026 | 32 Min.
    Im aktuellen Predictive AI Quarterly sprechen wir über zentrale Entwicklungen im Bereich Predictive AI und teilen Erfahrungen aus einem konkreten LLM-Projekt. Thema sind unter anderem TabPFN 2.5, neue Ansätze für Explainability sowie der wachsende Einfluss von AI-Agents auf Softwareentwicklung. Im Praxisteil berichten wir über ein mehrsprachiges Textanalyse-Projekt für den gemeinnützigen Verein Monda Futura. Dabei geht es um die strukturierte Auswertung von rund 850 Zukunftsvisionen mithilfe von LLMs. Abschließend diskutieren wir Learnings zu Modellwahl, Kosten und dem sinnvollen Zusammenspiel von Mensch und KI.

    **Zusammenfassung**

    TabPFN 2.5: Skalierung, Distillation für produktive Nutzung und höhere Inferenzgeschwindigkeit

    ExplainerPFN als Alternative zu SHAP für Feature Importance ohne Zugriff auf das Originalmodell

    Trend zu AI-Agents, die große Teile der Softwareentwicklung übernehmen

    Use Case Monda Futura: Analyse von 850 mehrsprachigen Zukunftsvisionen (DE/FR/IT)

    Pipeline: Fragmentierung, Themenextraktion, Klassifikation und Szenarienerstellung

    Effektiver Einsatz von GPT-5-Mini vs. GPT-5.2-Pro je nach Aufgabentyp

    Zentrales Learning: Beste Ergebnisse durch Human-in-the-Loop statt Vollautomatisierung

    **Links**

    Prior Labs TabPFN-2.5 Model Report https://priorlabs.ai/technical-reports/tabpfn-2-5-model-report

    ExplainerPFN Forschungs-Paper (zero-shot Feature Importance) https://arxiv.org/abs/2601.23068

    OpenCode – Open Source AI Coding Agent https://opencode.ai/

    Monda Futura https://mondafutura.org/

    OpenAI API & GPT-Modelle Überblick https://platform.openai.com/docs/models

    OpenAI Structured Output Guide https://platform.openai.com/docs/guides/structured-outputs

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: [email protected]
  • Data Science Deep Dive

    #86: "Garbage In, Garbage Out" verhindern: Datenvalidierung richtig gemacht

    29.01.2026 | 39 Min.
    In dieser Episode dreht sich alles um Datenvalidierung und darum, wie sich das Prinzip "Garbage In, Garbage Out" vermeiden lässt. Mira und Michelle erklären, warum eine gründliche Prüfung der Datenqualität direkt zu Projektbeginn entscheidend ist. Im Fokus stehen typische Checks wie Schema-Validierung, Vollständigkeit, Konsistenz und statistische Auffälligkeiten. Außerdem geht es darum, wie Datenvalidierung hilft, Daten besser zu verstehen und Fehler frühzeitig aufzudecken. Abschließend werden praktische Techniken und Tools vorgestellt, die von manueller Analyse bis zur automatisierten Pipeline reichen.

    **Zusammenfassung**

    Datenvalidierung prüft die Datenqualität vor der Modellierung

    Ziel: Probleme früh erkennen und Ressourcen sparen

    Wichtige Aspekte: Datentypen, Duplikate, fehlende Werte

    Logik- und Plausibilitätschecks (z.B. Alter nicht negativ, Prozentwerte im richtigen Bereich)

    Statistische Methoden zur Erkennung von Anomalien und Verteilungen

    Univariat: einfache Kennzahlen, Histogramme, Boxplots, Zeitreihenanalysen

    Multivariat: Korrelationen, Scatterplots, Kreuztabellen, Multikollinearität

    Tools reichen von Notebooks und Reports bis zu Dashboards und automatisierten Pipelines

    **Links**

    Great Expectations (Datenvalidierung in Python): https://greatexpectations.io/

    Pandera (Schema-Validierung für Pandas): https://pandera.readthedocs.io/

    dataMaid (Datenvalidierung in R): https://cran.r-project.org/web/packages/dataMaid/index.html

    Pydantic (Datenvalidierung & Settings in Python): https://docs.pydantic.dev/

    Wikipedia-Eintrag zum Prinzip "Garbage In, Garbage Out": https://de.wikipedia.org/wiki/Garbage_In,_Garbage_Out

Weitere Technologie Podcasts

Über Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.
Podcast-Website

Höre Data Science Deep Dive, Ö1 Digital.Leben und viele andere Podcasts aus aller Welt mit der radio.at-App

Hol dir die kostenlose radio.at App

  • Sender und Podcasts favorisieren
  • Streamen via Wifi oder Bluetooth
  • Unterstützt Carplay & Android Auto
  • viele weitere App Funktionen
Rechtliches
Social
v8.8.5| © 2007-2026 radio.de GmbH
Generated: 3/31/2026 - 4:36:46 AM