PodcastsTechnologieData Science Deep Dive

Data Science Deep Dive

INWT Statistics GmbH
Data Science Deep Dive
Neueste Episode

89 Episoden

  • Data Science Deep Dive

    #87: [PAIQ3] Predictive AI Quarterly

    12.2.2026 | 32 Min.
    Im aktuellen Predictive AI Quarterly sprechen wir über zentrale Entwicklungen im Bereich Predictive AI und teilen Erfahrungen aus einem konkreten LLM-Projekt. Thema sind unter anderem TabPFN 2.5, neue Ansätze für Explainability sowie der wachsende Einfluss von AI-Agents auf Softwareentwicklung. Im Praxisteil berichten wir über ein mehrsprachiges Textanalyse-Projekt für den gemeinnützigen Verein Monda Futura. Dabei geht es um die strukturierte Auswertung von rund 850 Zukunftsvisionen mithilfe von LLMs. Abschließend diskutieren wir Learnings zu Modellwahl, Kosten und dem sinnvollen Zusammenspiel von Mensch und KI.

    **Zusammenfassung**

    TabPFN 2.5: Skalierung, Distillation für produktive Nutzung und höhere Inferenzgeschwindigkeit

    ExplainerPFN als Alternative zu SHAP für Feature Importance ohne Zugriff auf das Originalmodell

    Trend zu AI-Agents, die große Teile der Softwareentwicklung übernehmen

    Use Case Monda Futura: Analyse von 850 mehrsprachigen Zukunftsvisionen (DE/FR/IT)

    Pipeline: Fragmentierung, Themenextraktion, Klassifikation und Szenarienerstellung

    Effektiver Einsatz von GPT-5-Mini vs. GPT-5.2-Pro je nach Aufgabentyp

    Zentrales Learning: Beste Ergebnisse durch Human-in-the-Loop statt Vollautomatisierung

    **Links**

    Prior Labs TabPFN-2.5 Model Report https://priorlabs.ai/technical-reports/tabpfn-2-5-model-report

    ExplainerPFN Forschungs-Paper (zero-shot Feature Importance) https://arxiv.org/abs/2601.23068

    OpenCode – Open Source AI Coding Agent https://opencode.ai/

    Monda Futura https://mondafutura.org/

    OpenAI API & GPT-Modelle Überblick https://platform.openai.com/docs/models

    OpenAI Structured Output Guide https://platform.openai.com/docs/guides/structured-outputs

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: [email protected]
  • Data Science Deep Dive

    #86: "Garbage In, Garbage Out" verhindern: Datenvalidierung richtig gemacht

    29.1.2026 | 39 Min.
    In dieser Episode dreht sich alles um Datenvalidierung und darum, wie sich das Prinzip "Garbage In, Garbage Out" vermeiden lässt. Mira und Michelle erklären, warum eine gründliche Prüfung der Datenqualität direkt zu Projektbeginn entscheidend ist. Im Fokus stehen typische Checks wie Schema-Validierung, Vollständigkeit, Konsistenz und statistische Auffälligkeiten. Außerdem geht es darum, wie Datenvalidierung hilft, Daten besser zu verstehen und Fehler frühzeitig aufzudecken. Abschließend werden praktische Techniken und Tools vorgestellt, die von manueller Analyse bis zur automatisierten Pipeline reichen.

    **Zusammenfassung**

    Datenvalidierung prüft die Datenqualität vor der Modellierung

    Ziel: Probleme früh erkennen und Ressourcen sparen

    Wichtige Aspekte: Datentypen, Duplikate, fehlende Werte

    Logik- und Plausibilitätschecks (z.B. Alter nicht negativ, Prozentwerte im richtigen Bereich)

    Statistische Methoden zur Erkennung von Anomalien und Verteilungen

    Univariat: einfache Kennzahlen, Histogramme, Boxplots, Zeitreihenanalysen

    Multivariat: Korrelationen, Scatterplots, Kreuztabellen, Multikollinearität

    Tools reichen von Notebooks und Reports bis zu Dashboards und automatisierten Pipelines

    **Links**

    Great Expectations (Datenvalidierung in Python): https://greatexpectations.io/

    Pandera (Schema-Validierung für Pandas): https://pandera.readthedocs.io/

    dataMaid (Datenvalidierung in R): https://cran.r-project.org/web/packages/dataMaid/index.html

    Pydantic (Datenvalidierung & Settings in Python): https://docs.pydantic.dev/

    Wikipedia-Eintrag zum Prinzip "Garbage In, Garbage Out": https://de.wikipedia.org/wiki/Garbage_In,_Garbage_Out
  • Data Science Deep Dive

    #85: Technologieauswahl im Dschungel der Möglichkeiten

    15.1.2026 | 46 Min.
    Die Tech-Welt bietet heute mehr Auswahl denn je und damit auch viel mehr Möglichkeiten, genau die passende Lösung für den eigenen Kontext zu finden. Wir sprechen darüber, warum Entscheidungen nicht mehr über ein einzelnes Kriterium laufen, sondern vor allem vom Systemumfeld, Teamwissen und organisatorischen Rahmenbedingungen abhängen. Anhand praxisnaher Beispiele zeigen wir, wie man trotz Compliance, Cloud-Ökosystemen oder "Tool-Hype" zu soliden, nachhaltigen Entscheidungen kommt. Außerdem ordnen wir typische Kriterien ein und erklären, wie man mit kleinen Tests, klaren Prioritäten und Lernschleifen die Risiken reduziert. Das Fazit: Die Vielfalt ist ein Vorteil, aber nur wenn man strukturiert auswählt, ausprobiert und den Stack sehr bewusst weiterentwickelt.

    **Zusammenfassung**

    Früher waren Technologieentscheidungen oft simpel, weil es nur wenige Alternativen gab

    Heute ist die Landschaft extrem breit, selbst innerhalb von Open Source

    Stärken findet man schnell, Schwächen und Grenzen zeigen sich oft erst im Betrieb

    Fehlentscheidungen wirken lange nach und können Teams über Jahre ausbremsen

    Herstellerempfehlungen sind erwartbar parteiisch, Beratung bringt oft Erfahrungs-Bias mit

    Der Kontext (System, Organisation, Restriktionen) ist entscheidender als eine "Feature-Liste"

    Beispiele zeigen typische Fallen: Overengineering, Compliance-Zwänge, Cloud-Lock-in, "Tech ausprobieren"

    Kriterien wie Kosten, Verfügbarkeit, Sicherheit, Support, Latenz und digitale Souveränität konkurrieren je nach Projekt unterschiedlich stark

    Unerwartete Probleme entstehen oft außerhalb der Specs (Bugs, Release-Qualität, Support-Realität)

    Ein Tech-Radar und iterative Weiterentwicklung des Stacks helfen, Entscheidungen robuster zu machen

    **Links**

    Thoughtworks Technology Radar (Adopt / Trial / Assess / Hold) https://www.thoughtworks.com/radar

    Positionspapier: "Kriterien zur Identifikation und Auswahl von digitalen Schlüsseltechnologien" von bitkom https://www.bitkom.org/Bitkom/Publikationen/Kriterien-zur-Identifikation-und-Auswahl-von-digitalen-Schluesseltechnologien

    Episode #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack https://www.podbean.com/ew/pb-pep8h-147029f

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: [email protected]
  • Data Science Deep Dive

    Kurze Pause, frische Energie: Wir hören uns im neuen Jahr!

    18.12.2025 | 1 Min.
    Wir möchten uns kurz mit einem Update in eigener Sache bei euch melden.
    Normalerweise erscheinen unsere Episoden alle zwei Wochen, aktuell sind wir jedoch stark in laufende Projekte eingebunden. Damit wir euch weiterhin qualitativ hochwertige und praxisnahe Inhalte rund um Data Science liefern können, legen wir im Dezember und über den Jahreswechsel eine kurze Podcast-Pause ein.

    Gleichzeitig möchten wir die Gelegenheit nutzen, Danke zu sagen:
    Danke fürs Zuhören, fürs Weiterempfehlen und für euer Interesse an unseren Themen. ❤️

    Ab Mitte Januar sind wir wieder zurück mit neuen Episoden, frischen Perspektiven und wie gewohnt spannenden Themen aus der Welt der Data Science.

    Bis dahin wünschen wir euch entspannte Feiertage, eine gute Zeit zwischen den Jahren und einen großartigen Start ins neue Jahr. Bleibt gesund oder werdet gesund, bis bald!
  • Data Science Deep Dive

    #84: Body Leasing: Zwischen Beratung, Teamkultur und Erwartungsmanagement

    13.11.2025 | 30 Min.
    In dieser Episode sprechen wir darüber, wie es ist, im Body Leasing als externer Data Scientist direkt im Kund*innenteam zu arbeiten. Mira und Andreas teilen ihre Erfahrungen zu Rollenwechseln, Erwartungen im Projekt und dem Umgang mit Druck und neuen Teamkulturen. Wir geben praktische Tipps für Onboarding, Kommunikation und Beziehungspflege, damit die Zusammenarbeit für alle Seiten gut funktioniert. Außerdem beleuchten wir die Chancen und Risiken für Beratungen, Freelancer*innen und Auftraggeber*innen. Am Ende zeigt sich: erfolgreich wird Body Leasing vor allem über gute Beziehungen und gute Selbstorganisation.

     

    **Zusammenfassung**

    Was Body Leasing bedeutet und warum es eine besondere Form der Beratung ist

    Erfahrungen von Mira und Andreas: Rollen, Herausforderungen und Chancen im Kund*innenteam

    Tipps für den Einstieg: Onboarding ernst nehmen, Erwartungen klären, Ergebnisse gut präsentieren

    Bedeutung von Beziehungsebene, Teamkultur und Kommunikation im täglichen Miteinander

    Umgang mit Druck, Bewertung und wechselnden Anforderungen

    Vorteile für Berater*innen: neuer Input, externe Validierung, Einblick in andere Unternehmen

    Chancen und Risiken für Beratungsunternehmen und Freelancer*innen

    Sicht der Auftraggeber*innen: schnelle Verfügbarkeit, Know-how-Gewinn, aber auch On-/Offboarding-Aufwand

Weitere Technologie Podcasts

Über Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.
Podcast-Website

Höre Data Science Deep Dive, Hard Fork und viele andere Podcasts aus aller Welt mit der radio.at-App

Hol dir die kostenlose radio.at App

  • Sender und Podcasts favorisieren
  • Streamen via Wifi oder Bluetooth
  • Unterstützt Carplay & Android Auto
  • viele weitere App Funktionen
Rechtliches
Social
v8.6.0 | © 2007-2026 radio.de GmbH
Generated: 2/22/2026 - 8:56:25 AM