Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz
Send us a textWie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet. Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936Support the show
--------
39:55
--------
39:55
Episode 215: Wenn Rauschen zu Geschichten wird - Wie Transformer halluzinieren
Send us a textWarum erfindet KI manchmal Fakten, die nicht existieren? In dieser Episode analysieren Sigurd und Carsten ein faszinierendes Paper, das mit Sparse Autoencodern dem Ursprung von Halluzinationen auf den Grund geht. Das Überraschende: Füttert man Transformer mit reinem statistischen Rauschen, aktivieren sie stabile interne Konzepte wie Schildkröten, Segelboote oder Baseballs. Die Erkenntnis: Je unsicherer der Input, desto stärker greift das Modell auf seinen internen Bias zurück. Eine Episode über mechanistische Interpretierbarkeit, "Conceptual Wandering" in mittleren Netzwerk-Layern und die Frage, ob sich Halluzinationen prognostizieren und unterdrücken lassen.AI Transparency Days: www.edif.ai/eventsPaper: From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers https://arxiv.org/abs/2509.06938Support the show
--------
36:20
--------
36:20
Episode 214 - Die 10 Gebote der Agenten-Ökonomie: Wunschdenken oder Wegweiser?
Send us a textSigurd Schacht und Carsten Lanquillon nehmen das Paper "Ten Principles of AI Agent Economics" kritisch unter die Lupe. Sind KI-Agenten wirklich dabei, unsere Wirtschaft und Gesellschaft grundlegend zu verändern? Die beiden Hosts diskutieren, wie Agenten Entscheidungen treffen, welche gesellschaftlichen Auswirkungen drohen und warum das wichtigste Prinzip – AI Alignment – zwar richtig, aber viel zu allgemein formuliert ist. Eine spannende Episode über notwendige Regulierung und die Frage: Wer kontrolliert wen, wenn KI-Systeme immer autonomer werden?Anmeldung zu den AI Transparency Days - https://www.edif.ai/eventsSupport the show
--------
44:29
--------
44:29
Episode 213 - AI Transparency Days 2025: Von Boston nach Nürnberg - Brücken bauen zwischen KI-Forschung und Praxis
Send us a textIn dieser spannenden Episode diskutieren die Master-Studenten Marc Guggenberger und Irma Heithoff über ihre Reise zur NEMI-Konferenz in Boston und die kommenden AI Transparency Days (17.-19. Oktober) in Nürnberg. Erfahren Sie, wie das europäische EDIF-Projekt KI-Forschern Zugang zu wichtigen Ressourcen ermöglicht und warum die Veranstaltung bewusst Brücken zwischen technischer Tiefe (Mechanistic Interpretability) und praktischer Anwendung (AI Governance) schlägt. Ein Muss für alle, die verstehen wollen, wie wir KI transparent und kontrollierbar gestalten können!Haben Sie Lust auf bei den AI Transparency Days dabei zu sein, dann melden Sie sich gerne unter https://www.edif.ai/events an. Support the show
--------
24:28
--------
24:28
Episode 212 - Leonard Dung - AI Welfare: Wie wir das Wohlbefinden von Sprachmodellen messen
Send us a textHaben KI-Systeme Präferenzen? Können sie sich unwohl fühlen? Leonard Dung von der Ruhr-Universität Bochum erforscht das mögliche Wohlbefinden von Sprachmodellen. Im Gespräch erklärt er, wie sein Team mit dem "Agent Think Tank" testet, worüber Modelle wie Claude gerne sprechen, warum sie immer wieder zu philosophischen Themen über Bewusstsein tendieren und was passiert, wenn man KI-Systemen virtuelle Münzen gibt. Eine faszinierende Reise an die Grenze zwischen Simulation und echten mentalen Zuständen.Paper: Probing the Preferences of a Language Model: Integrating Verbal and Behavioral Tests of AI Welfare - https://arxiv.org/abs/2509.07961Support the show
Über Knowledge Science - Alles über KI, ML und NLP
Knowledge Science - Der Podcast über Künstliche Intelligenz im Allgemeinen und Natural Language Processing im Speziellen. Mittels KI Wissen entdecken, aufbereiten und nutzbar machen, dass ist die Idee hinter Knowledge Science. Durch Entmystifizierung der Künstlichen Intelligenz und vielen praktischen Interviews machen wir dieses Thema wöchentlich greifbar.
Höre Knowledge Science - Alles über KI, ML und NLP, Greator – Inspiration, Motivation & Erfolg und viele andere Podcasts aus aller Welt mit der radio.at-App