Co-Thinking — Michael Freiherr v. Roeder

Die kurze Version

Wir reden mit KI heute noch so, wie man früher Briefe geschrieben hat. Ich schreibe, sie antwortet, ich schreibe zurück. Abwechselnd, in Zügen. Genau dieses abwechselnde Verfahren ist der Engpass, nicht die Intelligenz des Modells. Wenn die Maschine weiterdenkt, während ich rede, und ich weiterdenke, während sie arbeitet, entsteht etwas Neues. Ich nenne es Co-Thinking. Und ich glaube, es ist mehr als ein Produkt-Feature. Es ist die dritte Disziplin der Führung.

Vieles in diesem Text ist Vermutung. Ich schreibe sie trotzdem in konkreten Sätzen auf, denn nur die kann man widerlegen.

Warum das abwechselnde Reden das eigentliche Problem ist

Jeder, der ernsthaft mit Sprachmodellen arbeitet, kennt das Gefühl: Man baut die ganze Zeit um eine Beschränkung herum. Das Modell weiß nicht, was passiert, während ich noch tippe oder spreche. Es sieht nicht, dass ich mitten im Satz innehalte. Und während es selbst eine Antwort generiert, ist es blind für alles, was ich in der Zwischenzeit denke. Mira Murati hat es scharf formuliert: Während ein solches Modell nachdenkt, ist es fast taub und blind, es nimmt nichts von dem wahr, was sonst gerade passiert, und während ich rede, bekommt es nicht mit, wie ich es sage.

Das ist kein kosmetisches Problem. Es verengt den Kanal zwischen meinem Wissen, meiner Absicht, meinem Urteil und dem, was beim Modell ankommt. Ich muss mein Denken in saubere Pakete zerlegen, abschicken, warten. In einem echten Gespräch mit einem klugen Menschen mache ich das nie. Da denke ich parallel mit, werfe ein, korrigiere mich, reagiere auf ein Stirnrunzeln, bevor ein Wort gefallen ist. Heinrich von Kleist hat das um 1805/06 formuliert, in seinem Aufsatz über die allmähliche Verfertigung der Gedanken beim Reden: Der Gedanke entsteht erst im Sprechen, an einem Gegenüber, das dafür nicht klüger sein muss, sondern nur da und aufmerksam. Genau dort sitzt die Information, die im abwechselnden Modus verloren geht: im Schweigen, im Nachdenken, im Unterbrechen. Abwechselndes Reden ist ein schmalbandiger Kanal für etwas, das eigentlich hochbandig ist.

Interessant ist, was passiert, wenn man diese Beschränkung auch nur halb aufhebt. Schon mit den Werkzeugen von heute geht das näherungsweise: Ich rede einfach rein, die Maschine denkt nach, je komplexer die Frage, desto länger, sie meldet sich, wir iterieren. In der Zwischenzeit schalte ich den Kontext um und mache etwas anderes. Das ist noch nicht Co-Thinking, das ist seine Vorstufe, und die Kontext-Switches sind der Preis des Provisoriums. Aber schon die Vorstufe verändert das Gefühl der Arbeit: Die Maschine fühlt sich nicht wie ein Lehrer an, der mir etwas erklärt, sondern wie ein sehr schlauer Mitarbeiter, der mich inspiriert. Im Zielbild fällt dann auch der Preis weg: Die Maschine arbeitet im Hintergrund, während ich vorne weiterdenke, und beides bleibt ein einziges Gespräch.

Das ist keine Theorie mehr

Die Idee selbst ist älter als jedes Sprachmodell: J.C.R. Licklider hat die Mensch-Rechner-Symbiose schon 1960 beschrieben, gemeinsames Entscheiden ohne starre Programme, und Doug Engelbart wollte den Verstand erweitern, nicht ersetzen. Sechs Jahrzehnte später arbeitet genau an dieser Stelle Mira Murati, die frühere CTO von OpenAI, mit ihrem Thinking Machines Lab. Am 11. Mai 2026 hat das Lab einen Forschungs-Preview vorgestellt, den sie Interaction Models nennen. Die Grundidee: Interaktivität gehört in das Modell selbst, nicht obendrauf geschnallt als Sammlung von Hilfskomponenten.

Die Architektur trifft den Punkt fast wörtlich. Die Preview beschreibt ein time-aware Interaction Model für die Echtzeitpräsenz und ein asynchrones Background Model für längeres Reasoning, Werkzeug-Nutzung und Planung, beide auf durchgehend geteiltem Kontext. Das Interaction Model bleibt permanent live, nimmt Audio, Video und Text in 200-Millisekunden-Häppchen auf und reagiert sofort. Braucht eine Aufgabe tieferes Nachdenken, reicht es sie an das Background Model weiter, und zwar mit dem vollen Gespräch als Kontext, nicht als isolierte Frage. Die Ergebnisse fließen zurück, sobald sie da sind, und werden in dem Moment ins Gespräch eingewebt, der gerade passt.

Thinking Machines beschreibt das selbst mit einem Bild, das genau mein Co-Thinking ist: wie eine Person, die dich im Gespräch hält, während eine Kollegin im Hintergrund etwas nachschlägt und die Notizen in Echtzeit nach vorne reicht.

Man muss dazusagen: Das ist eine Forschungs-Preview, und die Technik-Community streitet, wie viel davon wirklich neu ist. Als Beweis taugt sie nicht, als Richtungssignal schon. Für mich ist daran ohnehin nicht entscheidend, ob diese konkrete Architektur gewinnt. Entscheidend ist, dass sie eine alte Frage neu technisch adressiert: Wie bleibt menschliches Urteil während der Arbeit präsent, nicht erst am Ende?

Murati lehnt auf der Bloomberg Tech 2026 sogar das brave Bild vom Menschen im Loop ab. Das klinge nach einem Checkpoint, bei dem man am Ende abnickt und dann ist gut. Sie meint etwas anderes: ein Tandem. Beide treten in die Pedale, am Berg tritt der Stärkere härter, aber beide Hände bleiben am Lenker. Ein System, das für Zusammenarbeit gebaut ist, nicht für Abnahme.

Dahinter steckt eine Richtungsentscheidung. Es gibt einen schnellen Pfad, KI rein autonom zu bauen, losgelöst von der Unordnung der Wirklichkeit und der täglichen menschlichen Erfahrung. Und es gibt den vernachlässigten Pfad, die Maschine näher an das zu bringen, wo das Wissen und die Absicht der Menschen tatsächlich sitzen. Murati nennt genau das ihren Einsatz: Die menschliche Handlungsmacht, die Agency, soll wachsen, nicht verschwinden. Das Mission Statement des Labs zieht dieselbe Linie: collaborative general intelligence, eine KI, die zu der unordentlichen Art passt, wie wir Menschen tatsächlich zusammenarbeiten.

Mit anderen Worten: Die Wette der ernsthaftesten Leute im Feld ist nicht mehr nur rohe Modellstärke. Es ist die Qualität der Zusammenarbeit selbst.

Die steile These: Co-Thinking macht eine eigene Klasse von Problemen lösbar

Wenn das stimmt, folgt daraus etwas, das mir wichtig ist. Eine ganze Reihe von Problemen, an denen ich mich heute abarbeite, sind gar keine Wissensprobleme. Es sind Denk-Probleme. Ich komme nicht weiter, weil mir ein Sparringspartner fehlt, der schnell genug, geduldig genug und breit genug ist, um mit mir zu denken, statt mir zu antworten.

Meine Behauptung: Co-Thinking kann eine eigene Klasse solcher Probleme lösbar machen. Nicht, weil das Modell die bessere Antwort kennt, sondern weil die durchgehende, parallele Schleife zwischen mir und der Maschine ein Denkergebnis erzeugt, das keiner von beiden allein gehabt hätte. Das ist überprüfbar, und genau das will ich öffentlich durchdenken, statt es zu behaupten.

Werkzeug für das Denken

Murati bringt das auf einen Begriff, der größer ist als Produktivität. Die fortgeschrittensten KI-Systeme seien die unglaublichsten Werkzeuge für das Denken, die die Menschheit je hatte. Sie verändern nicht nur, wie schnell wir denken, sondern was wir überhaupt denken können.

Ihr Beispiel sitzt. Stell dir vor, du müsstest mit römischen Zahlen multiplizieren. Erst die heutigen Ziffern haben ein ganzes Feld der Mathematik aufgemacht, so weit, dass ein Kind heute rechnet, woran sich Gelehrte früher abgearbeitet haben. Tiefe Werkzeuge, Sprache, Schrift, Zahlen, haben immer verschoben, worüber wir nachdenken, nicht nur wie schnell.

Genau das ist meine steile These, eine Stufe konkreter. Co-Thinking ist so ein Werkzeug. Es liefert nicht die bessere Antwort auf eine Frage, die ich ohnehin schon stellen kann. Es erweitert den Raum der Fragen, die ich mir überhaupt zu denken traue. Eine Klasse von Problemen löst sich dann nicht, weil eine Seite klüger ist, sondern weil das gemeinsame Denken einen Gedanken erreicht, der vorher außerhalb meiner Reichweite lag.

Was Co-Thinking beim Alignment verändert

Der für mich wichtigste Teil kommt zum Schluss, und er war mir lange unklar: Co-Thinking ist nicht nur produktiver, es ist sicherer. Dabei löst es Alignment nicht. Aber es adressiert eine operative Schicht von Alignment-Problemen: Spezifikation, Aufsicht und Nachvollziehbarkeit im laufenden Arbeitsprozess.

Erstens die Spezifikationslücke. Die klassische Fehlerquelle ist, dass ich vorab nie vollständig beschreiben kann, was ich will, und das Modell dann das Falsche optimiert. Im abwechselnden Modus muss ich das komplette Briefing nach vorne werfen und hoffen. Beim Co-Thinking steuere ich durchgehend, ich werfe ein, korrigiere mich mitten im Gedanken, gebe mein Urteil dazu, während die Arbeit entsteht. Mehr von meiner Absicht erreicht das Modell überhaupt. Die Lücke zwischen dem, was ich meine, und dem, was ankommt, wird kleiner.

Zweitens die Kontrolle, und zwar nicht als Abnahme-Stempel am Ende, sondern als durchgehendes Mitlenken. Beide Hände bleiben am Lenker. Ich kann eine falsche Richtung unterbrechen, bevor sie sich aufschaukelt, statt die Fehlausrichtung erst am fertigen Ergebnis zu entdecken. Das ist Aufsicht in der Geschwindigkeit der Arbeit, nicht hinterher, und es ist das Gegenmodell zum autonomen Agenten, der losläuft und dessen Fehler man erst sieht, wenn sie schon teuer geworden sind.

Drittens die Nachvollziehbarkeit. Ein System, das mir die Notizen laufend nach vorne reicht, legt sein Denken offen, während es denkt. Ich kann es prüfen und umlenken, statt eine Blackbox am Ende zu beurteilen. Thinking Machines benennt genau das als Kern: Das abwechselnde Verfahren begrenzt, wie viel vom Wissen, von der Absicht und vom Urteil des Menschen das Modell erreicht, und wie viel von der Arbeit des Modells überhaupt verstanden werden kann.

Murati sagt es offen: Wer so baut, steuert die Forschung in Richtung von Ergebnissen, die eher wertealigniert sind. Alignment fällt dann als Nebenprodukt der Zusammenarbeit ab, zusätzlich zur Nützlichkeit. Und sie dreht das Argument in die Zeit. Wer den Menschen schon jetzt aus der Schleife nimmt, verspielt die Chance, es später richtig zu machen, wenn die Systeme noch fähiger sind. Den Menschen heute im Loop zu halten ist also keine Bremse, sondern die Voraussetzung dafür, dass die nächste Stufe überhaupt sicher wird.

Es gibt inzwischen einen Namen für die Kehrseite: kognitive Schuld. Erste, noch vorsichtig zu lesende Studien deuten darauf hin, dass Menschen, die das Denken an die Maschine auslagern, weniger eigene kognitive Aktivität aufbauen — und sie nicht einfach zurückbekommen, wenn die Maschine weg ist. Das ist kein Argument gegen KI, es ist ein Argument für die richtige Betriebsart. Verblöden ist das Ergebnis von Für-mich-denken. Ein Gegenüber, das mit mir denkt, trainiert das Urteil, statt es zu ersetzen. Schon Kleist wusste: Das Gegenüber macht einen klüger, nicht dümmer.

Daraus folgt ein Punkt, der mir gesellschaftlich wichtig ist. Es ist ein Unterschied, ob eine KI mit mir denkt oder für mich oder auf mich ein. Eine Maschine, die mitdenkt, transparent und korrigierbar, hält mich im Fahrersitz meines eigenen Urteils. Eine, die für mich entscheidet oder mich überzeugt, nimmt ihn mir. Der Einwand dagegen liegt auf der Hand: Ein System, das meine Absicht besser liest, weil es Tonfall, Timing und Zögern mitbekommt, könnte mich auch besser beeinflussen. Deshalb ist Co-Thinking nur dann sicherer, wenn Transparenz, Korrigierbarkeit und Rollenklärung eingebaut sind. In einer Welt, in der Manipulation über KI und soziale Medien real ist, ist Co-Thinking deshalb nicht nur ein Komfort-Argument, sondern eine Haltung: Der Mensch bleibt die Instanz, die versteht und verantwortet. Je weniger Bruch die nächsten Fähigkeitssprünge erzeugen, desto eher behalten wir die Hand am Lenker.

Wofür Co-Thinking, und wofür nicht

So überzeugt ich von alledem bin: Co-Thinking ist nicht die Antwort auf alles. Wenn ich meine Arbeit mit KI sortiere, sehe ich vier Betriebsarten, und die Frage, die sie ordnet, ist immer dieselbe: Wo sitzt mein Urteil in der Zeit?

Das Fließband. Fester Takt, fester Pfad. Alles, was repetitiv ist und klaren Regeln folgt, gehört hierhin. Das Urteil wird einmal ins Design gegossen, danach läuft die Sache von selbst, und der Mensch kommt nur noch bei Ausnahmen.

Der Autopilot. Hier ist der Pfad offen, aber das Ziel fest. Die Maschine plant, nutzt Werkzeuge, arbeitet auch mal Stunden allein, und mein Urteil sitzt an Kontrollpunkten: Briefing, Zwischenstand, Abnahme. Das Ziel muss dabei nicht jedes Mal frisch von mir kommen. Es kann als Daueranweisung stehen und von einem Ereignis ausgelöst werden, einer eingehenden E-Mail etwa. Der Trigger ersetzt das Ziel nicht, er startet es.

In der Praxis treten diese beiden Betriebsarten selten allein auf. Das Fließband übergibt an den Autopiloten, wenn ein Fall aus der Regel fällt, und der Autopilot reicht zurück, was wieder Routine geworden ist. Heute orchestrieren Unternehmen dafür Workflow-Engines und Menschen. Morgen orchestrieren sie Workflow-Engines, Agenten und Menschen — dieselbe Architektur, ein Mitspieler mehr. Genau diese Integration bauen wir im Exigo AI Studio als Produkt: digitale Arbeit als Service, bei der der Mensch nicht mehr in jedem Schritt steckt, sondern an den Stellen, an denen sein Urteil gebraucht wird.

Der Briefwechsel. Ich frage, sie antwortet, ich frage zurück. Das ist der Modus, mit dem dieser Text angefangen hat, und meine Wette ist: Er ist eine Übergangsform. Er existiert nur, weil die Technik bisher nichts Besseres konnte, und er wird in beide Richtungen aufgelöst. Das Repetitive sinkt zum Autopiloten, das Urteilshaltige steigt ins Tandem. Niemand wird dem Briefwechsel nachtrauern, so wenig wie dem Brief, seit man miteinander telefonieren kann.

Das Tandem. Co-Thinking. Strategie, Scope, Urteil. Überall, wo das Problem noch nicht sauber beschrieben ist, wo die Frage selbst Teil der Arbeit ist, nützt mir kein Autopilot, der losläuft und irgendwann ein Ergebnis abliefert. Da brauche ich die durchgehende, parallele Schleife, von der dieser Text handelt. Und weil der Begriff gerade Karriere macht, eine Abgrenzung: Wenn Beratungen heute vom Co-Thinker reden, meinen sie fast immer den besseren Briefwechsel. Ich meine das parallele Regime.

Damit löst sich auch ein Streit auf, der in der Alignment-Debatte gern als Ja-Nein-Frage geführt wird: der Mensch im Loop. Tatsächlich ist es eine Zuordnungsfrage. Am Fließband steht der Mensch bei der Ausnahme. Beim Autopiloten ist er im Loop im klassischen Sinn, an Kontrollpunkten, und dort ist das Bild richtig: Je besser die Kontrollpunkte, desto mehr darf die Maschine allein. Im Tandem dagegen gibt es nicht meinen Loop und ihren Loop, es gibt nur einen gemeinsamen. Murati lehnt also nicht den Checkpoint ab, sondern den Checkpoint als Universalbild.

Keine dieser Betriebsarten ist die bessere. Schon 1958 hat die Harvard Business Review Führung als Kontinuum beschrieben, vom Anweisen bis zum gemeinsamen Entscheiden, und die Meisterschaft lag damals wie heute in der Wahl des richtigen Punkts. Teuer wird es erst, wenn man verwechselt. Wer im Tandem fährt, was aufs Fließband gehört, verschwendet seine Aufmerksamkeit. Wer dem Autopiloten überlässt, was eigentlich Urteil braucht, bekommt sehr schnell sehr überzeugende falsche Antworten.

Was dagegen spricht

Drei Einwände nehme ich ernst, und sie machen die Sache besser, nicht schlechter.

Erstens die Empirie. Eine große Meta-Analyse in Nature Human Behaviour über 106 Experimente fand 2024, dass Mensch-KI-Gespanne im Schnitt schlechter abschneiden als der bessere der beiden allein, vor allem bei Entscheidungsaufgaben. Das klingt wie eine Widerlegung. Nur: Praktisch alle untersuchten Gespanne arbeiteten im Briefwechsel-Modus. Die Studie misst also nicht die Grenze des gemeinsamen Denkens, sondern die Kosten des abwechselnden Redens — und belegt damit eher den Engpass, von dem dieser Text handelt. Bei offenen Kreations-Aufgaben fand dieselbe Analyse übrigens Gewinne.

Zweitens das Schach-Argument. Im Schach gab es die Centaur-Phase, Mensch plus Maschine schlug die Maschine allein — sie war kurz, heute stört der Mensch nur noch. Endet Co-Thinking genauso? Bei allem, was sich wie Schach verhält: ja. Geschlossene, verifizierbare Aufgaben wandern früher oder später in den Autopiloten, das behauptet dieser Text selbst. Strategie, Scope und Urteil sind aber kein Schach. Es gibt keine Engine, die prüft, ob meine Frage die richtige war.

Drittens die Skalierung. Co-Thinking verbraucht das Knappste, was ich habe, meine Aufmerksamkeit. Es skaliert nicht auf eine Flotte von hundert Agenten. Stimmt — und genau deshalb ist die Zuordnung der Betriebsarten die Kernkompetenz, um die es gleich geht: Tandem für die wenigen Fragen, die wirklich etwas drehen, Autopilot und Fließband für den Rest.

Warum ich das die dritte Disziplin nenne

Führung hat sich bisher in zwei Disziplinen abgespielt. Die erste ist, Menschen zu führen, also Richtung geben, Verantwortung verteilen, Vertrauen aufbauen. Die zweite ist, Systeme zu führen, also Prozesse und zunehmend Agenten zu beauftragen und Ergebnisse einzusammeln. Sie ist der ersten übrigens näher, als man denkt: Agenten brauchen Briefings statt Zurufe und Feedback statt Hoffnung. Wer Mitarbeitergespräche führen kann, bringt für diese Disziplin mehr mit als jeder Prompt-Kurs. Beide haben trotzdem eines gemeinsam: Ich delegiere Aufgaben.

Co-Thinking ist anders, weil ich keine Aufgabe delegiere, sondern das Denken teile. Ich kommandiere nicht und ich automatisiere nicht, ich denke gemeinsam. Das ist die dritte Disziplin, im Englischen nenne ich sie Third Leadership, und sie verlangt vier Fähigkeiten.

Framing: unklare Probleme sprechbar machen. Ich muss meine halbfertigen Gedanken aushalten und aussprechen, statt erst das fertige Briefing zu formulieren.

Steuerung: während des Denkens intervenieren. Ich muss Kontext-Switches managen, ohne den Faden zu verlieren, und eine schiefe Richtung korrigieren, solange das noch billig ist.

Urteil: maschinelle Vorschläge bewerten, bevor sie sich verfestigen. Ich muss lernen, wann ich der Stärkere am Berg bin und wann die Maschine.

Moduswahl: sauber zuordnen, was wohin gehört — aufs Fließband, zum Autopiloten, in den Briefwechsel, ins Tandem oder zu einem Menschen. Diese Zuordnung ist die Kernkompetenz, die die drei Disziplinen zusammenhält.

Wer das früh beherrscht, führt nicht nur sich und sein Team, sondern auch eine Denk-Partnerschaft. Das ist die eigentliche Kompetenz der nächsten Jahre.

Was das für Unternehmen heißt

Die zentrale KI-Frage in Unternehmen ist damit nicht mehr „Welches Modell haben wir?”, sondern „Wo muss menschliches Urteil im Arbeitsfluss sitzen?”. Für mich, und für das, was wir im Exigo AI Studio bauen, hat das eine klare Konsequenz. KI wird nicht obendrauf auf alles andere eingeführt. Sie wird spitz an bestimmten Stellen eingebettet, dort, wo das gemeinsame Denken den Unterschied macht. Nicht der Chatbot für jeden Mitarbeiter, der isoliert betrachtet erstaunlich inkompetent bleibt, sondern die Orchestrierung, die spezifisches Wissen und gemeinsames Denken zusammenbringt.

Die Betriebsarten zeigen dabei auch, wie Unternehmen KI künftig einkaufen. Was aufs Fließband und in den Autopiloten gehört, muss niemand mehr als Werkzeug beschaffen und selbst betreiben. Man kann das fertige Ergebnis kaufen: vollständige Outcomes statt Software, Work done as a Service, bei dem das eigene Urteil nur noch an den vereinbarten Kontrollpunkten sitzt. Genau das ist unser Produkt. Das Tandem dagegen lässt sich nicht einkaufen und nicht delegieren. Wo das gemeinsame Denken den Unterschied macht, ist es die Arbeit der Führung selbst, und dafür braucht es die dritte Disziplin.

Die guten Ideen teilt man. Deshalb schreibe ich das hier offen auf, solange es frisch ist.

Quellen

Thinking Machines Lab, „Interaction Models: A Scalable Approach to Human-AI Collaboration”, 11. Mai 2026 — thinkingmachines.ai/blog/interaction-models
Mira Murati, Mission-Statement (X, Juli 2025): „empower humanity through advancing collaborative general intelligence”
Bloomberg Tech 2026 (4. Juni 2026), Murati im Gespräch mit Emily Chang, „Thinking Machines’ Murati on AI’s Next Chapter” — youtube.com/watch?v=A_jIpryR5js
MarkTechPost, technische Einordnung der Interaction Models, 13. Mai 2026
Heinrich von Kleist, „Über die allmähliche Verfertigung der Gedanken beim Reden”, entstanden um 1805/06, postum veröffentlicht
Robert Tannenbaum / Warren H. Schmidt, „How to Choose a Leadership Pattern”, Harvard Business Review, 1958
J.C.R. Licklider, „Man-Computer Symbiosis”, IRE Transactions on Human Factors in Electronics, 1960
Vaccaro/Almaatouq/Malone, „When combinations of humans and AI are useful”, Nature Human Behaviour, 2024 (Meta-Analyse über 106 Experimente)
Ethan Mollick, „Centaurs and Cyborgs on the Jagged Frontier”, One Useful Thing, September 2023
Sean Goedecke, kritische Einordnung der Interaction Models, seangoedecke.com, Mai 2026
Amelia Wattenberger, „Why Chatbots Are Not the Future”, Mai 2023
Kosmyna et al. (MIT Media Lab), „Your Brain on ChatGPT” — EEG-Studie, prägt den Begriff „Cognitive Debt”, 2025 (Preprint, n=54, vorsichtig zitieren)
Michael Gerlich, „AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking”, Societies, 2025 (666 Teilnehmer, Korrelation, keine Kausalität)