Vom CustomGPT zu Microsoft Copilot:
- 10. Juni
- 3 Min. Lesezeit
Aktualisiert: 10. Juni
Warum unser KI-Assistent nach der Migration plötzlich schlechter wurde... und wie wir ihn wieder besser gemacht haben

Ein funktionierender KI-Assistent – und plötzlich schlechtere Antworten
Unser KI-Assistent funktionierte bereits produktiv in einem Fachkontext. Die Antworten waren präzise, nachvollziehbar und halfen Anwendern zuverlässig bei der Nutzung einer komplexen Unternehmenssoftware.
Dann migrierten wir den Assistenten nach Microsoft Copilot.
Eigentlich sollte sich nichts ändern. Die Wissensbasis blieb dieselbe. Die Aufgaben waren identisch. Große Teile der Prompt-Logik wurden übernommen.
Doch direkt nach der Migration zeigte sich ein unerwartetes Problem:
Antworten wurden generischer
Fachliche Präzision nahm ab
Ergebnisse wirkten stärker nach „typischer KI“
Die Nutzerzufriedenheit sank spürbar
Die entscheidende Frage lautete plötzlich:
Warum wird ein funktionierender KI-Assistent nach der Migration schlechter – obwohl Inhalte und Anforderungen gleich bleiben?
Die falsche Annahme: Gleicher Prompt, gleiche Ergebnisse
Unser Denkfehler war einfach:
Gleiche Inhalte plus gleicher Prompt ergeben gleiche Ergebnisse.
In der Praxis erwies sich diese Annahme als falsch.
KI-Assistenten bestehen nicht nur aus einem Modell und einem Prompt. Sie sind Teil eines Systems aus Technologie, Kontext, Integrationen, Governance-Regeln und Verhaltenslogiken.
Ein Prompt, der in einem CustomGPT hervorragend funktioniert, erzeugt in Microsoft Copilot nicht automatisch dieselben Ergebnisse.
Genau das mussten wir lernen.
Die eigentlichen Ursachen lagen im Gesamtsystem
Nach der Analyse wurde deutlich, dass nicht ein einzelner Faktor verantwortlich war.
1. Copilot verhält sich anders als CustomGPT
Microsoft Copilot ist für andere Anwendungsfälle optimiert und interpretiert Anweisungen anders.
Wir beobachteten unter anderem:
höhere Sensibilität gegenüber unklaren Formulierungen
stärkere Abhängigkeit von Struktur und Kontext
andere Priorisierung von Informationen
stärker standardisierte Antwortmuster
Das führte dazu, dass identische Prompts unterschiedliche Ergebnisse erzeugten.
2. Governance beeinflusst die Antwortqualität
Parallel zur technischen Migration mussten wir organisatorische Rahmenbedingungen schaffen.
Gemeinsam mit IT, Datenschutz und Betriebsrat wurden unter anderem folgende Fragen geklärt:
Welche Daten dürfen genutzt werden?
Welche Quellen sind zulässig?
Wie müssen Antworten dokumentiert werden?
Welche Compliance-Anforderungen gelten?
Diese Vorgaben beeinflussen nicht nur den Betrieb eines KI-Assistenten.
Sie beeinflussen direkt dessen Qualität.
Wenn Quellen eingeschränkt werden oder Antwortregeln verändert werden, verändert sich auch das Verhalten des Systems.
3. Die Prompt-Architektur war nicht für Copilot optimiert
Viele unserer ursprünglichen Prompts basierten auf Beschreibungen und allgemeinen Anweisungen. Für Copilot reichte das nicht aus.
Was funktionierte, war eine deutlich stärker strukturierte Steuerung des Verhaltens:
klare Quellenreferenzen
explizite Ausgabeformate
eindeutige Rollenbeschreibungen
konkrete Beispiele für gewünschte Antworten
Erst dadurch wurde das gewünschte Verhalten reproduzierbar.
Der Lösungsweg: Neuaufbau statt Übernahme
Der Wendepunkt kam, als wir aufhörten, die bestehende Lösung lediglich zu migrieren.
Stattdessen behandelten wir die Migration als Neudesign des gesamten Systems.
Technische Ebene: Copilot Studio
Mit Copilot Studio konnten wir Verhalten, Datenquellen und Integrationen deutlich präziser steuern.
Dadurch entstand eine saubere Trennung zwischen:
Wissensquellen
Geschäftslogik
Antwortformaten
Governance-Anforderungen
Prompt-Ebene: Neue Architektur statt alter Prompts
Gleichzeitig haben wir die komplette Prompt-Struktur neu aufgebaut.
Der Fokus lag auf:
klar definierten Quellen
festen Ausgabeformaten
expliziten Rollen
konkreten Beispielen
nachvollziehbaren Entscheidungsregeln
Dadurch wurde das Verhalten des Assistenten deutlich stabiler und vorhersehbarer.
Die vier wichtigsten Learnings
1. Quellen schlagen Vermutungen
Wenn Quellen nicht eindeutig definiert sind, ergänzt die KI fehlende Informationen mit allgemeinem Wissen. Klare Quellenreferenzen führten zu deutlich präziseren und verlässlicheren Antworten.
2. Struktur schlägt Freitext
Freie Antworten erzeugen oft Inkonsistenzen.
Feste Antwortstrukturen mit klaren Abschnitten sorgten sofort für bessere Nutzbarkeit und höhere Qualität.
3. Beispiele schlagen Regeln
Zwei bis drei hochwertige Beispielantworten hatten mehr Wirkung als lange Regelwerke.
Modelle lernen Muster besser als abstrakte Vorgaben.
4. Governance beeinflusst Qualität
Governance ist kein organisatorisches Randthema.
Sie bestimmt mit, welche Informationen genutzt werden dürfen, wie Antworten entstehen und wie vertrauenswürdig das System im Alltag arbeitet.
Das Ergebnis
Nach der Überarbeitung erreichten wir:
deutlich weniger generische Antworten
höhere Trefferquoten bei realen Supportfällen
mehr Vertrauen bei den Anwendern
stabilere Qualität im laufenden Betrieb
Der Assistent erreichte wieder das Niveau, das Nutzer bereits aus dem ursprünglichen Prototyp kannten – diesmal jedoch innerhalb einer produktionsfähigen Unternehmensumgebung.
Fazit
Der wichtigste Lernpunkt aus dem Projekt lautet:
Der Wechsel von CustomGPT zu Copilot ist kein technischer Umzug. Er ist ein Redesign von Technologie, Prozessen und Steuerungslogik.
Wer lediglich Prompts kopiert und Inhalte übernimmt, wird häufig enttäuscht.
Erst das Zusammenspiel aus Technologie, Governance, Datenquellen und Prompt-Architektur entscheidet darüber, ob ein KI-Assistent im produktiven Einsatz erfolgreich ist.
Wenn Ihr KI-Prototyp nach der Produktivsetzung schlechter wird ...
... liegt das Problem häufig nicht am Modell selbst, sondern am System dahinter.
Genau dort unterstützen wir Unternehmen: bei der Überführung von KI-Prototypen in stabile, skalierbare und vertrauenswürdige Produktivlösungen.