top of page

Beitrag

Möchten Sie herausfinden, welches Potenzial KI in Ihrem Unternehmen hat?

Wir analysieren gemeinsam Ihre Situation und zeigen konkrete Ansatzpunkte.
Verständlich, strukturiert und umsetzbar.

Vom CustomGPT zu Microsoft Copilot:

  • 10. Juni
  • 3 Min. Lesezeit

Aktualisiert: 10. Juni

Warum unser KI-Assistent nach der Migration plötzlich schlechter wurde... und wie wir ihn wieder besser gemacht haben



Ein funktionierender KI-Assistent – und plötzlich schlechtere Antworten


Unser KI-Assistent funktionierte bereits produktiv in einem Fachkontext. Die Antworten waren präzise, nachvollziehbar und halfen Anwendern zuverlässig bei der Nutzung einer komplexen Unternehmenssoftware.


Dann migrierten wir den Assistenten nach Microsoft Copilot.

Eigentlich sollte sich nichts ändern. Die Wissensbasis blieb dieselbe. Die Aufgaben waren identisch. Große Teile der Prompt-Logik wurden übernommen.


Doch direkt nach der Migration zeigte sich ein unerwartetes Problem:

  • Antworten wurden generischer

  • Fachliche Präzision nahm ab

  • Ergebnisse wirkten stärker nach „typischer KI“

  • Die Nutzerzufriedenheit sank spürbar


Die entscheidende Frage lautete plötzlich:

Warum wird ein funktionierender KI-Assistent nach der Migration schlechter – obwohl Inhalte und Anforderungen gleich bleiben?


Die falsche Annahme: Gleicher Prompt, gleiche Ergebnisse


Unser Denkfehler war einfach:

Gleiche Inhalte plus gleicher Prompt ergeben gleiche Ergebnisse.

In der Praxis erwies sich diese Annahme als falsch.

KI-Assistenten bestehen nicht nur aus einem Modell und einem Prompt. Sie sind Teil eines Systems aus Technologie, Kontext, Integrationen, Governance-Regeln und Verhaltenslogiken.

Ein Prompt, der in einem CustomGPT hervorragend funktioniert, erzeugt in Microsoft Copilot nicht automatisch dieselben Ergebnisse.

Genau das mussten wir lernen.


Die eigentlichen Ursachen lagen im Gesamtsystem


Nach der Analyse wurde deutlich, dass nicht ein einzelner Faktor verantwortlich war.


1. Copilot verhält sich anders als CustomGPT


Microsoft Copilot ist für andere Anwendungsfälle optimiert und interpretiert Anweisungen anders.


Wir beobachteten unter anderem:

  • höhere Sensibilität gegenüber unklaren Formulierungen

  • stärkere Abhängigkeit von Struktur und Kontext

  • andere Priorisierung von Informationen

  • stärker standardisierte Antwortmuster


Das führte dazu, dass identische Prompts unterschiedliche Ergebnisse erzeugten.


2. Governance beeinflusst die Antwortqualität


Parallel zur technischen Migration mussten wir organisatorische Rahmenbedingungen schaffen.

Gemeinsam mit IT, Datenschutz und Betriebsrat wurden unter anderem folgende Fragen geklärt:

  • Welche Daten dürfen genutzt werden?

  • Welche Quellen sind zulässig?

  • Wie müssen Antworten dokumentiert werden?

  • Welche Compliance-Anforderungen gelten?


Diese Vorgaben beeinflussen nicht nur den Betrieb eines KI-Assistenten.

Sie beeinflussen direkt dessen Qualität.

Wenn Quellen eingeschränkt werden oder Antwortregeln verändert werden, verändert sich auch das Verhalten des Systems.


3. Die Prompt-Architektur war nicht für Copilot optimiert


Viele unserer ursprünglichen Prompts basierten auf Beschreibungen und allgemeinen Anweisungen. Für Copilot reichte das nicht aus.


Was funktionierte, war eine deutlich stärker strukturierte Steuerung des Verhaltens:

  • klare Quellenreferenzen

  • explizite Ausgabeformate

  • eindeutige Rollenbeschreibungen

  • konkrete Beispiele für gewünschte Antworten


Erst dadurch wurde das gewünschte Verhalten reproduzierbar.


Der Lösungsweg: Neuaufbau statt Übernahme


Der Wendepunkt kam, als wir aufhörten, die bestehende Lösung lediglich zu migrieren.

Stattdessen behandelten wir die Migration als Neudesign des gesamten Systems.


Technische Ebene: Copilot Studio

Mit Copilot Studio konnten wir Verhalten, Datenquellen und Integrationen deutlich präziser steuern.


Dadurch entstand eine saubere Trennung zwischen:

  • Wissensquellen

  • Geschäftslogik

  • Antwortformaten

  • Governance-Anforderungen


Prompt-Ebene: Neue Architektur statt alter Prompts


Gleichzeitig haben wir die komplette Prompt-Struktur neu aufgebaut.


Der Fokus lag auf:

  • klar definierten Quellen

  • festen Ausgabeformaten

  • expliziten Rollen

  • konkreten Beispielen

  • nachvollziehbaren Entscheidungsregeln


Dadurch wurde das Verhalten des Assistenten deutlich stabiler und vorhersehbarer.


Die vier wichtigsten Learnings


1. Quellen schlagen Vermutungen

Wenn Quellen nicht eindeutig definiert sind, ergänzt die KI fehlende Informationen mit allgemeinem Wissen. Klare Quellenreferenzen führten zu deutlich präziseren und verlässlicheren Antworten.


2. Struktur schlägt Freitext

Freie Antworten erzeugen oft Inkonsistenzen.

Feste Antwortstrukturen mit klaren Abschnitten sorgten sofort für bessere Nutzbarkeit und höhere Qualität.


3. Beispiele schlagen Regeln

Zwei bis drei hochwertige Beispielantworten hatten mehr Wirkung als lange Regelwerke.

Modelle lernen Muster besser als abstrakte Vorgaben.


4. Governance beeinflusst Qualität

Governance ist kein organisatorisches Randthema.

Sie bestimmt mit, welche Informationen genutzt werden dürfen, wie Antworten entstehen und wie vertrauenswürdig das System im Alltag arbeitet.


Das Ergebnis


Nach der Überarbeitung erreichten wir:

  • deutlich weniger generische Antworten

  • höhere Trefferquoten bei realen Supportfällen

  • mehr Vertrauen bei den Anwendern

  • stabilere Qualität im laufenden Betrieb


Der Assistent erreichte wieder das Niveau, das Nutzer bereits aus dem ursprünglichen Prototyp kannten – diesmal jedoch innerhalb einer produktionsfähigen Unternehmensumgebung.


Fazit

Der wichtigste Lernpunkt aus dem Projekt lautet:

Der Wechsel von CustomGPT zu Copilot ist kein technischer Umzug. Er ist ein Redesign von Technologie, Prozessen und Steuerungslogik.

Wer lediglich Prompts kopiert und Inhalte übernimmt, wird häufig enttäuscht.

Erst das Zusammenspiel aus Technologie, Governance, Datenquellen und Prompt-Architektur entscheidet darüber, ob ein KI-Assistent im produktiven Einsatz erfolgreich ist.


Wenn Ihr KI-Prototyp nach der Produktivsetzung schlechter wird ...

... liegt das Problem häufig nicht am Modell selbst, sondern am System dahinter.

Genau dort unterstützen wir Unternehmen: bei der Überführung von KI-Prototypen in stabile, skalierbare und vertrauenswürdige Produktivlösungen.

bottom of page