Der KI-Reifegrad-Report - für CFOs: Teil 3

Die meisten Finanzteams haben bereits erste Erfahrungen mit KI gesammelt. Doch selbst unter den erklärten Vorreitern gelingt die Skalierung oft nicht – aus unterschiedlichen Gründen. Dieser Bericht zeigt: KI-Vorreiter verfolgen klar unterscheidbare operative Ansätze. Einige bewegen sich schneller, als es ihre Kontrollmechanismen erlauben. Andere verfügen zwar über eine solide Governance, bauen jedoch auf einem schwachen Datenfundament auf. Für Sie als CFO ist das von großer Bedeutung. Denn eine falsche Diagnose hat konkrete Konsequenzen. Teams investieren weiter in Tools, Pilotprojekte und Richtlinien. Dennoch gerät die Einführung ins Stocken, der ROI sinkt und zentrale Prozesse bleiben unverändert. Dieser Bericht macht sichtbar, was die Skalierung wirklich ausbremst – damit Sie frühzeitig die richtigen Prioritäten setzen können.
- Führungsteams sind keine einheitliche Gruppe
- Der eigentliche Engpass ist nicht mehr KI
- Der Kontext bestimmt, welche Lücke dominiert
- Was CFOs jetzt priorisieren sollten
Durch das Absenden dieses Formulars erklären Sie sich damit einverstanden, E-Mails zu unseren Produkten und Dienstleistungen gemäß unserer Datenschutzrichtlinie zu erhalten. Sie können sich jederzeit abmelden.
Die meisten Finanzteams starten mit sinnvollen KI-Pilotprojekten. Sie erkennen Rechnungsabweichungen, schlagen Kontierungen vor und sparen Zeit bei Prüfungen. Das Vertrauen wächst schnell. Dann folgt die entscheidende Frage: Kann dieselbe KI auch Genehmigungen, Richtlinienprüfungen oder Buchungsvorschläge im großen Maßstab unterstützen – und dabei einer Prüfung standhalten?
Genau hier verlangsamen sich viele Finanzteams. Und genau hier treten zwei zentrale Frustrationen auf.
- Die erste: „Wir haben viele KI-Initiativen, aber nichts skaliert in unsere Kernprozesse.“
- Die zweite: „Wir haben Governance ausführlich diskutiert, aber sie wird nicht in konkrete Anwendungen überführt.“
Diese Frustrationen weisen in unterschiedlichen Organisationen auf unterschiedliche Probleme hin. Solange Sie diese nicht klar voneinander unterscheiden, investieren Sie leicht weiter in die falsche Lösung.
Die ersten beiden Berichte dieser KI-Readiness-Reihe haben die Grundlage geschaffen. Bericht eins zeigte, dass die KI-Reife im Finanzbereich strukturell ungleich verteilt ist – geprägt von Branche, Unternehmensgröße und Kontext. Bericht zwei zeigte, dass Skalierung von fünf zentralen Voraussetzungen abhängt: Umsetzungskompetenz, grundlegende Governance-Regeln, Fähigkeiten, Budget und Datenreife. Gleichzeitig wurde deutlich, dass selbst bei fortgeschrittenen Anwendern diese Voraussetzungen selten gleichzeitig erfüllt sind.
Dieser Bericht geht einen Schritt weiter. Warum gelingt es einigen Finanzteams, die bereits als KI-Vorreiter gelten, zu skalieren, während andere ins Stocken geraten?
KI-Vorreiter sind keine homogene Gruppe. Sie befinden sich in unterschiedlichen operativen Ausgangslagen – mit unterschiedlichen Stärken, Lücken und Hindernissen für die Skalierung. Das ist entscheidend, denn der nächste Schritt ist nicht für alle gleich. Einige Teams brauchen klarere Regeln. Andere benötigen ein stärkeres Datenfundament. Wieder andere müssen vorhandene Reife in die operative Umsetzung überführen. Für Sie als CFO ist die zentrale Frage: Welche Voraussetzung bremst einen konkreten Workflow tatsächlich aus?
Führungsteams sind keine einheitliche Gruppe
Für diesen Bericht analysieren wir die Antworten von 405 Teilnehmenden, die bei der KI-Reife einen Wert zwischen sieben und zehn erreicht und den Governance-Teil der Umfrage abgeschlossen haben. Jede der fünf Skalierungsbedingungen wird auf einer Zustimmungsskala von eins bis sieben gemessen. Im weiteren Verlauf bedeutet „stark ausgeprägt“ einen Wert von sechs oder sieben – also die beiden höchsten Stufen, die eine klare Zustimmung anzeigen, dass die jeweilige Voraussetzung erfüllt ist. Die Segmentzuordnung bleibt für eine konsistente Auswertung unverändert.
Abbildung 4 zeigt, wie sich die Vorreiter auf sechs operative Ausgangslagen verteilen.


Skalierte Anwender (26,9%) — die Haltung, die einer vollständigen Einsatzbereitschaft am nächsten kommt — erreichen gleichzeitig hohe Werte in allen fünf Voraussetzungen. Sie verfügen über Umsetzungskompetenz, grundlegende Governance-Regeln, die nötigen Fähigkeiten, das Budget und ein Datenfundament für verlässliche Ergebnisse. Jeder vierte Vorreiter hat diesen operativen Gesamt-Stack aufgebaut. Das ist entscheidend, denn es zeigt: Skalierbare KI im Finanzbereich ist keine Theorie – sie existiert bereits in relevantem Umfang. Gleichzeitig wird deutlich, wie anspruchsvoll es ist, diesen Stack zu realisieren.
Inkrementelle Optimierer (17,5%) machen echte Fortschritte, jedoch ungleichmäßig. Einige Voraussetzungen sind stark ausgeprägt, andere bleiben zurück. KI entwickelt sich weiter, entfaltet aber keine durchgängige Wirkung im gesamten Operating Model.
Umsetzungsgetriebene Implementierer (16,0%) liefern aus. 100 % stimmen stark zu, dass Umsetzung vorhanden ist, und 96,9 % sehen auch die nötigen Fähigkeiten. Doch 0 % stimmen stark zu, dass grundlegende Governance-Regeln etabliert sind. Diese Teams können bauen und ausrollen, aber die Kontrollmechanismen halten mit der Geschwindigkeit nicht Schritt.
Agent-first, control-later (14,1%) zeigt eine hohe Offenheit für KI und echte Experimentierfreude, jedoch geringe operative Disziplin. Auch hier stimmen 0 % stark zu, dass grundlegende Regeln vorhanden sind. Nur 24,6 % sehen die Umsetzung als stark ausgeprägt, 35,1 % die Datenreife. KI ist in diesen Organisationen aktiv – sie steht jedoch nicht auf einem stabilen Fundament.
Governance-getriebene Skalierer (13,8%) sind besonders aufschlussreich, da sie eine verbreitete Annahme über Einsatzbereitschaft infrage stellen. Die Umsetzung liegt bei 92,9 %, grundlegende Regeln bei 100 %, die Fähigkeiten bei 92,9 %. Die Datenreife fällt hingegen auf 30,4 %. Diese Organisationen haben vieles richtig gemacht. Was sie bremst, ist nicht die Governance, sondern die Qualität der zugrunde liegenden Daten.
Kontrollorientierte Planer (11,6%) verfügen über solide Fähigkeiten, Budget und Daten. Doch die Umsetzung ist nicht ausreichend verankert. Die Voraussetzungen sind vorhanden, werden aber noch nicht in die Anwendung überführt.
Konstantin Dzhengozov, CFO bei Payhawk, beschreibt:
Fortgeschrittene KI-Nutzung kann in der Praxis sehr unterschiedlich aussehen. Im Finanzbereich ist ein Team möglicherweise bereit zu skalieren, weil es über Kontrollen, Daten und operative Disziplin verfügt. Ein anderes wirkt nach außen ähnlich aktiv, doch es fehlt eine entscheidende Voraussetzung – und genau das hindert es daran, weiter voranzukommen.
Das klassische Reifegradmodell geht von einer linearen Entwicklung aus: Mehr Reife bedeutet mehr Fortschritt, und jede Organisation befindet sich auf derselben Stufe. Im Finanzbereich greift dieses Modell zu kurz. Skalierung erfordert mehrere Voraussetzungen gleichzeitig: die Fähigkeit zur Umsetzung, zur Steuerung, zur Finanzierung und Daten, die automatisierte Entscheidungen tatsächlich tragen. Fehlt ein Element, können die anderen es nicht ausgleichen.
Jede Ausprägung zeigt, worüber eine Organisation aktuell verfügt und worauf sie optimiert.
- Umsetzungsgetriebene Implementierer optimieren auf Geschwindigkeit – ihr Engpass ist die Governance.
- Governance-getriebene Skalierer optimieren auf Absicherung – ihr Engpass sind die Daten.
- Kontrollorientierte Planer haben Einsatzbereitschaft aufgebaut – ihr Engpass ist die Umsetzung.
Keine dieser Positionen ist falsch. Jede bringt jedoch einen typischen Engpass mit sich. Organisationen wählen diese Einschränkungen selten bewusst, sondern übernehmen sie aus bestehenden Systemen, ihrer Risikohaltung und ihrer operativen Historie.
Der eigentliche Engpass ist nicht mehr KI
Abbildung 5 zeigt den Anteil der Vorreiter in jeder Ausprägung, die den einzelnen Skalierungsvoraussetzungen stark zustimmen.
Hier zeigen sich zwei strukturelle Muster, die den Großteil der Stagnation in der Gruppe der Vorreiter erklären.


Die erste ist eine Governance-Lücke:
Sie entsteht, wenn KI-Initiativen schneller voranschreiten als die minimalen Regeln, die sie absichern sollen.
Bei umsetzungsgetriebenen Implementierern zeigt sich das besonders deutlich: 100 % bei Umsetzung, 96,9 % bei Fähigkeiten, 0 % bei grundlegenden Governance-Regeln. „Agent-first, control-later“ zeigt dieselbe Lücke aus einer anderen Perspektive. Es gibt starkes Interesse, echte Experimente – aber die Kontrollschicht fehlt.
Gerade im Finanzbereich ist das entscheidend, weil hier alles auf Nachvollziehbarkeit beruht. Sobald KI Genehmigungen, Ausgabenkategorisierung, Rechnungsbuchung, Lieferanten-Onboarding oder Buchungssätze beeinflusst, muss das Unternehmen Rechenschaft ablegen können. Was durfte die KI tun? Was hat eine Eskalation ausgelöst? Wer verantwortet das Ergebnis? Was ist im Audit-Trail dokumentiert?
Das Muster ist klar: Ein Finanzteam startet ein erfolgreiches Pilotprojekt, etwa zur Erkennung von Rechnungsabweichungen oder zur Unterstützung bei der Kontierung. Die Ergebnisse sind gut, das Vertrauen wächst. Danach folgt die Ausweitung – etwa durch automatische Freigaben für risikoarme Rechnungen oder skalierte Vorschläge für Buchungssätze. Genau hier wird die fehlende Governance konkret. Nicht, weil die KI die Aufgabe nicht bewältigen kann, sondern weil Freigabelogik, Eskalationspfade und Audit-Dokumentation nicht klar genug definiert sind, um den breiteren Einsatz zu tragen. Der Pilot funktioniert. Die Skalierung stockt. Häufig folgt dann der Reflex, weitere Anwendungsfälle hinzuzufügen oder das Modell zu verfeinern – beides adressiert die eigentliche Lücke nicht.
Die zweite ist eine Datenlücke:
Governance-getriebene Skalierer zeigen sie besonders deutlich. 100 % stimmen stark zu, dass grundlegende Regeln vorhanden sind, 92,9 % bei Umsetzung, 92,9 % bei Fähigkeiten – aber nur 30,4 % bei der Datenreife. Diese Organisationen machen vieles richtig. Sie verfügen über klare Governance und disziplinierte Umsetzung. Was sie begrenzt, ist die Verlässlichkeit der Daten, auf denen ihre Workflows aufbauen.
KI im Finanzbereich wirkt tiefer in die Prozesse, wenn sie mit konsistenten Stammdaten, sauberen Transaktionshistorien, klaren Kostenstellenstrukturen, Richtlinien-Metadaten und belastbarer Abstimmungslogik über Systeme hinweg arbeitet. Sind diese Grundlagen fragmentiert, lässt sich KI weiterhin für Zusammenfassungen und erste Prüfungen nutzen. Doch sobald Ergebnisse verlässlich sein müssen, zögern Teams, ihr die Steuerung zu überlassen. Governance ist vorhanden. Verlässliche Ausführung bleibt aus.
Konstantin erklärt:
Der häufigste Fehler ist die Annahme, dass der nächste Schritt immer mehr KI ist. Im Finanzbereich ist der nächste Schritt oft mehr Disziplin. Sie müssen wissen, ob Ihr Engpass bei Regeln, Daten oder Umsetzung liegt. Wenn Sie das falsch einschätzen, investieren Sie viel – und kommen trotzdem nicht voran.
Der kostspielige Fehler ist in beiden Fällen derselbe: Es wird in die falsche Lösung investiert. Teams mit Governance-Lücken erweitern ihre Anwendungsfälle, setzen zusätzliche Copiloten ein, starten weitere Piloten und automatisieren mehr – auf Basis derselben fehlenden Leitplanken. Teams mit Datenlücken investieren in Richtlinien und Governance-Strukturen, obwohl die Daten weiterhin keine verlässlichen Ergebnisse ermöglichen.
Der Kontext bestimmt, welche Lücke dominiert
Beide Perspektiven gehören zusammen. Der Kontext, also Branche und Unternehmensgröße, prägt das strukturelle Umfeld eines Finanzteams. Die operative Haltung beschreibt die tatsächliche Arbeitsweise innerhalb dieses Umfelds. Zusammengenommen erklären sie, warum dieselben Empfehlungen, Produktansätze und Best Practices je nach Ausgangslage unterschiedlich wirken.
Abbildung 6 zeigt die Verteilung der operativen Haltungen über die Kontextsegmente hinweg und macht sichtbar, welcher Engpass jeweils dominiert. Vier Segmente weisen besonders klare Muster auf und erklären den Großteil der aktuellen Spannungen bei der Skalierung von KI im Finanzbereich. Die beiden übrigen — Dienstleistungsunternehmen im großen Maßstab und Unternehmen der Realwirtschaft im großen Maßstab — zeigen eine gemischtere Verteilung ohne klar dominierenden Engpass. Sie sind in Abbildung 6 der Vollständigkeit halber enthalten, werden im Folgenden jedoch nicht einzeln betrachtet.
Tech- und Dienstleistungsunternehmen, 50–250 Mitarbeitende
Diese Gruppe zeigt die stärkste Konzentration auf eine umsetzungsgetriebene Haltung. Die Teams agieren schnell, übernehmen neue Tools zügig und verfügen über weniger organisatorische Ebenen, die Entscheidungen bremsen. Diese Agilität geht jedoch oft mit einer schlankeren Compliance-Infrastruktur, kleineren Audit-Funktionen und weniger formalisierten Governance-Strukturen einher als in größeren Unternehmen. Das Ergebnis ist absehbar: Die Einführung verläuft schneller als die dafür nötigen Kontrollen. Die Skalierung verlangsamt sich, sobald Prüfer Nachvollziehbarkeit verlangen, das Unternehmen konsistente Freigabelogiken im großen Maßstab benötigt oder Kunden belastbare Prozessnachweise erwarten. Der Engpass liegt hier in der Governance-Mechanik, nicht in der Leistungsfähigkeit der Modelle.Regulierte Branchen und Realwirtschaft, 50–250 Mitarbeitende
Hier zeigt sich eine der überraschenderen Erkenntnisse der Daten. Die dominante Haltung ist Agent-first, control-later. Man könnte vermuten, dass KI-Begeisterung ohne klare Leitplanken vor allem in technologieaffinen, gut ausgestatteten Organisationen vorkommt. Die Daten zeigen ein anderes Bild: Kleinere Unternehmen in traditionellen und regulierten Branchen haben oft echte KI-Ambitionen, verfügen jedoch nicht über die operative Infrastruktur, um diese sicher umzusetzen. Schlanke Finanzteams, hohe Belastung im Tagesgeschäft, begrenzte Kapazitäten für Richtlinienarbeit und eine hohe Fehlersensibilität erschweren eine sichere Skalierung. KI skaliert in diesem Segment, wenn sie mit klar definierten Grenzen, integrierten Audit-Trails und bereits angelegter Ausnahmebehandlung eingeführt wird. Die Governance muss so schlank sein, dass ein kleines Team sie tragen kann, ohne zusätzlichen Aufwand zu erzeugen.Regulierte Branchen, 251+ Mitarbeitende
In diesem Segment zeigt sich eine deutliche Konzentration sowohl skalierter Anwender als auch governance-getriebener Skalierer. Das widerspricht der Annahme, Regulierung sei das zentrale Hindernis für KI-Fortschritt. Regulierte Umfelder verhindern Skalierung nicht – sie erzwingen eine kontrollierte Umsetzung. Diese Organisationen verfügen meist über stärkere Risikofunktionen, klarere Verantwortungsstrukturen und stärker formalisierten Richtlinien, was eine kontrollierte Einführung ermöglicht. Gleichzeitig arbeiten sie häufig mit gewachsenen Systemlandschaften, fragmentierten Daten über Einheiten hinweg und komplexen Reporting-Anforderungen. Governance beseitigt eine Hürde und legt eine andere offen. Der deutlichste Engpass in diesem Segment ist die Datenqualität – selbst bei hoher operativer Disziplin.Technologieunternehmen, 251+ Mitarbeitende
Diese Gruppe weist den höchsten Anteil skalierter Anwender auf. Größere Technologieunternehmen verfügen eher über die nötigen Fähigkeiten, Budgets und Integrationskapazitäten, um den vollständigen Stack umzusetzen. Gleichzeitig zeigt Abbildung 6, dass auch hier vollständige Einsatzbereitschaft nicht selbstverständlich ist. Einige Teams überholen ihre eigene Governance. Andere haben die Voraussetzungen geschaffen, aber noch nicht in die Umsetzung überführt. Der Kontext erleichtert den Aufbau des Gesamt-Stacks – automatisch entsteht er jedoch nicht.
Die beiden verbleibenden Segmente — Dienstleistungsunternehmen im großen Maßstab (Services, 251+) und Unternehmen der Realwirtschaft im großen Maßstab (Other industries, 251+) — zeigen keine vergleichbar eindeutige Konzentration eines einzelnen Engpasses. Ihre Verteilung ist gemischter und verbindet Governance-Defizite, Datenlücken und schrittweisen Fortschritt in ähnlichem Umfang. Das bedeutet nicht, dass kein Engpass besteht. Es bedeutet, dass er innerhalb dieser Gruppen weniger einheitlich ausgeprägt ist. Die passende Lösung variiert daher stärker von Organisation zu Organisation. Für diese Segmente wird die Diagnose im nächsten Abschnitt besonders wichtig.
Die praktische Einordnung über alle Segmente hinweg: In dynamischen Umfeldern ist Governance der dominante Engpass. In kleineren, traditionellen Kontexten liegt der Engpass in der Governance-Kapazität – also in der Fähigkeit, Kontrollen ohne eigene Funktion aufzubauen und aufrechtzuerhalten. In regulierten, größeren Kontexten verschiebt sich der Engpass zu den Daten, selbst wenn Governance bereits solide ist. In großen Technologieunternehmen ist vollständige Einsatzbereitschaft häufiger, hängt jedoch weiterhin von operativer Disziplin ab, um tatsächlich zu skalieren.
Deshalb ist die Skalierung von KI im Finanzbereich eine Frage der richtigen Reihenfolge. Der falsche Ansatz ist, überall dasselbe Transformationsmodell anzuwenden. Der richtige Ansatz ist, den dominanten Engpass im eigenen Kontext zu identifizieren und zuerst zu beheben, bevor weitere Fähigkeiten aufgebaut werden.
Was CFOs jetzt priorisieren sollten
Finanzteams geraten häufig ins Stocken, wenn sie weiter um den eigentlichen Engpass herum investieren, statt ihn direkt zu beheben.
Für Sie als CFO ist die entscheidende Frage: Welche Voraussetzung verhindert aktuell, dass ein konkreter Finanzprozess skaliert? Für einige Teams betrifft das die Governance – etwa Freigabekorridore, Eskalationsregeln und Audit-Trails, die es der KI ermöglichen, innerhalb kontrollierter Prozesse zu arbeiten. Für andere betrifft es die Daten – etwa Stammdaten, Transaktionshistorien und Organisationsstrukturen, die nötig sind, damit KI belastbare Ergebnisse liefert.
Die Kosten einer falschen Diagnose sind erheblich. Teams investieren in zusätzliche Tools, weitere Piloten oder zusätzliche Richtlinienebenen, während der eigentliche Prozess weiterhin nicht skaliert. Das verlangsamt den ROI, verlängert die Einführungszeit und führt dazu, dass der Finanzbereich mehr Aufgaben übernimmt, ohne mehr Kontrolle zu gewinnen.
KI im Finanzbereich entfaltet ihren größten Wert dort, wo sie in Genehmigungen, Richtlinienumsetzung, Ausnahmebehandlung und prüfungssichere Workflows eingebettet ist. Genau hier wird Orchestrierung entscheidend. Sie ermöglicht es, Prozesse voranzubringen und gleichzeitig die notwendigen Kontrollen aufrechtzuerhalten.
Konstantin sagt:
Für einen CFO ist das eine Frage der richtigen Reihenfolge. Wert entsteht, wenn Sie die eine Voraussetzung identifizieren, die einen realen Finanzprozess ausbremst, diese zuerst beheben und darauf aufbauen.
Die Bezeichnung „KI-Vorreiter“ umfasst heute mehr Vielfalt als früher. Unterschiedliche Vorreiter werden von unterschiedlichen Faktoren gebremst – und der Weg nach vorn ist nicht für alle gleich. Die Finanzteams, die jetzt am weitesten skalieren, sind diejenigen, die ihren spezifischen Engpass klar erkennen und frühzeitig handeln.
Die nächste Phase der KI im Finanzbereich wird von den Teams geprägt, die verstehen, was die Skalierung konkret bremst, diese Voraussetzung zuerst beheben und anschließend kontrolliert weiter vorgehen.
Wenn Sie sehen möchten, wie das in der Praxis funktioniert, entdecken Sie, wie Payhawk KI in realen Finanzprozessen einsetzt – mit integrierten Kontrollen, Audit-Trails und klarer Verantwortlichkeit. Sie sehen, wie Finanzteams von isolierten KI-Aktivitäten zu gesteuerter Umsetzung gelangen, ohne Genehmigungen, Richtlinienumsetzung und Prüfungsfähigkeit zu verlieren.
Methodik:
Auf Basis von abgestimmten Aussagen, die in enger Zusammenarbeit mit Finanz- und Business-Leitern entwickelt wurden, führte iResearch Interviews in acht Ländern durch, um reale operative Bedingungen und Herausforderungen abzubilden. Befragte: 1.520.
Abgedeckt wurden:
- Regionen: DACH, Spanien, Frankreich, Benelux, UK & Irland, Vereinigte Staaten
- Hierarchieebenen: C-Level, VPs, Direktoren und erfahrene Fachkräfte
- Funktionen: Finance, Accounting, Sales, HR, Procurement
- Branchen: Services, Digital, Manufacturing, Healthcare, Education & Non-profit, B2C
- Unternehmensgröße: 50–100 FTE, 101–250 FTE, 251–500 FTE, 501–1.000 FTE und 1.000+ FTE
Die fünf Skalierungsvoraussetzungen wurden jeweils auf einer Zustimmungsskala von 1 bis 7 bewertet. „Stark ausgeprägt“ entspricht Werten von 6–7 (den beiden höchsten Stufen). Dieser Schwellenwert wird in allen vier Berichten der Reihe konsistent angewendet.