Modul 4: Daten als Fundament für KI

In fast jedem KI-Projekt sind nicht die Modelle der Engpass, sondern die Daten. Sie liegen verteilt in Systemen, ihre Qualität schwankt, ihre Nutzung wirft rechtliche Fragen auf — und ob sie für einen geplanten Use Case ausreichen, weiß vor der Prüfung niemand verbindlich.

Modul 4 macht die Datenfrage zur eigenständigen Beratungsleistung. Wir mappen Ihre Datenlandschaft, bewerten Qualität gegen die konkrete Use-Case-Anforderung, empfehlen die passende Architektur (Data Lake, Lakehouse, Vector Store, RAG oder hybrid), klären die DSGVO-konforme Nutzung für KI-Training und bauen die Daten-Pipelines auf, die Ihren KI-Anwendungen den verlässlichen Treibstoff liefern.

Am Ende eines Modul-4-Mandats wissen Sie verbindlich, ob Ihre Daten für den geplanten Use Case reichen — oder welche konkreten Investitionen vorher nötig sind, in welcher Größenordnung und mit welchem Zeitbedarf.

Was Sie mitnehmen

Sie erhalten konkrete, greifbare Lieferergebnisse — keine Folien-Sammlungen, sondern Arbeitsgrundlagen, mit denen Ihre Teams weiterarbeiten können:

Eine Datenlandschafts-Karte — Visualisierung Ihrer Datenquellen und Systeme mit Eigentumsverhältnissen und Anbindung. Typisch 50 bis 500 Datenquellen, je nach Unternehmensgröße. Empfänger: IT-Leitung, Data Officer.
Einen Datenqualitäts-Bericht — Tiefenprüfung gegen Ihre konkrete Use-Case-Anforderung, mit Maßnahmenkatalog zur Behebung der gefundenen Lücken. Typisch 20 bis 40 Seiten plus Excel.
Eine Architektur-Empfehlung — verbindliche Aussage zur passenden Datenarchitektur für Ihren Use Case, inklusive Architektur-Diagramm und Investitionsrahmen. Typisch 15 bis 25 Seiten.
Ein DSGVO-Konzept für KI-Training — Rechtsgrundlagen, Anonymisierungs- und Pseudonymisierungs-Ansatz, Auftragsverarbeitungs-Lösung, Betriebsrats-Material. Typisch 12 bis 20 Seiten.
Eine lauffähige Daten-Pipeline — die konkrete technische Umsetzung mit Dokumentation, an Ihre IT-Architektur angebunden.
Eine Daten-Readiness-Bewertung — die verbindliche Antwort auf die Eingangsfrage: Reichen die Daten? Inklusive Go/No-Go-Empfehlung für den Use Case.

So arbeiten wir

Acht Schritte, die aufeinander aufbauen. Wir starten mit Ihrer konkreten Use-Case-Anforderung und liefern am Ende eine belastbare Aussage — kein abstraktes Daten-Audit ohne Anwendungsbezug.

Nr.	Schritt	Was passiert	Dauer
1	Daten-Anforderungs-Analyse	Welche Daten braucht der Use Case, in welcher Form und Qualität?	3–5 Tage
2	Datenlandschafts-Mapping	Inventarisierung der Datenquellen, Systeme, Eigentumsverhältnisse	1–3 Wochen
3	Datenqualitäts-Tiefenprüfung	Vollständigkeit, Aktualität, Konsistenz, Eindeutigkeit	1–2 Wochen
4	Architektur-Empfehlung	Data Lake, Lakehouse, Vector Store, RAG oder hybrid	1–2 Wochen
5	DSGVO-Konzept für KI-Training	Rechtsgrundlagen, Anonymisierung, Auftragsverarbeitung	2–3 Wochen
6	Pipeline-Aufbau	ETL- oder Embedding-Pipeline für den konkreten Use Case	3–8 Wochen
7	Daten-Readiness-Check	Reichen die Daten? Go oder No-Go als verbindliche Aussage	3–5 Tage
8	Übergabe an das Use-Case-Team	Strukturierte Übergabe an Modul 6 oder Modul 8	3–5 Tage

Gesamtdauer typisch zwölf bis zwanzig Wochen, je nach Datenlage und Use-Case-Tiefe.

Ein Mandat startet selten bei null. Wenn Sie schon eine Datenlandschafts-Karte oder ein DSGVO-Grundkonzept im Haus haben, steigen wir später ein und nutzen Vorhandenes. Wenn die Datenlage besonders heterogen ist (mehrere Geschäftsbereiche, viele Altsysteme, hybride Cloud-/On-Premise-Architekturen), planen wir mehr Zeit für die Schritte 2 und 3 ein.

Wann dieses Modul für Sie passt

Vier Situationen, in denen Modul 4 die richtige Antwort ist:

„Unser Use Case scheitert immer wieder an der Datenfrage.” Sie haben einen klaren KI-Use-Case und ein Tech-Team, das ihn bauen würde — aber jede Iteration kommt zurück mit der Aussage, dass die Daten nicht reichen oder nicht passen. Wir liefern die strukturierte Tiefenprüfung, die diese Diskussion einmal verbindlich klärt.

„Wir wissen nicht, ob unsere Daten für RAG ausreichen — oder ob wir erst aufbereiten müssen.” Sie wollen eine Wissens-Suche oder einen Dokumenten-Assistenten auf Ihren internen Daten aufbauen. Wir prüfen Inhalt, Struktur, Qualität, rechtliche Lage und Embedding-Tauglichkeit Ihrer Daten und empfehlen die passende Architektur.

„Unser Datenschutz und unsere IT widersprechen sich beim Thema KI-Training.” Sie kommen nicht weiter, weil die rechtliche Bewertung Ihre technischen Optionen einschränkt oder umgekehrt. Wir liefern ein DSGVO-Konzept, das beide Seiten gleichermaßen tragen können — inklusive Betriebsrats-tauglichem Material.

„Wir haben verschiedene Systeme — und kein klares Bild, woher die Daten für KI kommen sollen.” SAP, Salesforce, Dokumentenmanagement, Branchensoftware, dazu mehrere Datenbanken aus Akquisitionen. Wir machen den Daten-Schatz Ihres Unternehmens sichtbar und empfehlen, welche Quellen sich für welche KI-Use-Cases eignen.

Eine Situation, in der Modul 4 noch nicht das richtige Modul ist: Wenn Sie noch keinen konkreten Use Case haben, sondern eine breite Bestandsaufnahme suchen, ist Modul 1 (KI-Readiness) der bessere Einstieg. Modul 4 vertieft die Datendimension für einen bestimmten Anwendungsfall — die breite Reifegrad-Sicht liefert Modul 1.