Modul 4: Daten als Fundament für KI
In fast jedem KI-Projekt sind nicht die Modelle der Engpass, sondern die Daten. Sie liegen verteilt in Systemen, ihre Qualität schwankt, ihre Nutzung wirft rechtliche Fragen auf — und ob sie für einen geplanten Use Case ausreichen, weiß vor der Prüfung niemand verbindlich.
Modul 4 macht die Datenfrage zur eigenständigen Beratungsleistung. Wir mappen Ihre Datenlandschaft, bewerten Qualität gegen die konkrete Use-Case-Anforderung, empfehlen die passende Architektur (Data Lake, Lakehouse, Vector Store, RAG oder hybrid), klären die DSGVO-konforme Nutzung für KI-Training und bauen die Daten-Pipelines auf, die Ihren KI-Anwendungen den verlässlichen Treibstoff liefern.
Am Ende eines Modul-4-Mandats wissen Sie verbindlich, ob Ihre Daten für den geplanten Use Case reichen — oder welche konkreten Investitionen vorher nötig sind, in welcher Größenordnung und mit welchem Zeitbedarf.
Was Sie mitnehmen
Sie erhalten konkrete, greifbare Lieferergebnisse — keine Folien-Sammlungen, sondern Arbeitsgrundlagen, mit denen Ihre Teams weiterarbeiten können:
- Eine Datenlandschafts-Karte — Visualisierung Ihrer Datenquellen und Systeme mit Eigentumsverhältnissen und Anbindung. Typisch 50 bis 500 Datenquellen, je nach Unternehmensgröße. Empfänger: IT-Leitung, Data Officer.
- Einen Datenqualitäts-Bericht — Tiefenprüfung gegen Ihre konkrete Use-Case-Anforderung, mit Maßnahmenkatalog zur Behebung der gefundenen Lücken. Typisch 20 bis 40 Seiten plus Excel.
- Eine Architektur-Empfehlung — verbindliche Aussage zur passenden Datenarchitektur für Ihren Use Case, inklusive Architektur-Diagramm und Investitionsrahmen. Typisch 15 bis 25 Seiten.
- Ein DSGVO-Konzept für KI-Training — Rechtsgrundlagen, Anonymisierungs- und Pseudonymisierungs-Ansatz, Auftragsverarbeitungs-Lösung, Betriebsrats-Material. Typisch 12 bis 20 Seiten.
- Eine lauffähige Daten-Pipeline — die konkrete technische Umsetzung mit Dokumentation, an Ihre IT-Architektur angebunden.
- Eine Daten-Readiness-Bewertung — die verbindliche Antwort auf die Eingangsfrage: Reichen die Daten? Inklusive Go/No-Go-Empfehlung für den Use Case.
So arbeiten wir
Acht Schritte, die aufeinander aufbauen. Wir starten mit Ihrer konkreten Use-Case-Anforderung und liefern am Ende eine belastbare Aussage — kein abstraktes Daten-Audit ohne Anwendungsbezug.
| Nr. | Schritt | Was passiert | Dauer |
| 1 | Daten-Anforderungs-Analyse | Welche Daten braucht der Use Case, in welcher Form und Qualität? | 3–5 Tage |
| 2 | Datenlandschafts-Mapping | Inventarisierung der Datenquellen, Systeme, Eigentumsverhältnisse | 1–3 Wochen |
| 3 | Datenqualitäts-Tiefenprüfung | Vollständigkeit, Aktualität, Konsistenz, Eindeutigkeit | 1–2 Wochen |
| 4 | Architektur-Empfehlung | Data Lake, Lakehouse, Vector Store, RAG oder hybrid | 1–2 Wochen |
| 5 | DSGVO-Konzept für KI-Training | Rechtsgrundlagen, Anonymisierung, Auftragsverarbeitung | 2–3 Wochen |
| 6 | Pipeline-Aufbau | ETL- oder Embedding-Pipeline für den konkreten Use Case | 3–8 Wochen |
| 7 | Daten-Readiness-Check | Reichen die Daten? Go oder No-Go als verbindliche Aussage | 3–5 Tage |
| 8 | Übergabe an das Use-Case-Team | Strukturierte Übergabe an Modul 6 oder Modul 8 | 3–5 Tage |
Gesamtdauer typisch zwölf bis zwanzig Wochen, je nach Datenlage und Use-Case-Tiefe.
Ein Mandat startet selten bei null. Wenn Sie schon eine Datenlandschafts-Karte oder ein DSGVO-Grundkonzept im Haus haben, steigen wir später ein und nutzen Vorhandenes. Wenn die Datenlage besonders heterogen ist (mehrere Geschäftsbereiche, viele Altsysteme, hybride Cloud-/On-Premise-Architekturen), planen wir mehr Zeit für die Schritte 2 und 3 ein.
Wann dieses Modul für Sie passt
Vier Situationen, in denen Modul 4 die richtige Antwort ist:
„Unser Use Case scheitert immer wieder an der Datenfrage.” Sie haben einen klaren KI-Use-Case und ein Tech-Team, das ihn bauen würde — aber jede Iteration kommt zurück mit der Aussage, dass die Daten nicht reichen oder nicht passen. Wir liefern die strukturierte Tiefenprüfung, die diese Diskussion einmal verbindlich klärt.
„Wir wissen nicht, ob unsere Daten für RAG ausreichen — oder ob wir erst aufbereiten müssen.” Sie wollen eine Wissens-Suche oder einen Dokumenten-Assistenten auf Ihren internen Daten aufbauen. Wir prüfen Inhalt, Struktur, Qualität, rechtliche Lage und Embedding-Tauglichkeit Ihrer Daten und empfehlen die passende Architektur.
„Unser Datenschutz und unsere IT widersprechen sich beim Thema KI-Training.” Sie kommen nicht weiter, weil die rechtliche Bewertung Ihre technischen Optionen einschränkt oder umgekehrt. Wir liefern ein DSGVO-Konzept, das beide Seiten gleichermaßen tragen können — inklusive Betriebsrats-tauglichem Material.
„Wir haben verschiedene Systeme — und kein klares Bild, woher die Daten für KI kommen sollen.” SAP, Salesforce, Dokumentenmanagement, Branchensoftware, dazu mehrere Datenbanken aus Akquisitionen. Wir machen den Daten-Schatz Ihres Unternehmens sichtbar und empfehlen, welche Quellen sich für welche KI-Use-Cases eignen.
Eine Situation, in der Modul 4 noch nicht das richtige Modul ist: Wenn Sie noch keinen konkreten Use Case haben, sondern eine breite Bestandsaufnahme suchen, ist Modul 1 (KI-Readiness) der bessere Einstieg. Modul 4 vertieft die Datendimension für einen bestimmten Anwendungsfall — die breite Reifegrad-Sicht liefert Modul 1.
Verwandte Module
Modul 4 steht selten allein. Drei Verbindungen sind besonders wichtig:
- Modul 3 (Governance) klärt: Wer darf welche Daten wofür nutzen? Wenn Sie noch keine KI-Richtlinie haben, lohnt sich der Vorlauf in Modul 3, damit die rechtliche Lage geklärt ist, bevor wir technisch werden.
- Modul 6 (Use-Case-Entwicklung) nutzt unsere Ergebnisse als Eingang. Wenn Ihr Use Case noch nicht spezifiziert ist, bauen Modul 6 und Modul 4 typischerweise im Tandem — Use-Case-Spezifikation und Daten-Readiness entstehen parallel.
- Modul 7 (KI-Betrieb) übernimmt die Pipelines im produktiven Betrieb. Wir bauen die Pipeline auf — Modul 7 hält sie stabil, überwacht Datenqualität im Live-Betrieb und kümmert sich um Drift-Erkennung.
