Datenstrategie — Was Unternehmen bei Daten klären müssen, bevor sie KI einführen
Einordnung und Quellenlogik
Dieser Leitfaden ist eine unternehmerische Entscheidungs- und Umsetzungsgrundlage für KMU. Er ersetzt keine individuelle Rechts-, Steuer-, Datenschutz- oder IT-Sicherheitsberatung. Gerade bei personenbezogenen Daten, Mitarbeiterdaten, Hochrisiko-KI, Berufsgeheimnissen oder Betriebsratsfragen sollte die finale Bewertung durch die jeweils zuständige Fachperson erfolgen.
Begriffsschärfe in diesem Dokument:
- ● Gesetzliche Pflicht — ausdrücklich oder unmittelbar aus Gesetz, Verordnung oder verbindlicher behördlicher Vorgabe ableitbar.
- ● Rechtliche Risikozone — nicht pauschal verboten, aber nur mit sauberer Rechtsgrundlage, Dokumentation, Verträgen und Verantwortlichkeiten vertretbar.
- ● Best Practice — fachlich sinnvoll, aber nicht in jedem Fall gesetzlich vorgeschrieben.
- ● Praktische Empfehlung — pragmatische Handlungsempfehlung für KMU, damit Unternehmer nach dem Durchgehen dieses Leitfadens konkrete nächste Schritte ableiten können.
Quellenlogik: Die im Text verlinkten Quellen verweisen nach Möglichkeit direkt auf Studien, Behördeninformationen, Gesetzestexte, Anbieterbedingungen oder dokumentierte Fälle.
Verständlichkeitsprinzip
Dieser Leitfaden verwendet Fachbegriffe nur dort, wo sie für eine Entscheidung wirklich nötig sind. Beim ersten Auftreten werden sie möglichst einfach erklärt. Wenn ein Begriff juristisch, technisch oder englisch klingt, gilt immer die praktische Frage: Was bedeutet das für mein Unternehmen konkret?
Die wichtigste Regel beim Lesen: Sie müssen nicht jeden Paragrafen oder jede technische Abkürzung auswendig kennen. Sie sollen erkennen, wo ein Risiko liegt, welche Mindestmaßnahme sinnvoll ist und wann externe Prüfung nötig wird.
KMU-Minipfad: Datenstrategie in 2 Stunden starten
- Listen Sie die 5 wichtigsten Systeme auf, in denen Unternehmensdaten liegen: CRM, ERP, Buchhaltung, E-Mail, Excel/Drive/SharePoint.
- Wählen Sie einen einzigen KI-Anwendungsfall aus und markieren Sie, welche Daten dafür wirklich nötig wären.
- Prüfen Sie bei 20 zufälligen Datensätzen, ob Pflichtfelder, Aktualität und eindeutige Kundennummern stimmen.
- Erstellen Sie ein kleines Data Dictionary für die 20 wichtigsten Felder.
- Benennen Sie pro System einen Datenverantwortlichen.
- Entscheiden Sie, welche Daten niemals in externe KI-Tools eingegeben werden dürfen.
Mini-Glossar: Begriffe in diesem Modul
Warum Daten oft das eigentliche KI-Projekt sind
Viele Unternehmer glauben, das Schwierigste an KI sei die Technologie. Die falsche KI kaufen, den falschen Anbieter wählen, die falsche Strategie verfolgen. Diese Angst ist verständlich, aber sie trifft den falschen Punkt.
Eine der häufigsten Hürden ist dieselbe: Daten.
Je nach Studie, Projektart und Messmethode scheitert ein großer Anteil von KI-Initiativen oder bleibt ohne messbaren Geschäftswert. Besonders Projekte, die ohne klare Datenbasis und ohne Prozessintegration starten, erreichen häufig nicht den produktiven Nutzen. Einer der Hauptgründe: schlechte Datenqualität — nicht zu wenig Budget, nicht die falsche Technologie. Gartner prognostiziert, dass bis Ende 2026 rund 60 Prozent der KI-Projekte aufgegeben werden, deren Datenbasis nicht KI-tauglich ist (Gartner, Februar 2025).
Dieses Modul führt Sie durch die fünf wichtigsten Datenbereiche, die Sie klären müssen, bevor Sie Ihre erste KI-Lösung einführen. Kein Technologie-Sprech. Nur was in der Praxis wirklich entscheidet.
1.1 Datensilos aufbrechen
Was sind Datensilos?
Daten, die nicht miteinander sprechen. Informationen, die zwar im Unternehmen vorhanden sind — aber so verteilt, dass niemand das volle Bild sieht. Ihr CRM enthält Kundendaten. Ihr ERP enthält Bestelldaten. Ihre Buchhaltung läuft in einer eigenen Software. Der Außendienst pflegt Excel-Tabellen. Und in den E-Mail-Postfächern Ihrer Mitarbeiter stecken wichtige Informationen, die nirgends sonst auftauchen.
Das ist ein Datensilo. Und fast jedes KMU in Deutschland und Österreich hat dieses Problem.
Abb. 1 — Isolierte Datensilos: CRM, ERP, E-Mail und Tabellen als getrennte Dateninseln
Warum Datensilos das größte KI-Hindernis in KMU sind
KI-Systeme können nur mit Informationen arbeiten, die ihnen als Trainingsdaten, Kontext, Datenbankzugriff oder Schnittstelle tatsächlich zur Verfügung stehen. Eine KI, die Ihre Absatzprognose verbessern soll, aber keinen Zugriff auf Ihre historischen Verkaufsdaten, Ihre Lagerbestände und Ihre CRM-Daten hat, wird scheitern. Nicht weil die KI schlecht ist, sondern weil sie blind ist.
Das Problem mit Silos ist nicht nur technisch. Es ist unternehmerisch. Wenn Ihre Vertriebsleitung nicht weiß, was Ihre Produktion weiß — und Ihre KI dasselbe fragmentierte Bild bekommt — dann automatisiert die KI nicht Ihre Abläufe. Sie automatisiert Ihre Wissenslücken.
Abb. 2 — Garbage In, Garbage Out: Schlechte Daten führen zu schlechten KI-Ergebnissen
In den zugrunde liegenden Forschungsberichten zur KI-Einführung im Mittelstand taucht dieses Problem wiederholt auf: Unternehmer unterschätzen die Kosten für die Aufbereitung der eigenen Daten, damit KI überhaupt damit arbeiten kann. Diese Aufbereitung ist keine einmalige Aktion — sie ist oft das größte Projektkapitel überhaupt.
- KI-Modelle liefern Prognosen auf Basis unvollständiger Informationen — und das merken Sie oft erst nach Monaten.
- Integrationsprobleme verlängern Projekte und treiben Kosten in die Höhe. Laut dem MuleSoft Connectivity Benchmark Report 2025 (Befragung von 1.050 IT-Führungskräften) haben 95 Prozent Schwierigkeiten, Daten über ihre Systeme hinweg zu integrieren — 80 Prozent nennen Datenintegration als zentrales Hindernis für KI-Vorhaben (Quelle).
- Mitarbeiter entwickeln parallele Lösungen und Schatten-KI entsteht — sie nutzen dann private Tools wie ChatGPT, weil die offiziellen Systeme nicht verbunden sind.
- Das Vertrauen in KI-Ergebnisse schwindet, wenn Mitarbeiter merken, dass wichtige Datenbereiche fehlen.
Konkrete Schritte zur Silo-Auflösung — ohne große IT-Investition
1. Inventur der eigenen Datensysteme machen.
Schreiben Sie auf, welche Systeme in Ihrem Unternehmen Daten enthalten: CRM, ERP, Buchhaltungssoftware, E-Commerce-System, Excel-Tabellen, E-Mail-Archive. Keine technische Analyse — nur eine ehrliche Liste. Diese Liste zeigt Ihnen sofort, wo die Silos sind.
2. Den "goldenen Datensatz" definieren.
Welche Daten brauchen Sie wirklich für Ihren ersten KI-Anwendungsfall? Wenn Sie z.B. den Kundenservice verbessern wollen, brauchen Sie Kundendaten und Servicedaten. Fokussieren Sie die Integration auf genau diesen Bereich — nicht auf alles gleichzeitig.
3. Einen gemeinsamen Datenpunkt finden.
Fast jedes System hat ein Feld, das als Brücke dienen kann: die Kundennummer, die Bestellnummer, die Artikelnummer. Über diese Schlüsselfelder lassen sich Systeme verbinden — oft ohne große IT-Projekte.
4. Mit einem günstigen ETL-Tool starten.
ETL steht für Extract, Transform, Load — also Daten holen, aufbereiten und zusammenführen. Für KMU ohne IT-Abteilung gibt es inzwischen einfache und bezahlbare Lösungen.
5. Datenverantwortliche benennen.
Für jedes System sollte eine Person im Unternehmen verantwortlich sein — nicht für die Technik, sondern für die Qualität und Aktualität der Daten. Das ist oft wichtiger als jedes Tool.
6. Klein anfangen und skalieren.
Verbinden Sie zunächst zwei Systeme, nicht alle. Wenn der Pilot funktioniert, erweitern Sie schrittweise. Die größten Fehler entstehen, wenn man versucht, alles auf einmal zu lösen.
Günstige Tools für KMU ohne IT-Abteilung
- Zapier (ab ca. 20 Euro/Monat) — Verbindet Hunderte von Business-Apps ohne Programmierung. Ideal für einfache Datenflüsse zwischen CRM, E-Mail und Buchhaltung.
- Make (ehemals Integromat, ab ca. 9 Euro/Monat) — Ähnlich wie Zapier, aber flexibler für komplexere Abläufe.
- n8n (Open Source, kostenlos für Selbst-Hosting) — Besonders interessant für datenschutzbewusste Unternehmen, da es auf eigenen Servern betrieben werden kann.
- Microsoft Power Automate (im Microsoft 365-Abo enthalten) — Wer bereits Microsoft-Produkte nutzt, hat dieses Tool bereits bezahlt.
- Airtable (ab 20 Euro/Monat) — Für KMU, die Excel ersetzen und Daten strukturieren wollen, ohne eine komplexe Datenbank aufzubauen.
1.2 Datenqualität sicherstellen
Was bedeutet Datenqualität konkret?
Datenqualität ist kein abstraktes Konzept. Es geht um vier ganz konkrete Eigenschaften jedes Datensatzes:
Sind alle Felder ausgefüllt? Fehlen Kundennummern, Postleitzahlen, Datumsangaben?
Wird dasselbe Konzept überall gleich geschrieben? "Österreich", "AT", "Austria" — alles dasselbe Land, aber drei verschiedene Einträge in Ihrer Datenbank. KI-Systeme behandeln diese als unterschiedliche Werte.
Sind die Daten noch gültig? Lieferantenadressen von 2018. Kundendaten von Personen, die längst woanders arbeiten. Produkte, die schon abgekündigt wurden.
Stimmen die Daten inhaltlich? Falsche Preise. Vertauschte Vornamen. Bestellungen mit unmöglichen Mengenangaben.
Die "Garbage In, Garbage Out"-Falle bei KI
In der Softwareentwicklung gibt es einen alten Grundsatz: Garbage In, Garbage Out. Was rein kommt, kommt raus. Bei klassischer Software fällt schlechte Datenqualität schnell auf — das Programm stürzt ab, eine Fehlermeldung erscheint.
Bei KI ist das anders. KI lernt aus Mustern. Wenn die Muster falsch sind, lernt die KI die falschen Dinge — und gibt trotzdem selbstbewusst klingende Antworten. Ein Vertriebsprognose-Modell, das auf jahrelang falsch gepflegten CRM-Daten trainiert wurde, liefert Prognosen. Die Prognosen klingen plausibel. Aber sie spiegeln die Vorurteile und Fehler Ihrer Mitarbeiter wider, nicht die Marktrealität.
Schlechte Datenqualität ist einer der am häufigsten genannten Gründe für das Scheitern von KI-Projekten: Laut einer globalen Erhebung von Precisely und der Drexel University halten nur 12 Prozent der Unternehmen ihre Daten für ausreichend, um KI effektiv einzusetzen (Precisely / Drexel University). Das ist keine technische Einschränkung, die in zwei Jahren durch bessere Algorithmen gelöst wird. Das ist ein menschliches und organisatorisches Problem, das aktiv angegangen werden muss.
Wie führt man einen einfachen Datenqualitäts-Audit durch?
Sie brauchen dafür keine Datenbank-Experten. Folgende vier Schritte reichen für den Anfang:
Schritt 1: Stichproben-Analyse.
Nehmen Sie 100 zufällige Datensätze aus Ihrer wichtigsten Datenquelle (meist CRM oder ERP). Öffnen Sie diese manuell. Wie viele haben leere Felder? Wie viele wirken veraltet? Wie viele enthalten offensichtliche Fehler? Diese Zahl hochgerechnet gibt Ihnen eine grobe Fehlerquote.
Schritt 2: Konsistenz-Check.
Schauen Sie sich die Einträge für Länder, Kategorien, Statusfelder an. Wird "Deutschland" mal als "DE", mal als "Deutschland", mal als "D" geschrieben? Das sind Konsistenzprobleme, die KI-Modelle massiv verwirren.
Schritt 3: Vollständigkeits-Check.
Zählen Sie für jedes wichtige Feld (z.B. E-Mail-Adresse, Postleitzahl, Bestelldatum), wie viel Prozent der Datensätze ausgefüllt sind. Unter 80 Prozent Vollständigkeit ist für die meisten KI-Anwendungen problematisch.
Schritt 4: Plausibilitäts-Check.
Gibt es Bestellungen mit negativen Mengen? Kunden, die laut System 150 Jahre alt sind? Umsätze in unmöglicher Höhe? Diese offensichtlichen Fehler zeigen Ihnen, wie diszipliniert die Datenpflege bisher war.
Plausibles Risikoszenario: Ein KI-Projekt scheitert an schlechten Daten
Ein Handelsunternehmen mit 80 Mitarbeitern investierte in ein KI-gestütztes Sales-Forecasting-System. Die KI sollte den Vertriebsleitern wöchentliche Absatzprognosen liefern. Das System wurde von einem externen Anbieter implementiert, lief technisch einwandfrei — und wurde nach sechs Monaten still abgeschaltet.
Warum? Die Vertriebsmitarbeiter hatten über Jahre ihre CRM-Einträge strategisch gepflegt: niedrige Abschlusswahrscheinlichkeiten, um Erwartungen zu dämpfen ("Sandbagging"). Spätere Abschlussdaten als realistische Schätzungen. Lücken bei Kontaktdaten, die das Reporting nicht störten, aber die KI blind machten.
Das Modell hatte gelernt, was die Mitarbeiter eingegeben hatten — nicht was der Markt tat. Die Prognosen wichen systematisch von der Realität ab. Das Vertrauen war nach drei Monaten zerstört. Nach sechs Monaten wurde das Projekt eingestellt.
Kosten: Lizenzgebühren, Implementierungskosten, interne Arbeitszeit. Keine Wertschöpfung. Und das Problem — die schlechten Daten — bestand weiter.
Dieses Muster ist typisch für viele Forecasting-Projekte: Das Problem liegt oft nicht in der Mathematik des Algorithmus, sondern in der Qualität, Aktualität und Verlässlichkeit der zugrunde liegenden CRM-Daten.
Schnelle Maßnahmen zur Verbesserung der Datenqualität
- Dateneingabe standardisieren: Pflichtfelder in CRM und ERP definieren. Dropdown-Menüs statt Freitextfelder, wo immer möglich. Das verhindert neue Fehler ohne zusätzlichen Aufwand.
- Validierungsregeln aktivieren: Die meisten CRM-Systeme bieten Validierungsregeln (z.B. "E-Mail muss @-Zeichen enthalten"). Diese müssen einmalig konfiguriert werden — dann werden Fehler bei der Eingabe automatisch verhindert.
- Bereinigungssprints einplanen: Ein wöchentlicher Termin von einer Stunde, in dem das Team gezielt Datenfehler in einem bestimmten Bereich bereinigt. Klein, regelmäßig, wirkungsvoll.
- Datenqualität messen und sichtbar machen: Was nicht gemessen wird, verbessert sich nicht. Ein einfaches Dashboard (z.B. in Microsoft Power BI oder Google Looker Studio), das die Vollständigkeitsquote wichtiger Felder anzeigt, schafft Bewusstsein und Verantwortung.
- Incentives setzen: Mitarbeiter, die Daten schlecht pflegen, haben meist keinen Anreiz, es besser zu machen. Wenn gute Datenpflege Teil der Teamziele oder zumindest im Team-Review sichtbar ist, ändert sich das Verhalten.
1.3 Datenherkunft und -eigentum klären
Wem gehören welche Daten?
Das klingt nach einer rechtlichen Frage — ist es auch, aber nicht nur. Wer wirklich verstehen will, welche Daten er für KI nutzen kann, muss zunächst klären, woher die Daten kommen und wer die Entscheidungsgewalt über sie hat.
Es gibt vier grundlegende Datenkategorien in jedem KMU:
Name, Kontakt, Kaufhistorie, Kommunikation, Verhaltensdaten. Juristisch geht es dabei nicht um „Eigentum" an Daten, sondern um Betroffenenrechte, Zweckbindung und Rechtsgrundlagen nach DSGVO. Das Unternehmen darf personenbezogene Kundendaten nur für definierte Zwecke und auf einer tragfähigen Rechtsgrundlage verarbeiten.
Gehaltsabrechnungen, Krankmeldungen, Leistungsbeurteilungen, Kommunikation. Hochsensibel, stark reguliert. Für KI fast nie frei nutzbar ohne besondere Rechtsgrundlage und — in Deutschland — Betriebsratsbeteiligung.
Maschinenlaufzeiten, Produktionsprotokolle, Qualitätsdaten, Logistikdaten. Diese Daten sind oft das wertvollste KI-Asset eines produzierenden Unternehmens — und werden häufig gar nicht genutzt, weil sie in OT-Silos (Operational Technology) festsitzen.
Marktdaten, Wettbewerberinformationen, öffentliche Statistiken, eingekaufte Daten von Datenanbietern. Hier gelten Lizenzvereinbarungen, die genau festlegen, was erlaubt ist — und die oft zu wenig beachtet werden.
Datenherkunft dokumentieren: Warum ist das für KI-Modelle rechtlich wichtig?
Der EU AI Act — seit August 2024 in Kraft, mit schrittweise geltenden Pflichten seit Februar 2025 (vollständige Fristenübersicht in Modul 3) — erhöht die Anforderungen an Transparenz, Nachvollziehbarkeit und Risikomanagement. Besonders bei Hochrisiko-Systemen müssen Datenherkunft, Datenqualität, Rechtsgrundlagen und Nutzungskontext belastbar dokumentiert werden. Auch außerhalb formaler Hochrisiko-Pflichten ist diese Dokumentation Best Practice.
Das ist keine theoretische Anforderung. Wer KI-Systeme mit höherem Risiko einsetzt (z.B. in HR, Kreditbewertung oder Sicherheitsbereichen), muss das nachweisen können. Ohne Dokumentation der Datenherkunft fehlt die Grundlage für die Compliance.
Aber auch abseits der Regulierung gibt es einen pragmatischen Grund: KI-Modelle sind nur so gut wie die Qualität der Daten, mit denen sie trainiert wurden. Wenn Sie nicht wissen, woher Ihre Trainingsdaten kommen, wissen Sie auch nicht, welche Verzerrungen (Bias), Lücken und Fehler in Ihrem Modell stecken könnten. Und Sie können auch nicht erklären, warum das Modell bestimmte Entscheidungen trifft.
Was ist ein Data Dictionary — und braucht ein KMU das?
Ein Data Dictionary ist im Kern eine Tabelle, die erklärt, was jedes Datenfeld in Ihren Systemen bedeutet. Klingt trivial. Ist es in der Praxis nicht.
Nehmen Sie ein einfaches Beispiel: Das Feld "Status" im CRM. Was bedeutet "Aktiv"? Heißt das, der Kunde hat in den letzten 12 Monaten gekauft? Oder dass er im Newsletter angemeldet ist? Oder dass sein Vertrag noch läuft? Wenn verschiedene Mitarbeiter verschiedene Interpretationen haben, sind Ihre Daten unbrauchbar für KI — selbst wenn alle Felder ausgefüllt sind.
Braucht ein KMU ein Data Dictionary? Ja — aber in einer pragmatischen Form. Kein 50-seitiges Dokument. Stattdessen eine einfache Tabelle (z.B. in Excel oder Notion) mit drei Spalten:
- Feldname
- Was es bedeutet (präzise Definition)
- Wo es herkommt (welches System, wer pflegt es)
Für die wichtigsten 20 bis 30 Felder der kritischsten Datensysteme reicht das für den Anfang. Das verhindert die häufigsten Missverständnisse zwischen Mensch und KI.
Welche Daten darf ich für KI nutzen, welche nicht?
Die kurze, aber unbefriedigende Antwort lautet: Es kommt darauf an. Die praktischere Orientierung:
Die praktische Empfehlung: Holen Sie für Ihren konkreten Anwendungsfall eine Einschätzung vom Datenschutzbeauftragten ein. Das kostet eine Stunde — und verhindert teure Fehler.
Praktische Checkliste: Dateneigentümerschaft klären (10 Fragen)
- Woher kommen diese Daten ursprünglich?
- Wer hat diese Daten erhoben — wir oder ein Dritter?
- Auf welcher Rechtsgrundlage wurden die Daten erhoben (Einwilligung, Vertrag, berechtigtes Interesse)?
- Für welchen Zweck wurden die Daten ursprünglich erhoben?
- Stimmt der KI-Einsatz mit diesem ursprünglichen Zweck überein?
- Sind diese Daten personenbezogen im Sinne der DSGVO?
- Gibt es einen Auftragsverarbeitungsvertrag (AVV) mit dem Anbieter, der die Daten verarbeiten soll?
- Wo werden die Daten gespeichert — in der EU oder außerhalb?
- Wie lange dürfen wir die Daten nutzen (Aufbewahrungsfristen, Löschpflichten)?
- Wer in unserem Unternehmen ist verantwortlich für diese Datenkategorie?
1.4 KI-Inventar erstellen
Was ist ein KI-Inventar — und warum ist es notwendig?
Ein KI-Inventar ist eine systematische Liste aller KI-Systeme, die in Ihrem Unternehmen eingesetzt werden. Nicht nur die offensichtlichen — wie ein neu eingeführter KI-Chatbot. Sondern auch die versteckten, die oft übersehen werden.
Warum ist das notwendig? Nicht jedes Unternehmen braucht in jedem Fall ein formal gleich ausgestaltetes KI-Inventar. Praktisch ist es aber die Grundlage jeder Steuerung: Wer nicht weiß, welche KI-Systeme offiziell oder inoffiziell eingesetzt werden, kann Transparenz-, Datenschutz-, Sicherheits- und AI-Act-Pflichten nicht verlässlich prüfen. Für Hochrisiko-Systeme wird eine deutlich strengere Dokumentation erforderlich.
Aber auch abseits der Regulierung hat das KI-Inventar einen praktischen Wert: Es schafft Klarheit, wer welche Daten mit welchen Systemen verarbeitet. Das ist die Grundlage für jede informierte Entscheidung über KI-Einsatz und Datenstrategie.
Was gehört ins Inventar? Die versteckten KI-Tools
Viele Unternehmer unterschätzen massiv, wie viele KI-Systeme bereits im Einsatz sind. KI steckt nicht nur in explizit als "KI" vermarkteten Lösungen. Sie findet sich auch in:
- Microsoft 365 Copilot, Word-Autokorrektur, Excel-Analyse-Funktionen
- Spam-Filter im E-Mail-System (heute fast immer KI-basiert)
- Chatbots auf der eigenen Website
- KI-gestützter Buchhaltungssoftware (z.B. automatische Belegzuordnung in Lexware, DATEV, Sage)
- Bewerbermanagement-Software mit automatisiertem Ranking
- CRM-Systemen mit Prognose-Funktionen (Salesforce, HubSpot)
- Suchmaschinenoptimierungs-Tools mit KI-Content-Erstellung
- Übersetzungs-Tools (DeepL, Google Translate)
- Bildbearbeitungs-Tools mit KI-Funktionen (Canva, Adobe)
Wie erstellt man ein KI-Inventar — Schritt für Schritt
Schritt 1: Bestandsaufnahme per Mitarbeiterbefragung.
Fragen Sie alle Abteilungen: "Welche Software-Tools nutzt ihr, die automatisch Vorschläge macht, Texte generiert oder Entscheidungen unterstützt?" Nicht-technische Formulierung ist wichtig — "KI" wird sonst zu eng interpretiert, und wichtige Tools werden nicht genannt.
Schritt 2: Software-Lizenzen durchsehen.
Gehen Sie alle Software-Abonnements durch. Viele Business-Software-Anbieter haben in den letzten zwei Jahren KI-Funktionen integriert, ohne das groß zu kommunizieren. Schauen Sie in die Release-Notes oder fragen Sie den Anbieter direkt: "Hat Ihre Software KI-Funktionen? Werden dabei Daten an externe Server übermittelt?"
Schritt 3: IT-Infrastruktur prüfen.
Gibt es Browser-Erweiterungen, die Mitarbeiter installiert haben? Welche APIs sind an Ihre Systeme angebunden? Auch das kann KI enthalten.
Schritt 4: Einordnen und priorisieren.
Ordnen Sie jedes identifizierte System einer Risikokategorie zu (gering, mittel, hoch) nach den Kriterien des EU AI Act. Systeme mit hohem Risiko (z.B. HR-Entscheidungen, automatisierte Bonitätsprüfungen) müssen zuerst genauer dokumentiert werden.
Schritt 5: Inventar in die Verantwortung eines Menschen geben.
Eine Person muss für die Pflege des Inventars zuständig sein. Das muss kein IT-Experte sein — es reicht eine administrative Kraft, die das Inventar halbjährlich aktualisiert und neue Tools beim Onboarding prüft.
Einfache Vorlage: KMU-KI-Inventar (6 Spalten)
| KI-System | Anbieter | Zweck/Funktion | Genutzte Daten | Risikoklasse | Verantwortlich |
|---|---|---|---|---|---|
| Microsoft Copilot | Microsoft | E-Mails, Dokumente, Zusammenfassungen | E-Mails, Dokumente, Teams-Nachrichten | ● Mittel | IT-Leiter |
| HubSpot CRM (Forecast) | HubSpot | Lead-Scoring, Absatzprognosen | Kundendaten, Verkaufshistorie | ● Mittel | Vertriebsleitung |
| Spam-Filter (Google Workspace) | E-Mail-Filterung | E-Mail-Inhalte | ● Gering | IT-Leiter | |
| ChatGPT (privat, Mitarbeiter) | OpenAI | Texterstellung, Recherche | Unklar — Regelung erforderlich | ● Hoch | Geschäftsführung |
| DATEV (Belegzuordnung) | DATEV | Automatische Buchung | Bankdaten, Belege | ● Gering | Buchhaltung |
| DeepL Pro | DeepL | Übersetzungen | Unternehmenstexte, Kundenkommunikation | ● Mittel | Alle Abteilungen |
Wie hält man das Inventar aktuell?
- Halbjährliche Überprüfung fest einplanen: Welche neuen Tools sind hinzugekommen? Welche wurden abgeschaltet?
- Bei jeder neuen Software-Einführung prüfen: Hat dieses Tool KI-Funktionen? Werden Daten an externe Server gesendet?
- Onboarding-Prozess anpassen: Neue Mitarbeiter fragen beim Start, welche KI-Tools sie bisher beruflich genutzt haben.
- Newsletter des Datenschutzbeauftragten oder einer Fachorganisation abonnieren — die regulatorischen Anforderungen entwickeln sich schnell.
1.5 Entscheidung: Eigene Daten vs. Cloud-Modelle
Die drei Wege: Public Cloud KI / Private Cloud / Lokale Installation
Wenn Sie KI einführen, müssen Sie entscheiden: Wo werden meine Daten verarbeitet? Es gibt drei grundlegende Optionen, jede mit eigenen Vor- und Nachteilen.
Beispiele: ChatGPT (OpenAI), Google Gemini, Microsoft Copilot, Anthropic Claude.
Ihre Daten werden an Server des Anbieters gesendet, dort verarbeitet und eine Antwort zurückgeschickt. Einfachste Option, schnellste Implementierung, niedrigste Einstiegshürde. Aber: Daten verlassen Ihre eigene Infrastruktur. Ob Eingaben für Modellverbesserung oder Training genutzt werden, hängt vom konkreten Produkt, Tarif, Vertrag und den aktivierten Datenschutzeinstellungen ab.
Beispiele: Microsoft Azure OpenAI Service, AWS Bedrock, Google Vertex AI mit privaten Modellen.
Technisch ähnlich wie Public Cloud, aber mit Vertrag: Der Anbieter verpflichtet sich vertraglich, Ihre Daten nicht für das Training seiner Modelle zu nutzen. Daten befinden sich in einer dedizierten Umgebung, meist innerhalb der EU. Teurer als Public Cloud, aber deutlich sicherer für sensible Daten.
Beispiele: Llama (Meta, Open Source), Mistral (teilweise Open Source), lokale Instanzen mit Tools wie Ollama oder LM Studio.
Das KI-Modell wird auf Ihren eigenen Servern oder Computern betrieben. Daten verlassen Ihr Unternehmen nicht. Höchstes Datenschutzniveau, aber höchster technischer Aufwand. Für KMU ohne IT-Abteilung eine Herausforderung — aber machbar mit externer Unterstützung.
Was bedeuten diese Optionen für Datenschutz, Kosten und Performance?
| Kriterium | Public Cloud | Private Cloud | Lokal |
|---|---|---|---|
| Datenschutz-Risiko | ● Hoch (ohne Enterprise-Vertrag) | ● Mittel | ● Gering |
| Einrichtungskosten | Gering | Mittel | Hoch |
| Laufende Kosten | Variabel (per Nutzung/Token) | Fest + variabel | Strom + Hardware-Abschreibung |
| Technischer Aufwand | Gering | Mittel | Hoch |
| Performance | Sehr hoch (aktuelle Spitzenmodelle) | Hoch | Mittel (abhängig von Hardware) |
| DSGVO-Konformität | Nur bei passender Rechtsgrundlage, AVV/DPA, Transferprüfung und korrekten Einstellungen | Nur bei passender Vertrags-, Sicherheits- und Berechtigungsgestaltung | Auch lokal nur bei korrekter Verarbeitung, Zugriffsschutz und Löschkonzept |
| Geeignet für | Interne Tests, nicht-sensible Daten | Kundendaten, strategische Daten | Hoch sensible Daten, kritische Prozesse |
Entscheidungsmatrix: Wann was für welches KMU?
Public Cloud KI ist geeignet, wenn:
- Sie ausschließlich nicht-sensible, anonymisierte oder öffentliche Daten verarbeiten.
- Sie schnell starten wollen und zunächst mit allgemeinen Texten und Inhalten arbeiten.
- Budget und Technik-Ressourcen begrenzt sind.
- Sie einen Enterprise-Plan mit Datenschutzvertrag und EU-Datenspeicherung abschließen.
Private Cloud KI ist geeignet, wenn:
- Sie Kundendaten oder strategisch sensible Informationen mit KI verarbeiten wollen.
- DSGVO-Konformität nicht verhandelbar ist.
- Sie Microsoft, Google oder AWS bereits nutzen (einfachste Erweiterung).
- Budget vorhanden ist für höhere Lizenzkosten.
Lokale KI-Installation ist geeignet, wenn:
- Sie mit hochsensiblen Daten arbeiten (Patientendaten, Produktionsdaten, Finanzmodelle).
- Datensouveränität Ihr wichtigstes Kriterium ist.
- Sie eine IT-Abteilung oder einen technisch kompetenten Dienstleister haben.
- Sie langfristig Kosten sparen wollen und den höheren Initialaufwand in Kauf nehmen.
Die Rolle von RAG — eigene Wissensbasis ohne Cloud-Risiko
RAG steht für Retrieval-Augmented Generation. Das klingt nach einem IT-Fachbegriff — dahinter steckt aber ein Konzept, das für KMU besonders relevant ist.
Wichtig für den Datenschutz: Ihre Dokumente verlassen dabei nicht unbedingt Ihre Infrastruktur. Bei lokalen oder sauber konfigurierten Private-Cloud-RAG-Lösungen können Informationen innerhalb einer kontrollierten Umgebung bleiben. Die KI fungiert dann eher als intelligente Such- und Antwortschicht über Ihre eigenen Dokumente — aber nur, wenn Berechtigungen, Aktualität, Logging und Datenqualität stimmen.
Abb. 3 — Retrieval-Augmented Generation: KI durchsucht erst Ihre Dokumente, dann antwortet sie
Drei Praxisbeispiele für RAG
- Handwerksbetrieb: Eine RAG-Lösung über Montageanleitungen. Techniker können natürlichsprachliche Fragen stellen wie "Wie tausche ich beim Modell X die Dichtung aus?" und erhalten korrekte Antworten aus dem echten Handbuch — auch nachts, auch in der Werkstatt vom Smartphone aus.
- Versicherungsagentur: Produktdatenbank mit RAG verbunden. Mitarbeiter können Fragen zu Policen und Tarifen stellen, ohne lange im Handbuch suchen zu müssen. Die KI antwortet auf Basis der hinterlegten Produktdaten — sofern diese aktuell, vollständig und korrekt indexiert sind.
- Online-Händler: RAG für den Kundenservice. Der Chatbot antwortet auf Basis der echten AGB, Rückgaberichtlinien und Produktbeschreibungen. Das reduziert Halluzinationen deutlich, eliminiert sie aber nicht: Retrieval-Fehler, veraltete Dokumente oder falsch gelesene PDFs können weiterhin zu falschen Antworten führen.
Kosten: RAG-Lösungen sind deutlich günstiger als eigene KI-Modelle zu trainieren. Der Hauptaufwand liegt in der Aufbereitung der Wissensdatenbank — also: Welche Dokumente sollen enthalten sein? In welchem Format? Mit welcher Qualität? Das ist menschliche Arbeit, keine Lizenzfrage.
Konkrete Empfehlung: Was sollte ein KMU 2025/2026 wählen?
Für die große Mehrheit der KMU in Österreich und Deutschland empfehlen wir folgende Strategie:
Schritt zwei: Entwickeln Sie parallel eine RAG-Lösung für Ihre unternehmensspezifischen Wissensbereiche. Das kann mit Private-Cloud-Diensten (z.B. Azure AI Search kombiniert mit dem Azure OpenAI Service) aufgebaut werden und bietet ein hohes Datenschutzniveau bei vertretbaren Kosten — ab ca. 200 bis 500 Euro/Monat für kleinere Implementierungen.
Für sensible Anwendungsfälle: Bewerten Sie lokale Lösungen. Die Qualität von Open-Source-Modellen wie Llama und Mistral hat in den letzten zwei Jahren massiv zugenommen und ist für viele Unternehmensanwendungen ausreichend. Ein lokales Modell auf einem leistungsfähigen Server reicht für viele interne Anwendungen.
✓ Abschluss: Daten-Readiness-Checkliste
Ist mein Unternehmen datenmäßig bereit für KI?
Beantworten Sie diese 15 Fragen ehrlich. Für jedes "Ja" vergeben Sie einen Punkt. Das Ergebnis zeigt Ihnen, wo Sie stehen — und wo Sie ansetzen müssen.
Datensilos und Integration
- Ich weiß, welche Systeme in meinem Unternehmen Daten enthalten (CRM, ERP, Excel, Buchhaltung, etc.).
- Die wichtigsten Datensysteme sind miteinander verbunden oder ich habe einen konkreten Plan, sie zu verbinden.
- Es gibt eine klare Verantwortlichkeit für jedes Datensystem in meinem Unternehmen.
Datenqualität
- Die wichtigsten Datenfelder in meinem CRM/ERP haben eine Vollständigkeitsquote von mindestens 80 Prozent.
- Es gibt standardisierte Eingaberegeln (z.B. Pflichtfelder, Dropdown-Menüs) für kritische Felder.
- Ich habe in den letzten 12 Monaten eine Stichproben-Analyse der Datenqualität durchgeführt oder zumindest veranlasst.
Datenherkunft und Eigentum
- Ich weiß, auf welcher rechtlichen Grundlage meine Kundendaten erhoben wurden.
- Ich habe für die wichtigsten Datenkategorien dokumentiert, für welche Zwecke ich sie nutzen darf.
- Für externe Datenquellen (eingekaufte Daten, Drittanbieter) habe ich die Lizenzvereinbarungen geprüft.
KI-Inventar
- Ich habe eine vollständige Liste aller KI-Tools und KI-Funktionen, die in meinem Unternehmen genutzt werden — einschließlich der Tools, die Mitarbeiter privat für Arbeitszwecke nutzen.
- Ich weiß, welche Daten diese KI-Tools verarbeiten und ob das mit der DSGVO vereinbar ist.
- Es gibt klare Richtlinien für Mitarbeiter, welche KI-Tools sie für welche Aufgaben nutzen dürfen — und welche nicht.
Cloud-Strategie und Datensicherheit
- Für alle genutzten KI-Dienste gibt es einen Auftragsverarbeitungsvertrag (AVV) mit dem Anbieter.
- Mitarbeiter wissen, welche Daten sie nicht in Public-Cloud-KI-Tools eingeben dürfen (z.B. Kundendaten, Geschäftsgeheimnisse, Mitarbeiterdaten).
- Ich habe entschieden und kommuniziert, welche Datenkategorien in welchen Cloud-Diensten verarbeitet werden dürfen.
Auswertung
Ihr Unternehmen hat eine solide Datenbasis. Sie können mit der KI-Einführung für konkrete Anwendungsfälle starten. Die offenen Punkte sollten Sie parallel angehen — sie werden spätestens bei komplexeren Projekten relevant.
Sie sind grundsätzlich gut aufgestellt, aber es gibt klare Risikobereiche. Priorisieren Sie die Bereiche, in denen Sie unter dem Zielwert liegen, bevor Sie größere KI-Projekte starten. Insbesondere bei Datenqualität und KI-Inventar.
Investieren Sie zunächst in die Dateninfrastruktur und Governance, bevor Sie in KI investieren. Jeder Euro für Datenstrategie zahlt sich hier mehr aus als für KI-Lizenzen. Ein KI-Projekt jetzt zu starten, würde die bestehenden Probleme nicht lösen, sondern verstärken.
Ein KI-Projekt ohne diese Grundlagen ist eine fast sichere Fehlinvestition. Beginnen Sie mit Baustein 1.1 (Datensilos) und arbeiten Sie sich durch die Checkliste. Das dauert nicht Jahre — aber es braucht Konsequenz und die richtigen Prioritäten.
Der nächste Schritt
Daten-Readiness ist keine einmalige Aufgabe. Sie ist ein fortlaufender Prozess, der mit der Reife Ihrer KI-Nutzung wächst.
Aber er muss irgendwo beginnen. Die wichtigste Erkenntnis aus diesem Modul:
Die Antwort auf diese Frage — ehrlich und konkret beantwortet — ist das Fundament für jedes KI-Projekt, das tatsächlich Ergebnisse liefert. Ohne diese Grundlage ist auch die beste KI-Technologie nur eine teure Enttäuschung.
Dieses Dokument ist Teil der x10aix.tech Wissensbasis zur KI-Einführung im Mittelstand. Quellenstand: Juni 2026 — Version 2.6 (Quellenrevision, KMU-Minipfad, rechtliche Aussagen präzisiert, Quellenlogik geschärft).
Ausgewählte Quellen
- Gartner: Lack of AI-ready data puts AI projects at risk — gartner.com
- MuleSoft / Salesforce: Connectivity Benchmark 2025 — salesforce.com
- Precisely / Drexel University: Data quality and governance as obstacles to AI readiness — precisely.com
- EU-Richtlinie 2016/943: Schutz von Geschäftsgeheimnissen — eur-lex.europa.eu
- The Guardian: Air Canada chatbot case — theguardian.com
- OpenAI: Data Controls FAQ — help.openai.com
- OpenAI: ChatGPT Business Privacy — help.openai.com
Herausgeber: x10aix.tech — Projekt der Dräxler Versicherungsberatung GmbH, Hetzendorfer Strasse 73a, 1120 Wien. Kontakt: contact@x10aix.tech
Benachrichtigung bei neuer Version — keine Werbung, kein Spam.
Sie wollen wissen, wo Ihr Unternehmen aktuell steht?
In einem AI Sounding Board prüfen wir gemeinsam, welche KI-Nutzung bei Ihnen bereits stattfindet, wo Risiken entstehen und welche nächsten Schritte wirtschaftlich sinnvoll sind.
▸ AI Sounding Board anfragen