01
MODUL 01
Datenstrategie — das eigentliche KI-Projekt

Datenstrategie — Was Unternehmen bei Daten klären müssen, bevor sie KI einführen

Zielgruppe: KMU-Inhaber und Führungskräfte in Österreich und Deutschland · Schwierigkeitsgrad: Einsteiger bis Fortgeschrittene · Lesedauer: ca. 25–30 Minuten · Stand: Juni 2026 — Version 2.6
Einordnung und Quellenlogik

Dieser Leitfaden ist eine unternehmerische Entscheidungs- und Umsetzungsgrundlage für KMU. Er ersetzt keine individuelle Rechts-, Steuer-, Datenschutz- oder IT-Sicherheitsberatung. Gerade bei personenbezogenen Daten, Mitarbeiterdaten, Hochrisiko-KI, Berufsgeheimnissen oder Betriebsratsfragen sollte die finale Bewertung durch die jeweils zuständige Fachperson erfolgen.

Begriffsschärfe in diesem Dokument:

  • ● Gesetzliche Pflicht — ausdrücklich oder unmittelbar aus Gesetz, Verordnung oder verbindlicher behördlicher Vorgabe ableitbar.
  • ● Rechtliche Risikozone — nicht pauschal verboten, aber nur mit sauberer Rechtsgrundlage, Dokumentation, Verträgen und Verantwortlichkeiten vertretbar.
  • ● Best Practice — fachlich sinnvoll, aber nicht in jedem Fall gesetzlich vorgeschrieben.
  • ● Praktische Empfehlung — pragmatische Handlungsempfehlung für KMU, damit Unternehmer nach dem Durchgehen dieses Leitfadens konkrete nächste Schritte ableiten können.

Quellenlogik: Die im Text verlinkten Quellen verweisen nach Möglichkeit direkt auf Studien, Behördeninformationen, Gesetzestexte, Anbieterbedingungen oder dokumentierte Fälle.

Verständlichkeitsprinzip

Dieser Leitfaden verwendet Fachbegriffe nur dort, wo sie für eine Entscheidung wirklich nötig sind. Beim ersten Auftreten werden sie möglichst einfach erklärt. Wenn ein Begriff juristisch, technisch oder englisch klingt, gilt immer die praktische Frage: Was bedeutet das für mein Unternehmen konkret?

Die wichtigste Regel beim Lesen: Sie müssen nicht jeden Paragrafen oder jede technische Abkürzung auswendig kennen. Sie sollen erkennen, wo ein Risiko liegt, welche Mindestmaßnahme sinnvoll ist und wann externe Prüfung nötig wird.

KMU-Minipfad: Datenstrategie in 2 Stunden starten

Wenn Sie nur wenig Zeit haben: Starten Sie nicht mit einer Datenplattform. Starten Sie mit Kontrolle.
In 2 Stunden:
  1. Listen Sie die 5 wichtigsten Systeme auf, in denen Unternehmensdaten liegen: CRM, ERP, Buchhaltung, E-Mail, Excel/Drive/SharePoint.
  2. Wählen Sie einen einzigen KI-Anwendungsfall aus und markieren Sie, welche Daten dafür wirklich nötig wären.
  3. Prüfen Sie bei 20 zufälligen Datensätzen, ob Pflichtfelder, Aktualität und eindeutige Kundennummern stimmen.
In 1 Tag:
  1. Erstellen Sie ein kleines Data Dictionary für die 20 wichtigsten Felder.
  2. Benennen Sie pro System einen Datenverantwortlichen.
  3. Entscheiden Sie, welche Daten niemals in externe KI-Tools eingegeben werden dürfen.
Erweiterter Pfad: Wenn Kundendaten, Mitarbeiterdaten, sensible Daten oder mehrere Systeme betroffen sind: Datenschutzbeauftragten, IT-Dienstleister und ggf. Rechtsberatung einbinden, bevor Daten produktiv mit KI verarbeitet werden.
Mini-Glossar: Begriffe in diesem Modul
KI
Software, die Texte, Bilder, Vorhersagen oder Entscheidungen unterstützen kann. Sie arbeitet nicht wie ein klassisches Programm mit festen Regeln, sondern berechnet wahrscheinliche Antworten oder Muster.
Datensilo
Daten liegen an einem Ort, kommen aber nicht sinnvoll mit anderen Daten zusammen. Beispiel: Kundendaten im CRM, Bestellungen im ERP, Reklamationen in E-Mails.
CRM
System für Kundendaten, Kontakte, Angebote und Vertrieb.
ERP
System für Warenwirtschaft, Einkauf, Lager, Produktion oder Buchhaltung.
Data Dictionary
Eine einfache Liste, die erklärt, was wichtige Datenfelder bedeuten. Beispiel: Was heißt „aktiver Kunde" genau?
ETL
Daten aus einem System holen, bereinigen und in ein anderes System übertragen. Einfach gesagt: Daten zusammenführen.
Cloud
Daten oder Programme laufen auf Servern eines Anbieters, nicht nur auf dem eigenen Rechner.
RAG
Die KI sucht zuerst in Ihren eigenen Dokumenten und formuliert dann daraus eine Antwort. Das reduziert Fehler, ersetzt aber keine Prüfung.
KI-Inventar
Liste aller KI-Tools, die im Unternehmen genutzt werden — auch versteckte KI-Funktionen in bestehender Software.
AVV
Datenschutzvertrag mit einem Dienstleister, der personenbezogene Daten verarbeitet.

Warum Daten oft das eigentliche KI-Projekt sind

Viele Unternehmer glauben, das Schwierigste an KI sei die Technologie. Die falsche KI kaufen, den falschen Anbieter wählen, die falsche Strategie verfolgen. Diese Angst ist verständlich, aber sie trifft den falschen Punkt.

Eine der häufigsten Hürden ist dieselbe: Daten.

Je nach Studie, Projektart und Messmethode scheitert ein großer Anteil von KI-Initiativen oder bleibt ohne messbaren Geschäftswert. Besonders Projekte, die ohne klare Datenbasis und ohne Prozessintegration starten, erreichen häufig nicht den produktiven Nutzen. Einer der Hauptgründe: schlechte Datenqualität — nicht zu wenig Budget, nicht die falsche Technologie. Gartner prognostiziert, dass bis Ende 2026 rund 60 Prozent der KI-Projekte aufgegeben werden, deren Datenbasis nicht KI-tauglich ist (Gartner, Februar 2025).

Das bedeutet konkret: Wer KI einführen will, sollte seine Datensituation früh klären. Nicht als lästige Pflichtübung — sondern als strategische Grundlage, ohne die jedes KI-Projekt auf Sand gebaut ist.

Dieses Modul führt Sie durch die fünf wichtigsten Datenbereiche, die Sie klären müssen, bevor Sie Ihre erste KI-Lösung einführen. Kein Technologie-Sprech. Nur was in der Praxis wirklich entscheidet.

1.1 Datensilos aufbrechen

Was sind Datensilos?

Daten, die nicht miteinander sprechen. Informationen, die zwar im Unternehmen vorhanden sind — aber so verteilt, dass niemand das volle Bild sieht. Ihr CRM enthält Kundendaten. Ihr ERP enthält Bestelldaten. Ihre Buchhaltung läuft in einer eigenen Software. Der Außendienst pflegt Excel-Tabellen. Und in den E-Mail-Postfächern Ihrer Mitarbeiter stecken wichtige Informationen, die nirgends sonst auftauchen.

Das ist ein Datensilo. Und fast jedes KMU in Deutschland und Österreich hat dieses Problem.

Illustration: Isolierte Datensilos in Unternehmenssystemen

Abb. 1 — Isolierte Datensilos: CRM, ERP, E-Mail und Tabellen als getrennte Dateninseln

Warum Datensilos das größte KI-Hindernis in KMU sind

KI-Systeme können nur mit Informationen arbeiten, die ihnen als Trainingsdaten, Kontext, Datenbankzugriff oder Schnittstelle tatsächlich zur Verfügung stehen. Eine KI, die Ihre Absatzprognose verbessern soll, aber keinen Zugriff auf Ihre historischen Verkaufsdaten, Ihre Lagerbestände und Ihre CRM-Daten hat, wird scheitern. Nicht weil die KI schlecht ist, sondern weil sie blind ist.

Das Problem mit Silos ist nicht nur technisch. Es ist unternehmerisch. Wenn Ihre Vertriebsleitung nicht weiß, was Ihre Produktion weiß — und Ihre KI dasselbe fragmentierte Bild bekommt — dann automatisiert die KI nicht Ihre Abläufe. Sie automatisiert Ihre Wissenslücken.

Illustration: Garbage In, Garbage Out — KI lernt fehlerhafte Muster

Abb. 2 — Garbage In, Garbage Out: Schlechte Daten führen zu schlechten KI-Ergebnissen

In den zugrunde liegenden Forschungsberichten zur KI-Einführung im Mittelstand taucht dieses Problem wiederholt auf: Unternehmer unterschätzen die Kosten für die Aufbereitung der eigenen Daten, damit KI überhaupt damit arbeiten kann. Diese Aufbereitung ist keine einmalige Aktion — sie ist oft das größte Projektkapitel überhaupt.

Was passiert, wenn Silos ignoriert werden:
  • KI-Modelle liefern Prognosen auf Basis unvollständiger Informationen — und das merken Sie oft erst nach Monaten.
  • Integrationsprobleme verlängern Projekte und treiben Kosten in die Höhe. Laut dem MuleSoft Connectivity Benchmark Report 2025 (Befragung von 1.050 IT-Führungskräften) haben 95 Prozent Schwierigkeiten, Daten über ihre Systeme hinweg zu integrieren — 80 Prozent nennen Datenintegration als zentrales Hindernis für KI-Vorhaben (Quelle).
  • Mitarbeiter entwickeln parallele Lösungen und Schatten-KI entsteht — sie nutzen dann private Tools wie ChatGPT, weil die offiziellen Systeme nicht verbunden sind.
  • Das Vertrauen in KI-Ergebnisse schwindet, wenn Mitarbeiter merken, dass wichtige Datenbereiche fehlen.
Was kostet ein Silo? Laut MIT-Studien verbringen Datenwissenschaftler und Analysten bis zu 80 Prozent ihrer Zeit damit, Daten zu bereinigen und zu integrieren — und nur 20 Prozent damit, eigentlich wertschöpfend zu arbeiten. Dieselbe verlorene Arbeitszeit fällt — in kleinerem Maßstab — auch in jedem KMU täglich an.
Konkrete Schritte zur Silo-Auflösung — ohne große IT-Investition

1. Inventur der eigenen Datensysteme machen.
Schreiben Sie auf, welche Systeme in Ihrem Unternehmen Daten enthalten: CRM, ERP, Buchhaltungssoftware, E-Commerce-System, Excel-Tabellen, E-Mail-Archive. Keine technische Analyse — nur eine ehrliche Liste. Diese Liste zeigt Ihnen sofort, wo die Silos sind.

2. Den "goldenen Datensatz" definieren.
Welche Daten brauchen Sie wirklich für Ihren ersten KI-Anwendungsfall? Wenn Sie z.B. den Kundenservice verbessern wollen, brauchen Sie Kundendaten und Servicedaten. Fokussieren Sie die Integration auf genau diesen Bereich — nicht auf alles gleichzeitig.

3. Einen gemeinsamen Datenpunkt finden.
Fast jedes System hat ein Feld, das als Brücke dienen kann: die Kundennummer, die Bestellnummer, die Artikelnummer. Über diese Schlüsselfelder lassen sich Systeme verbinden — oft ohne große IT-Projekte.

4. Mit einem günstigen ETL-Tool starten.
ETL steht für Extract, Transform, Load — also Daten holen, aufbereiten und zusammenführen. Für KMU ohne IT-Abteilung gibt es inzwischen einfache und bezahlbare Lösungen.

5. Datenverantwortliche benennen.
Für jedes System sollte eine Person im Unternehmen verantwortlich sein — nicht für die Technik, sondern für die Qualität und Aktualität der Daten. Das ist oft wichtiger als jedes Tool.

6. Klein anfangen und skalieren.
Verbinden Sie zunächst zwei Systeme, nicht alle. Wenn der Pilot funktioniert, erweitern Sie schrittweise. Die größten Fehler entstehen, wenn man versucht, alles auf einmal zu lösen.

Günstige Tools für KMU ohne IT-Abteilung
  • Zapier (ab ca. 20 Euro/Monat) — Verbindet Hunderte von Business-Apps ohne Programmierung. Ideal für einfache Datenflüsse zwischen CRM, E-Mail und Buchhaltung.
  • Make (ehemals Integromat, ab ca. 9 Euro/Monat) — Ähnlich wie Zapier, aber flexibler für komplexere Abläufe.
  • n8n (Open Source, kostenlos für Selbst-Hosting) — Besonders interessant für datenschutzbewusste Unternehmen, da es auf eigenen Servern betrieben werden kann.
  • Microsoft Power Automate (im Microsoft 365-Abo enthalten) — Wer bereits Microsoft-Produkte nutzt, hat dieses Tool bereits bezahlt.
  • Airtable (ab 20 Euro/Monat) — Für KMU, die Excel ersetzen und Daten strukturieren wollen, ohne eine komplexe Datenbank aufzubauen.

1.2 Datenqualität sicherstellen

Was bedeutet Datenqualität konkret?

Datenqualität ist kein abstraktes Konzept. Es geht um vier ganz konkrete Eigenschaften jedes Datensatzes:

Vollständigkeit

Sind alle Felder ausgefüllt? Fehlen Kundennummern, Postleitzahlen, Datumsangaben?

🔄Konsistenz

Wird dasselbe Konzept überall gleich geschrieben? "Österreich", "AT", "Austria" — alles dasselbe Land, aber drei verschiedene Einträge in Ihrer Datenbank. KI-Systeme behandeln diese als unterschiedliche Werte.

🕐Aktualität

Sind die Daten noch gültig? Lieferantenadressen von 2018. Kundendaten von Personen, die längst woanders arbeiten. Produkte, die schon abgekündigt wurden.

🎯Korrektheit

Stimmen die Daten inhaltlich? Falsche Preise. Vertauschte Vornamen. Bestellungen mit unmöglichen Mengenangaben.

Die "Garbage In, Garbage Out"-Falle bei KI

In der Softwareentwicklung gibt es einen alten Grundsatz: Garbage In, Garbage Out. Was rein kommt, kommt raus. Bei klassischer Software fällt schlechte Datenqualität schnell auf — das Programm stürzt ab, eine Fehlermeldung erscheint.

Bei KI ist das anders. KI lernt aus Mustern. Wenn die Muster falsch sind, lernt die KI die falschen Dinge — und gibt trotzdem selbstbewusst klingende Antworten. Ein Vertriebsprognose-Modell, das auf jahrelang falsch gepflegten CRM-Daten trainiert wurde, liefert Prognosen. Die Prognosen klingen plausibel. Aber sie spiegeln die Vorurteile und Fehler Ihrer Mitarbeiter wider, nicht die Marktrealität.

Das ist gefährlicher als gar keine KI zu haben.

Schlechte Datenqualität ist einer der am häufigsten genannten Gründe für das Scheitern von KI-Projekten: Laut einer globalen Erhebung von Precisely und der Drexel University halten nur 12 Prozent der Unternehmen ihre Daten für ausreichend, um KI effektiv einzusetzen (Precisely / Drexel University). Das ist keine technische Einschränkung, die in zwei Jahren durch bessere Algorithmen gelöst wird. Das ist ein menschliches und organisatorisches Problem, das aktiv angegangen werden muss.

Wie führt man einen einfachen Datenqualitäts-Audit durch?

Sie brauchen dafür keine Datenbank-Experten. Folgende vier Schritte reichen für den Anfang:

Schritt 1: Stichproben-Analyse.
Nehmen Sie 100 zufällige Datensätze aus Ihrer wichtigsten Datenquelle (meist CRM oder ERP). Öffnen Sie diese manuell. Wie viele haben leere Felder? Wie viele wirken veraltet? Wie viele enthalten offensichtliche Fehler? Diese Zahl hochgerechnet gibt Ihnen eine grobe Fehlerquote.

Schritt 2: Konsistenz-Check.
Schauen Sie sich die Einträge für Länder, Kategorien, Statusfelder an. Wird "Deutschland" mal als "DE", mal als "Deutschland", mal als "D" geschrieben? Das sind Konsistenzprobleme, die KI-Modelle massiv verwirren.

Schritt 3: Vollständigkeits-Check.
Zählen Sie für jedes wichtige Feld (z.B. E-Mail-Adresse, Postleitzahl, Bestelldatum), wie viel Prozent der Datensätze ausgefüllt sind. Unter 80 Prozent Vollständigkeit ist für die meisten KI-Anwendungen problematisch.

Schritt 4: Plausibilitäts-Check.
Gibt es Bestellungen mit negativen Mengen? Kunden, die laut System 150 Jahre alt sind? Umsätze in unmöglicher Höhe? Diese offensichtlichen Fehler zeigen Ihnen, wie diszipliniert die Datenpflege bisher war.

Plausibles Risikoszenario: Ein KI-Projekt scheitert an schlechten Daten

Ein Handelsunternehmen mit 80 Mitarbeitern investierte in ein KI-gestütztes Sales-Forecasting-System. Die KI sollte den Vertriebsleitern wöchentliche Absatzprognosen liefern. Das System wurde von einem externen Anbieter implementiert, lief technisch einwandfrei — und wurde nach sechs Monaten still abgeschaltet.

Warum? Die Vertriebsmitarbeiter hatten über Jahre ihre CRM-Einträge strategisch gepflegt: niedrige Abschlusswahrscheinlichkeiten, um Erwartungen zu dämpfen ("Sandbagging"). Spätere Abschlussdaten als realistische Schätzungen. Lücken bei Kontaktdaten, die das Reporting nicht störten, aber die KI blind machten.

Das Modell hatte gelernt, was die Mitarbeiter eingegeben hatten — nicht was der Markt tat. Die Prognosen wichen systematisch von der Realität ab. Das Vertrauen war nach drei Monaten zerstört. Nach sechs Monaten wurde das Projekt eingestellt.

Kosten: Lizenzgebühren, Implementierungskosten, interne Arbeitszeit. Keine Wertschöpfung. Und das Problem — die schlechten Daten — bestand weiter.

Dieses Muster ist typisch für viele Forecasting-Projekte: Das Problem liegt oft nicht in der Mathematik des Algorithmus, sondern in der Qualität, Aktualität und Verlässlichkeit der zugrunde liegenden CRM-Daten.

Schnelle Maßnahmen zur Verbesserung der Datenqualität

1.3 Datenherkunft und -eigentum klären

Wem gehören welche Daten?

Das klingt nach einer rechtlichen Frage — ist es auch, aber nicht nur. Wer wirklich verstehen will, welche Daten er für KI nutzen kann, muss zunächst klären, woher die Daten kommen und wer die Entscheidungsgewalt über sie hat.

Es gibt vier grundlegende Datenkategorien in jedem KMU:

👤Kundendaten

Name, Kontakt, Kaufhistorie, Kommunikation, Verhaltensdaten. Juristisch geht es dabei nicht um „Eigentum" an Daten, sondern um Betroffenenrechte, Zweckbindung und Rechtsgrundlagen nach DSGVO. Das Unternehmen darf personenbezogene Kundendaten nur für definierte Zwecke und auf einer tragfähigen Rechtsgrundlage verarbeiten.

🧑‍💼Mitarbeiterdaten

Gehaltsabrechnungen, Krankmeldungen, Leistungsbeurteilungen, Kommunikation. Hochsensibel, stark reguliert. Für KI fast nie frei nutzbar ohne besondere Rechtsgrundlage und — in Deutschland — Betriebsratsbeteiligung.

⚙️Prozessdaten

Maschinenlaufzeiten, Produktionsprotokolle, Qualitätsdaten, Logistikdaten. Diese Daten sind oft das wertvollste KI-Asset eines produzierenden Unternehmens — und werden häufig gar nicht genutzt, weil sie in OT-Silos (Operational Technology) festsitzen.

🌐Externe Daten

Marktdaten, Wettbewerberinformationen, öffentliche Statistiken, eingekaufte Daten von Datenanbietern. Hier gelten Lizenzvereinbarungen, die genau festlegen, was erlaubt ist — und die oft zu wenig beachtet werden.

Datenherkunft dokumentieren: Warum ist das für KI-Modelle rechtlich wichtig?

Der EU AI Act — seit August 2024 in Kraft, mit schrittweise geltenden Pflichten seit Februar 2025 (vollständige Fristenübersicht in Modul 3) — erhöht die Anforderungen an Transparenz, Nachvollziehbarkeit und Risikomanagement. Besonders bei Hochrisiko-Systemen müssen Datenherkunft, Datenqualität, Rechtsgrundlagen und Nutzungskontext belastbar dokumentiert werden. Auch außerhalb formaler Hochrisiko-Pflichten ist diese Dokumentation Best Practice.

Das ist keine theoretische Anforderung. Wer KI-Systeme mit höherem Risiko einsetzt (z.B. in HR, Kreditbewertung oder Sicherheitsbereichen), muss das nachweisen können. Ohne Dokumentation der Datenherkunft fehlt die Grundlage für die Compliance.

Aber auch abseits der Regulierung gibt es einen pragmatischen Grund: KI-Modelle sind nur so gut wie die Qualität der Daten, mit denen sie trainiert wurden. Wenn Sie nicht wissen, woher Ihre Trainingsdaten kommen, wissen Sie auch nicht, welche Verzerrungen (Bias), Lücken und Fehler in Ihrem Modell stecken könnten. Und Sie können auch nicht erklären, warum das Modell bestimmte Entscheidungen trifft.

Warnung zum Geschäftsgeheimnisschutz: Die Eingabe von Geschäftsgeheimnissen oder vertraulichen Unternehmensdaten in öffentliche KI-Tools ohne Enterprise-Vertrag kann den rechtlichen Schutz nach dem Geschäftsgeheimnisrecht (Deutschland: GeschGehG; Österreich: UWG; Basis: EU-Richtlinie 2016/943) beeinträchtigen. Wer vertrauliche Informationen nicht hinreichend schützt, verliert möglicherweise den Anspruch auf deren rechtlichen Schutz.
Was ist ein Data Dictionary — und braucht ein KMU das?

Ein Data Dictionary ist im Kern eine Tabelle, die erklärt, was jedes Datenfeld in Ihren Systemen bedeutet. Klingt trivial. Ist es in der Praxis nicht.

Nehmen Sie ein einfaches Beispiel: Das Feld "Status" im CRM. Was bedeutet "Aktiv"? Heißt das, der Kunde hat in den letzten 12 Monaten gekauft? Oder dass er im Newsletter angemeldet ist? Oder dass sein Vertrag noch läuft? Wenn verschiedene Mitarbeiter verschiedene Interpretationen haben, sind Ihre Daten unbrauchbar für KI — selbst wenn alle Felder ausgefüllt sind.

Braucht ein KMU ein Data Dictionary? Ja — aber in einer pragmatischen Form. Kein 50-seitiges Dokument. Stattdessen eine einfache Tabelle (z.B. in Excel oder Notion) mit drei Spalten:

  • Feldname
  • Was es bedeutet (präzise Definition)
  • Wo es herkommt (welches System, wer pflegt es)

Für die wichtigsten 20 bis 30 Felder der kritischsten Datensysteme reicht das für den Anfang. Das verhindert die häufigsten Missverständnisse zwischen Mensch und KI.

Welche Daten darf ich für KI nutzen, welche nicht?

Die kurze, aber unbefriedigende Antwort lautet: Es kommt darauf an. Die praktischere Orientierung:

Klar nutzbar (meist ohne juristische Hürden): Eigene Prozessdaten (Maschinendaten, interne Abläufe), anonymisierte oder aggregierte Kundendaten, öffentlich zugängliche Daten (mit Lizenzkontrolle), selbst erhobene historische Verkaufsdaten.
Nutzbar mit klarer Rechtsgrundlage: Personenbezogene Kundendaten (wenn Einwilligung vorliegt oder berechtigtes Interesse klar dokumentiert ist), eingekaufte externe Daten (Lizenzprüfung erforderlich), Mitarbeiterdaten (sehr restriktiv, Betriebsrat einbeziehen).
In der Regel nicht nutzbar: Personenbezogene Daten ohne klare Rechtsgrundlage, Daten aus fremden Systemen ohne Genehmigung, Gesundheitsdaten und andere besondere Datenkategorien nach Art. 9 DSGVO ohne explizite Einwilligung.

Die praktische Empfehlung: Holen Sie für Ihren konkreten Anwendungsfall eine Einschätzung vom Datenschutzbeauftragten ein. Das kostet eine Stunde — und verhindert teure Fehler.

Praktische Checkliste: Dateneigentümerschaft klären (10 Fragen)
Gehen Sie diese 10 Fragen für jede Datenkategorie durch, die Sie für KI nutzen wollen:
  1. Woher kommen diese Daten ursprünglich?
  2. Wer hat diese Daten erhoben — wir oder ein Dritter?
  3. Auf welcher Rechtsgrundlage wurden die Daten erhoben (Einwilligung, Vertrag, berechtigtes Interesse)?
  4. Für welchen Zweck wurden die Daten ursprünglich erhoben?
  5. Stimmt der KI-Einsatz mit diesem ursprünglichen Zweck überein?
  6. Sind diese Daten personenbezogen im Sinne der DSGVO?
  7. Gibt es einen Auftragsverarbeitungsvertrag (AVV) mit dem Anbieter, der die Daten verarbeiten soll?
  8. Wo werden die Daten gespeichert — in der EU oder außerhalb?
  9. Wie lange dürfen wir die Daten nutzen (Aufbewahrungsfristen, Löschpflichten)?
  10. Wer in unserem Unternehmen ist verantwortlich für diese Datenkategorie?

1.4 KI-Inventar erstellen

Was ist ein KI-Inventar — und warum ist es notwendig?

Ein KI-Inventar ist eine systematische Liste aller KI-Systeme, die in Ihrem Unternehmen eingesetzt werden. Nicht nur die offensichtlichen — wie ein neu eingeführter KI-Chatbot. Sondern auch die versteckten, die oft übersehen werden.

Warum ist das notwendig? Nicht jedes Unternehmen braucht in jedem Fall ein formal gleich ausgestaltetes KI-Inventar. Praktisch ist es aber die Grundlage jeder Steuerung: Wer nicht weiß, welche KI-Systeme offiziell oder inoffiziell eingesetzt werden, kann Transparenz-, Datenschutz-, Sicherheits- und AI-Act-Pflichten nicht verlässlich prüfen. Für Hochrisiko-Systeme wird eine deutlich strengere Dokumentation erforderlich.

Aber auch abseits der Regulierung hat das KI-Inventar einen praktischen Wert: Es schafft Klarheit, wer welche Daten mit welchen Systemen verarbeitet. Das ist die Grundlage für jede informierte Entscheidung über KI-Einsatz und Datenstrategie.

Was gehört ins Inventar? Die versteckten KI-Tools

Viele Unternehmer unterschätzen massiv, wie viele KI-Systeme bereits im Einsatz sind. KI steckt nicht nur in explizit als "KI" vermarkteten Lösungen. Sie findet sich auch in:

Schatten-KI: Verschiedene Erhebungen von Technologie- und Beratungsanbietern zeigen, dass Mitarbeiter KI-Tools häufig auch ohne formale Freigabe nutzen. Die genauen Werte variieren je nach Studie und Branche. Die unternehmerische Konsequenz bleibt gleich: Was nicht erfasst ist, kann nicht gesteuert werden — und kann Datenschutz-, Sicherheits- und Haftungsrisiken erzeugen.
Wie erstellt man ein KI-Inventar — Schritt für Schritt

Schritt 1: Bestandsaufnahme per Mitarbeiterbefragung.
Fragen Sie alle Abteilungen: "Welche Software-Tools nutzt ihr, die automatisch Vorschläge macht, Texte generiert oder Entscheidungen unterstützt?" Nicht-technische Formulierung ist wichtig — "KI" wird sonst zu eng interpretiert, und wichtige Tools werden nicht genannt.

Schritt 2: Software-Lizenzen durchsehen.
Gehen Sie alle Software-Abonnements durch. Viele Business-Software-Anbieter haben in den letzten zwei Jahren KI-Funktionen integriert, ohne das groß zu kommunizieren. Schauen Sie in die Release-Notes oder fragen Sie den Anbieter direkt: "Hat Ihre Software KI-Funktionen? Werden dabei Daten an externe Server übermittelt?"

Schritt 3: IT-Infrastruktur prüfen.
Gibt es Browser-Erweiterungen, die Mitarbeiter installiert haben? Welche APIs sind an Ihre Systeme angebunden? Auch das kann KI enthalten.

Schritt 4: Einordnen und priorisieren.
Ordnen Sie jedes identifizierte System einer Risikokategorie zu (gering, mittel, hoch) nach den Kriterien des EU AI Act. Systeme mit hohem Risiko (z.B. HR-Entscheidungen, automatisierte Bonitätsprüfungen) müssen zuerst genauer dokumentiert werden.

Schritt 5: Inventar in die Verantwortung eines Menschen geben.
Eine Person muss für die Pflege des Inventars zuständig sein. Das muss kein IT-Experte sein — es reicht eine administrative Kraft, die das Inventar halbjährlich aktualisiert und neue Tools beim Onboarding prüft.

Einfache Vorlage: KMU-KI-Inventar (6 Spalten)

KI-System Anbieter Zweck/Funktion Genutzte Daten Risikoklasse Verantwortlich
Microsoft Copilot Microsoft E-Mails, Dokumente, Zusammenfassungen E-Mails, Dokumente, Teams-Nachrichten ● Mittel IT-Leiter
HubSpot CRM (Forecast) HubSpot Lead-Scoring, Absatzprognosen Kundendaten, Verkaufshistorie ● Mittel Vertriebsleitung
Spam-Filter (Google Workspace) Google E-Mail-Filterung E-Mail-Inhalte ● Gering IT-Leiter
ChatGPT (privat, Mitarbeiter) OpenAI Texterstellung, Recherche Unklar — Regelung erforderlich ● Hoch Geschäftsführung
DATEV (Belegzuordnung) DATEV Automatische Buchung Bankdaten, Belege ● Gering Buchhaltung
DeepL Pro DeepL Übersetzungen Unternehmenstexte, Kundenkommunikation ● Mittel Alle Abteilungen

Wie hält man das Inventar aktuell?

1.5 Entscheidung: Eigene Daten vs. Cloud-Modelle

Die drei Wege: Public Cloud KI / Private Cloud / Lokale Installation

Wenn Sie KI einführen, müssen Sie entscheiden: Wo werden meine Daten verarbeitet? Es gibt drei grundlegende Optionen, jede mit eigenen Vor- und Nachteilen.

☁️Option 1: Public Cloud KI

Beispiele: ChatGPT (OpenAI), Google Gemini, Microsoft Copilot, Anthropic Claude.

Ihre Daten werden an Server des Anbieters gesendet, dort verarbeitet und eine Antwort zurückgeschickt. Einfachste Option, schnellste Implementierung, niedrigste Einstiegshürde. Aber: Daten verlassen Ihre eigene Infrastruktur. Ob Eingaben für Modellverbesserung oder Training genutzt werden, hängt vom konkreten Produkt, Tarif, Vertrag und den aktivierten Datenschutzeinstellungen ab.

🔒Option 2: Private Cloud KI

Beispiele: Microsoft Azure OpenAI Service, AWS Bedrock, Google Vertex AI mit privaten Modellen.

Technisch ähnlich wie Public Cloud, aber mit Vertrag: Der Anbieter verpflichtet sich vertraglich, Ihre Daten nicht für das Training seiner Modelle zu nutzen. Daten befinden sich in einer dedizierten Umgebung, meist innerhalb der EU. Teurer als Public Cloud, aber deutlich sicherer für sensible Daten.

🏠Option 3: Lokale Installation (On-Premise / Edge)

Beispiele: Llama (Meta, Open Source), Mistral (teilweise Open Source), lokale Instanzen mit Tools wie Ollama oder LM Studio.

Das KI-Modell wird auf Ihren eigenen Servern oder Computern betrieben. Daten verlassen Ihr Unternehmen nicht. Höchstes Datenschutzniveau, aber höchster technischer Aufwand. Für KMU ohne IT-Abteilung eine Herausforderung — aber machbar mit externer Unterstützung.

Was bedeuten diese Optionen für Datenschutz, Kosten und Performance?

Kriterium Public Cloud Private Cloud Lokal
Datenschutz-Risiko ● Hoch (ohne Enterprise-Vertrag) ● Mittel ● Gering
Einrichtungskosten Gering Mittel Hoch
Laufende Kosten Variabel (per Nutzung/Token) Fest + variabel Strom + Hardware-Abschreibung
Technischer Aufwand Gering Mittel Hoch
Performance Sehr hoch (aktuelle Spitzenmodelle) Hoch Mittel (abhängig von Hardware)
DSGVO-Konformität Nur bei passender Rechtsgrundlage, AVV/DPA, Transferprüfung und korrekten Einstellungen Nur bei passender Vertrags-, Sicherheits- und Berechtigungsgestaltung Auch lokal nur bei korrekter Verarbeitung, Zugriffsschutz und Löschkonzept
Geeignet für Interne Tests, nicht-sensible Daten Kundendaten, strategische Daten Hoch sensible Daten, kritische Prozesse
Wichtiger Hinweis zu Public Cloud: Wer ChatGPT ohne Enterprise-Vertrag nutzt und dabei vertrauliche Unternehmensdaten, Strategiedokumente oder Kundendaten eingibt, riskiert den Schutz dieser Informationen. Juristen warnen: Die Eingabe von Geschäftsgeheimnissen in öffentliche KI-Tools kann den rechtlichen Schutz nach dem Geschäftsgeheimnisgesetz bzw. den entsprechenden österreichischen Regeln beeinträchtigen. Maßgeblich ist, ob angemessene Geheimhaltungsmaßnahmen getroffen wurden (Grundlage: EU-Richtlinie 2016/943 über den Schutz von Geschäftsgeheimnissen).
Entscheidungsmatrix: Wann was für welches KMU?

Public Cloud KI ist geeignet, wenn:

  • Sie ausschließlich nicht-sensible, anonymisierte oder öffentliche Daten verarbeiten.
  • Sie schnell starten wollen und zunächst mit allgemeinen Texten und Inhalten arbeiten.
  • Budget und Technik-Ressourcen begrenzt sind.
  • Sie einen Enterprise-Plan mit Datenschutzvertrag und EU-Datenspeicherung abschließen.

Private Cloud KI ist geeignet, wenn:

  • Sie Kundendaten oder strategisch sensible Informationen mit KI verarbeiten wollen.
  • DSGVO-Konformität nicht verhandelbar ist.
  • Sie Microsoft, Google oder AWS bereits nutzen (einfachste Erweiterung).
  • Budget vorhanden ist für höhere Lizenzkosten.

Lokale KI-Installation ist geeignet, wenn:

  • Sie mit hochsensiblen Daten arbeiten (Patientendaten, Produktionsdaten, Finanzmodelle).
  • Datensouveränität Ihr wichtigstes Kriterium ist.
  • Sie eine IT-Abteilung oder einen technisch kompetenten Dienstleister haben.
  • Sie langfristig Kosten sparen wollen und den höheren Initialaufwand in Kauf nehmen.

Die Rolle von RAG — eigene Wissensbasis ohne Cloud-Risiko

RAG steht für Retrieval-Augmented Generation. Das klingt nach einem IT-Fachbegriff — dahinter steckt aber ein Konzept, das für KMU besonders relevant ist.

Das Problem ohne RAG: Eine Standard-KI weiß alles, was sie beim Training gelernt hat — aber nichts über Ihr Unternehmen. Sie kennt Ihre Produkte nicht, Ihre internen Abläufe nicht, Ihre Preislisten nicht. Und weil sie trotzdem Antworten produziert, erfindet sie manchmal Dinge — sogenannte Halluzinationen. Der Air-Canada-Chatbot-Fall ist ein bekanntes Beispiel: Ein Chatbot gab falsche Auskunft zu Erstattungsregeln; ein kanadisches Tribunal sah Air Canada für die Website-Informationen einschließlich Chatbot verantwortlich (The Guardian, 16.02.2024).
Die Lösung mit RAG: Sie bauen eine eigene Wissensdatenbank aus Ihren Dokumenten auf — Produktbeschreibungen, FAQs, interne Handbücher, Verträge, Preislisten. Wenn ein Mitarbeiter oder Kunde eine Frage stellt, durchsucht das System zuerst Ihre Wissensdatenbank, holt die relevanten Textpassagen heraus, und gibt diese der KI als Kontext mit. Die KI antwortet dann auf Basis Ihrer echten Dokumente — nicht aus ihrem allgemeinen Training.

Wichtig für den Datenschutz: Ihre Dokumente verlassen dabei nicht unbedingt Ihre Infrastruktur. Bei lokalen oder sauber konfigurierten Private-Cloud-RAG-Lösungen können Informationen innerhalb einer kontrollierten Umgebung bleiben. Die KI fungiert dann eher als intelligente Such- und Antwortschicht über Ihre eigenen Dokumente — aber nur, wenn Berechtigungen, Aktualität, Logging und Datenqualität stimmen.

Illustration: RAG-Prozess — Dokumente durchsuchen, Kontext abrufen, Antwort generieren

Abb. 3 — Retrieval-Augmented Generation: KI durchsucht erst Ihre Dokumente, dann antwortet sie

Drei Praxisbeispiele für RAG
  1. Handwerksbetrieb: Eine RAG-Lösung über Montageanleitungen. Techniker können natürlichsprachliche Fragen stellen wie "Wie tausche ich beim Modell X die Dichtung aus?" und erhalten korrekte Antworten aus dem echten Handbuch — auch nachts, auch in der Werkstatt vom Smartphone aus.
  2. Versicherungsagentur: Produktdatenbank mit RAG verbunden. Mitarbeiter können Fragen zu Policen und Tarifen stellen, ohne lange im Handbuch suchen zu müssen. Die KI antwortet auf Basis der hinterlegten Produktdaten — sofern diese aktuell, vollständig und korrekt indexiert sind.
  3. Online-Händler: RAG für den Kundenservice. Der Chatbot antwortet auf Basis der echten AGB, Rückgaberichtlinien und Produktbeschreibungen. Das reduziert Halluzinationen deutlich, eliminiert sie aber nicht: Retrieval-Fehler, veraltete Dokumente oder falsch gelesene PDFs können weiterhin zu falschen Antworten führen.

Kosten: RAG-Lösungen sind deutlich günstiger als eigene KI-Modelle zu trainieren. Der Hauptaufwand liegt in der Aufbereitung der Wissensdatenbank — also: Welche Dokumente sollen enthalten sein? In welchem Format? Mit welcher Qualität? Das ist menschliche Arbeit, keine Lizenzfrage.

Konkrete Empfehlung: Was sollte ein KMU 2025/2026 wählen?

Für die große Mehrheit der KMU in Österreich und Deutschland empfehlen wir folgende Strategie:

Einstieg: Beginnen Sie mit dem Enterprise-Plan der Public Cloud Ihres bestehenden Software-Anbieters. Microsoft 365 Copilot (wenn Sie Microsoft nutzen), Google Workspace Gemini (wenn Sie Google nutzen). Hier gelten klare Datenschutzverträge, Daten werden in der EU gespeichert, und Sie müssen keine neue Infrastruktur aufbauen.

Schritt zwei: Entwickeln Sie parallel eine RAG-Lösung für Ihre unternehmensspezifischen Wissensbereiche. Das kann mit Private-Cloud-Diensten (z.B. Azure AI Search kombiniert mit dem Azure OpenAI Service) aufgebaut werden und bietet ein hohes Datenschutzniveau bei vertretbaren Kosten — ab ca. 200 bis 500 Euro/Monat für kleinere Implementierungen.

Für sensible Anwendungsfälle: Bewerten Sie lokale Lösungen. Die Qualität von Open-Source-Modellen wie Llama und Mistral hat in den letzten zwei Jahren massiv zugenommen und ist für viele Unternehmensanwendungen ausreichend. Ein lokales Modell auf einem leistungsfähigen Server reicht für viele interne Anwendungen.

Was Sie vermeiden sollten: Mitarbeiter ohne Guidance mit Public-Cloud-Tools wie ChatGPT Free auf Unternehmensdaten loslassen. Das ist der direkte Weg zu Datenschutzverletzungen, IP-Verlust und DSGVO-Problemen — und es passiert gerade täglich in tausenden KMU, ohne dass die Geschäftsführung es weiß.

Abschluss: Daten-Readiness-Checkliste

Ist mein Unternehmen datenmäßig bereit für KI?

Beantworten Sie diese 15 Fragen ehrlich. Für jedes "Ja" vergeben Sie einen Punkt. Das Ergebnis zeigt Ihnen, wo Sie stehen — und wo Sie ansetzen müssen.

Datensilos und Integration

  1. Ich weiß, welche Systeme in meinem Unternehmen Daten enthalten (CRM, ERP, Excel, Buchhaltung, etc.).
  2. Die wichtigsten Datensysteme sind miteinander verbunden oder ich habe einen konkreten Plan, sie zu verbinden.
  3. Es gibt eine klare Verantwortlichkeit für jedes Datensystem in meinem Unternehmen.

Datenqualität

  1. Die wichtigsten Datenfelder in meinem CRM/ERP haben eine Vollständigkeitsquote von mindestens 80 Prozent.
  2. Es gibt standardisierte Eingaberegeln (z.B. Pflichtfelder, Dropdown-Menüs) für kritische Felder.
  3. Ich habe in den letzten 12 Monaten eine Stichproben-Analyse der Datenqualität durchgeführt oder zumindest veranlasst.

Datenherkunft und Eigentum

  1. Ich weiß, auf welcher rechtlichen Grundlage meine Kundendaten erhoben wurden.
  2. Ich habe für die wichtigsten Datenkategorien dokumentiert, für welche Zwecke ich sie nutzen darf.
  3. Für externe Datenquellen (eingekaufte Daten, Drittanbieter) habe ich die Lizenzvereinbarungen geprüft.

KI-Inventar

  1. Ich habe eine vollständige Liste aller KI-Tools und KI-Funktionen, die in meinem Unternehmen genutzt werden — einschließlich der Tools, die Mitarbeiter privat für Arbeitszwecke nutzen.
  2. Ich weiß, welche Daten diese KI-Tools verarbeiten und ob das mit der DSGVO vereinbar ist.
  3. Es gibt klare Richtlinien für Mitarbeiter, welche KI-Tools sie für welche Aufgaben nutzen dürfen — und welche nicht.

Cloud-Strategie und Datensicherheit

  1. Für alle genutzten KI-Dienste gibt es einen Auftragsverarbeitungsvertrag (AVV) mit dem Anbieter.
  2. Mitarbeiter wissen, welche Daten sie nicht in Public-Cloud-KI-Tools eingeben dürfen (z.B. Kundendaten, Geschäftsgeheimnisse, Mitarbeiterdaten).
  3. Ich habe entschieden und kommuniziert, welche Datenkategorien in welchen Cloud-Diensten verarbeitet werden dürfen.

Auswertung

13–15 Punkte: Startklar.
Ihr Unternehmen hat eine solide Datenbasis. Sie können mit der KI-Einführung für konkrete Anwendungsfälle starten. Die offenen Punkte sollten Sie parallel angehen — sie werden spätestens bei komplexeren Projekten relevant.
9–12 Punkte: Auf dem richtigen Weg, aber Lücken schließen.
Sie sind grundsätzlich gut aufgestellt, aber es gibt klare Risikobereiche. Priorisieren Sie die Bereiche, in denen Sie unter dem Zielwert liegen, bevor Sie größere KI-Projekte starten. Insbesondere bei Datenqualität und KI-Inventar.
5–8 Punkte: Erheblicher Handlungsbedarf.
Investieren Sie zunächst in die Dateninfrastruktur und Governance, bevor Sie in KI investieren. Jeder Euro für Datenstrategie zahlt sich hier mehr aus als für KI-Lizenzen. Ein KI-Projekt jetzt zu starten, würde die bestehenden Probleme nicht lösen, sondern verstärken.
0–4 Punkte: Stopp — erst die Grundlagen klären.
Ein KI-Projekt ohne diese Grundlagen ist eine fast sichere Fehlinvestition. Beginnen Sie mit Baustein 1.1 (Datensilos) und arbeiten Sie sich durch die Checkliste. Das dauert nicht Jahre — aber es braucht Konsequenz und die richtigen Prioritäten.

Der nächste Schritt

Daten-Readiness ist keine einmalige Aufgabe. Sie ist ein fortlaufender Prozess, der mit der Reife Ihrer KI-Nutzung wächst.

Aber er muss irgendwo beginnen. Die wichtigste Erkenntnis aus diesem Modul:

Beginnen Sie nicht mit der Frage "Welche KI passt zu mir?" Beginnen Sie mit der Frage "Welche Daten habe ich, wo liegen sie, und wie gut sind sie?"

Die Antwort auf diese Frage — ehrlich und konkret beantwortet — ist das Fundament für jedes KI-Projekt, das tatsächlich Ergebnisse liefert. Ohne diese Grundlage ist auch die beste KI-Technologie nur eine teure Enttäuschung.

Dieses Dokument ist Teil der x10aix.tech Wissensbasis zur KI-Einführung im Mittelstand. Quellenstand: Juni 2026 — Version 2.6 (Quellenrevision, KMU-Minipfad, rechtliche Aussagen präzisiert, Quellenlogik geschärft).

Ausgewählte Quellen

Herausgeber: x10aix.tech — Projekt der Dräxler Versicherungsberatung GmbH, Hetzendorfer Strasse 73a, 1120 Wien. Kontakt: contact@x10aix.tech

KI-Kompass Updates erhalten

Benachrichtigung bei neuer Version — keine Werbung, kein Spam.

Sie wollen wissen, wo Ihr Unternehmen aktuell steht?

In einem AI Sounding Board prüfen wir gemeinsam, welche KI-Nutzung bei Ihnen bereits stattfindet, wo Risiken entstehen und welche nächsten Schritte wirtschaftlich sinnvoll sind.

▸ AI Sounding Board anfragen