Ein Data Warehouse ist eine zentralisierte, für Analysen optimierte Datenbank, die Daten aus verschiedenen Quellen sammelt, in ein einheitliches Format transformiert und für historische sowie aktuelle Analysen speichert. Der ETL-Prozess (Extrahieren, Transformieren, Laden) ist der zentrale Mechanismus zur Datenbeschaffung. Datenqualität ist eine Kernaufgabe beim Aufbau und Betrieb eines Data Warehouses.
Relevanz: Unterschied DWH vs. Datenbank vs. Data Lake, ETL-Schritte und ihre Ziele, Datenqualitätsfaktoren (Genauigkeit, Vollständigkeit, Konsistenz), Komponenten eines DWH, Staging Area, Data Marts.
ETL (Extract, Transform, Load)Prozess zum Extrahieren von Daten aus Quellsystemen, deren Transformation (Bereinigung, Homogenisierung, Aggregation) und anschliessenden Laden ins Data Warehouse.Staging AreaTemporärer Zwischenspeicher für Rohdaten aus Quellsystemen vor der Transformation; erster Schritt der Data-Warehouse-Architektur.Data MartAbteilungsspezifischer, spezialisierter Datenspeicher (Teilmenge eines DWH), der auf die Analysebedürfnisse einzelner Bereiche (z. B. Vertrieb, Finanzen) zugeschnitten ist.Data LakeSpeicher für rohe, unverarbeitete Daten aller Art (strukturiert und unstrukturiert), deren Verwendungszweck noch nicht festgelegt ist; Rohdaten werden bei Bedarf ins DWH überführt.MetadatenDaten über Daten; beschreiben Datenquelle, Nutzung und Struktur; unterteilt in geschäftliche Metadaten (Kontext, Bedeutung) und technische Metadaten (Zugriff, Speicherort).Data GovernanceGesamtheit der Richtlinien, Prozesse und Standards für den Umgang mit Unternehmensdaten; regelt Datenqualität, -sicherheit und -nutzung.DatenqualitätZentrales Qualitätsmerkmal eines DWH; Faktoren sind Genauigkeit, Vollständigkeit und Konsistenz der gespeicherten Daten.Semantische HomogenitätEinheitliche Bedeutung gleicher Begriffe über verschiedene Datenquellen hinweg; Ziel der ETL-Transformation.Data WranglingAufbereitungsprozess für Rohdaten (Gather, Assess, Clean), um qualitativ hochwertige, analysetaugliche Daten zu erzeugen (z. B. Währungen vereinheitlichen, Dubletten entfernen). ---