Business Intelligence · T3

Data Warehouse, ETL & Datenqualität

Überblick

Ein Data Warehouse ist eine zentralisierte, für Analysen optimierte Datenbank, die Daten aus verschiedenen Quellen sammelt, in ein einheitliches Format transformiert und für historische sowie aktuelle Analysen speichert. Der ETL-Prozess (Extrahieren, Transformieren, Laden) ist der zentrale Mechanismus zur Datenbeschaffung. Datenqualität ist eine Kernaufgabe beim Aufbau und Betrieb eines Data Warehouses.

Relevanz: Unterschied DWH vs. Datenbank vs. Data Lake, ETL-Schritte und ihre Ziele, Datenqualitätsfaktoren (Genauigkeit, Vollständigkeit, Konsistenz), Komponenten eines DWH, Staging Area, Data Marts.

Kernkonzepte
  • Data Warehouse (DWH): Zentralisierte Datenbank, speziell für Analysen und Berichte optimiert; sammelt Daten aus verschiedenen Quellen, transformiert sie in ein einheitliches Format und speichert sie für historische und aktuelle Analysen; ist von operativen Datenbanken separiert.
  • ETL-Prozess (Extrahieren, Transformieren, Laden): Extrahieren: Daten aus verschiedenen Quellsystemen entnehmen. Transformieren: Bereinigung, Homogenisierung, Aggregation und Konsolidierung. Laden: Bereitstellung der transformierten Daten im Data Warehouse.
  • ELT (Extract, Load, Transform): Variante von ETL, bei der die Daten erst ins Ziel geladen und dann transformiert werden; typisch für Cloud-Data-Warehouses.
  • Staging Area: Temporäre Speicherzone, in der Rohdaten aus den Quellsystemen zwischengespeichert werden, bevor sie transformiert und ins Data Warehouse geladen werden.
  • Data Mart: Spezialisierter, abteilungsspezifischer Datenspeicher (z. B. für Vertrieb, Finanzen), der oft als Teilmenge eines grösseren Data Warehouses implementiert ist.
  • Data Lake: Speichert rohe, unverarbeitete Daten (strukturiert und unstrukturiert), deren Nutzung noch nicht definiert ist. Im Gegensatz zum DWH werden Daten erst bei Bedarf bereinigt und transformiert.
  • Gründe für DWH statt nur Datenbank: Integration heterogener Datenquellen, Datenbereinigung für zuverlässige BI, Entlastung operativer OLTP-Systeme, Speicherung historischer Daten für Trendanalysen.
  • Datenqualitätsfaktoren: Genauigkeit (korrekte Namen, Kodierungen, Werte in zulässigen Bereichen), Vollständigkeit (minimale fehlende Werte), Konsistenz (einheitliche Form und Inhalt nach Integration über verschiedene Quellen).
  • Data Wrangling: Prozess der Datenaufbereitung mit den Schritten Gather (Daten sammeln), Assess (beurteilen), Clean (bereinigen); Ziel ist korrekter Gesamtumsatz, saubere Zeitreihen, vergleichbare KPIs.
  • Data Governance: Gesamtheit der Richtlinien, Prozesse und Standards, die den Umgang mit Unternehmensdaten regeln; zielt auf Verbesserung der Datenqualität ab.
Fachwörter & Glossar
  • ETL (Extract, Transform, Load)Prozess zum Extrahieren von Daten aus Quellsystemen, deren Transformation (Bereinigung, Homogenisierung, Aggregation) und anschliessenden Laden ins Data Warehouse.
  • Staging AreaTemporärer Zwischenspeicher für Rohdaten aus Quellsystemen vor der Transformation; erster Schritt der Data-Warehouse-Architektur.
  • Data MartAbteilungsspezifischer, spezialisierter Datenspeicher (Teilmenge eines DWH), der auf die Analysebedürfnisse einzelner Bereiche (z. B. Vertrieb, Finanzen) zugeschnitten ist.
  • Data LakeSpeicher für rohe, unverarbeitete Daten aller Art (strukturiert und unstrukturiert), deren Verwendungszweck noch nicht festgelegt ist; Rohdaten werden bei Bedarf ins DWH überführt.
  • MetadatenDaten über Daten; beschreiben Datenquelle, Nutzung und Struktur; unterteilt in geschäftliche Metadaten (Kontext, Bedeutung) und technische Metadaten (Zugriff, Speicherort).
  • Data GovernanceGesamtheit der Richtlinien, Prozesse und Standards für den Umgang mit Unternehmensdaten; regelt Datenqualität, -sicherheit und -nutzung.
  • DatenqualitätZentrales Qualitätsmerkmal eines DWH; Faktoren sind Genauigkeit, Vollständigkeit und Konsistenz der gespeicherten Daten.
  • Semantische HomogenitätEinheitliche Bedeutung gleicher Begriffe über verschiedene Datenquellen hinweg; Ziel der ETL-Transformation.
  • Data WranglingAufbereitungsprozess für Rohdaten (Gather, Assess, Clean), um qualitativ hochwertige, analysetaugliche Daten zu erzeugen (z. B. Währungen vereinheitlichen, Dubletten entfernen). ---