Data Warehousing kurz und knapp:

  • Die Daten von Subjekten (z.B. Kunden, Produkte, Verkäufe) werden gesammelt. Aufgaben im Geschäft
    (z.B. Bestellprozess) werden nicht im Data Warehouse durchgeführt.
  • Die Daten sind in einem einheitlichen Format gespeichert
  • Vergangene Daten werden gesammelt
  • Daten können nicht verändert werden

Ein Data Warehouse, ist eine Datenbank, die getrennt von der operativen Datenbank des Unternehmens geführt wird. Operative Datenbanken mit täglichen Transaktionen werden dauernd verändert. Da Daten heutzutage digitales Gold sind, möchten wir sie nicht einfach mit neuen Daten überschreiben. Dafür benutzen wir ein Data Warehouse als Auffangbecken. In diesem werden alle vergangenen Daten der operativen Datenbanken gesammelt, um Analysen und damit sinnvolle Geschäftsentscheidungen zu ermöglichen.

Data Warehouses bieten uns auch Werkzeuge aus dem Online Analytical Processing (OLAP), mit denen wir interaktiv Daten analysieren können. Solche Werkzeuge können auch Data Mining Funktionen wie z.B. Klassifikation, Clustering und Regressionen sein und können in Operationen des Data Warehouses integriert werden. Daher ist das Data Warehouse zu einer wichtigen Plattform für die Datenanalyse geworden.

Die am häufigsten genutzte Definition für Data-Warehousing kommt von Bill Inmon: „A data warehouse is a subject-oriented, integrated, time-variant, non-volatile collection of data.“

Subjekt-Orientierung (subject-oriented)

Subjekt-Orientierung bedeutet, dass das Data Warehouse nur Informationen von (mehreren) Subjekten wie z.B. Kunden, Produkten und Firmen sammelt. Mit den Informationen möchten wir Daten der Subjekte analysieren (z.B. Gehalt, Alter, Geschlecht, …), um als Manager Entscheidungen zu treffen. Data Warehousing ist nicht für die Erfüllung von Aufgaben im Kerngeschäft (z.B. Bestellprozess) gedacht. 

Integration (integrated)

Integration beschreibt das Vereinheitlichen der Daten von unterschiedlichen Quellsystemen (z.B. aus Excel, Rechnungen oder Webdateien). Wird in Rechnungen z.B. das Datumsformat Tag.Monat.Jahr verwendet, in Excel aber Jahr-Monat-Tag, wird es im Data Warehouse einheitlich gespeichert. Die Regeln dafür legt man bei der Erstellung der Datenbanken selbst fest.

Chronologisierung (time-variant)

Im Data Warehouse werden nicht nur die aktuellen Daten gesammelt, sondern auch die der Vergangenheit. Das ermöglicht uns, Daten über Jahre hinweg zu vergleichen und Zeittrends zu analysieren. 

Beständigkeit (non-volatile)

Sobald Daten im Data Warehouse sind, können sie nicht mehr verändert werden. Alte Daten werden nicht gelöscht, wenn neue Daten hinzukommen.

ARTIKEL TEILEN

Hast du Fragen? Hinterlasse einen Kommentar!