Langsam ändernde Dimensionen (SCD) – Typen | Data Warehouse

Veröffentlicht in: Articles | 0

Langsam ändernde Dimensionen: Langsam ändernde Dimensionen sind die Dimensionen, in denen sich die Daten langsam ändern, anstatt sich regelmäßig auf Zeitbasis zu ändern.
Zum Beispiel können Sie eine Kundendimension in einer Retail-Domain haben. Angenommen, der Kunde ist in Indien und kauft jeden Monat ein. Jetzt ist es einfach, den Verkaufsbericht für die Kunden zu erstellen. Gehen Sie nun davon aus, dass der Kunde in die USA versetzt wird und dort einkauft. Wie zeichnet man eine solche Änderung in Ihrer Kundendimension auf?,
Sie könnten Summe oder Durchschnitt der Umsatz von den Kunden getan. In diesem Fall erhalten Sie nicht den genauen Vergleich der Verkäufe der Kunden. Da das Kundengehalt nach der Übertragung erhöht wird, könnte er/sie mehr einkaufen in den Vereinigten Staaten im Vergleich zu in Indien tun. Wenn Sie den Gesamtumsatz summieren, dann könnte der Umsatz durch den Kunden stärker aussehen, auch wenn es gut ist. Sie können einen zweiten Kundendatensatz erstellen und den übertragenen Kunden als neuen Kunden behandeln. Dies wird jedoch auch Probleme verursachen.,
Umgang mit diesen Fragen beinhaltet SCD-Management-Methoden, die als Typ 1 bis Typ 3 bezeichnet. Die verschiedenen Arten von sich langsam ändernden Abmessungen werden im Folgenden ausführlich erläutert.
SCD Typ 1: SCD Typ 1 Methodik wird verwendet, wenn es keine Notwendigkeit, historische Daten in der Dimensionstabelle zu speichern. Diese Methode überschreibt die alten Daten in der Dimensionstabelle mit den neuen Daten. Es wird verwendet, um Datenfehler in der Dimension zu korrigieren.
Als Beispiel habe ich die Kundentabelle mit den folgenden Daten.

surrogate_key customer_id customer_name Location------------------------------------------------1 1 Marspton Illions

Hier ist der Kundenname falsch geschrieben., Es sollte Marston statt Marspton sein. Wenn Sie die type1-Methode verwenden, werden die Daten einfach überschrieben. Die Daten in der aktualisierten Tabelle werden sein.

surrogate_key customer_id customer_name Location------------------------------------------------1 1 Marston Illions

Der Vorteil von typ1 ist einfache Wartung und weniger Platz. Der Nachteil ist, dass keine historischen Daten im Data Warehouse aufbewahrt werden.
SCD Typ 3: In Typ 3 Methode wird nur der aktuelle Status und vorherigen Status der Zeile in der Tabelle beibehalten. Um diese Änderungen zu verfolgen, werden zwei separate Spalten in der Tabelle erstellt., Die Kundendimensionstabelle in der Typ-3-Methode sieht aus wie

surrogate_key customer_id customer_name Current_Location previous_location--------------------------------------------------------------------------1 1 Marston Illions NULL 

Angenommen, der Kunde wechselt von Illions nach Seattle und die aktualisierte Tabelle sieht aus wie

surrogate_key customer_id customer_name Current_Location previous_location--------------------------------------------------------------------------1 1 Marston Seattle Illions

Wenn der Kunde nun erneut von Seattle nach NewYork wechselt, lautet die aktualisierte Tabelle

surrogate_key customer_id customer_name Current_Location previous_location--------------------------------------------------------------------------1 1 Marston NewYork Seattle

Die Typ-3-Methode hat eine begrenzte Historie und dies hängt von der Anzahl der erstellten Spalten ab.
SCD Typ 2: SCD Typ 2 speichert den gesamten Verlauf der Daten in der Dimensionstabelle. Mit Typ 2 können wir unbegrenzten Verlauf in der Dimensionstabelle speichern., In Typ 2 können Sie die Daten auf drei verschiedene Arten speichern. Sie sind

  • Versionierung
  • Flagging
  • Gültigkeitsdatum

SCD Typ 2 Versionierung: In der Versionierungsmethode wird eine Sequenznummer verwendet, um die Änderung darzustellen. Die neueste Sequenznummer repräsentiert immer die aktuelle Zeile und die vorherigen Sequenznummern die vergangenen Daten.
Als Beispiel verwenden wir das gleiche Beispiel des Kunden, der den Standort ändert. Anfangs befindet sich der Kunde am Illions-Standort und die Daten in der Dimensionstabelle sehen so aus.,

surrogate_key customer_id customer_name Location Version--------------------------------------------------------1 1 Marston Illions 1

Der Kunde wechselt von Illions nach Seattle und die Versionsnummer wird erhöht. Die Dimensionstabelle sieht aus wie

surrogate_key customer_id customer_name Location Version--------------------------------------------------------1 1 Marston Illions 12 1 Marston Seattle 2

Wenn der Kunde an einen anderen Speicherort verschoben wird, wird ein neuer Datensatz mit der nächsten Versionsnummer in die Dimensionstabelle eingefügt.
SCD Typ 2 Flagging: In Flagging-Methode wird eine Flag-Spalte in der Dimensionstabelle erstellt. Der aktuelle Datensatz hat den Flag-Wert als 1 und die vorherigen Datensätze haben das Flag als 0.
Nun zum ersten Mal wird die Kundendimension aussehen.,

surrogate_key customer_id customer_name Location flag--------------------------------------------------------1 1 Marston Illions 1

Wenn der Kunde nun an einen neuen Speicherort wechselt, werden die alten Datensätze mit dem Flag-Wert 0 aktualisiert und der neueste Datensatz hat den Flag-Wert als 1.

surrogate_key customer_id customer_name Location Version--------------------------------------------------------1 1 Marston Illions 02 1 Marston Seattle 1

SCD Typ 2 Datum des Inkrafttretens: Bei der Methode des effektiven Datums wird der Zeitraum der Änderung mithilfe der Spalten start_date und end_date in der Dimensionstabelle verfolgt.
Die NULL in der End_Date gibt die aktuelle Version der Daten und die restlichen Datensätze zeigen die vergangenen Daten.,
Empfohlene Lektüre:
SCD Typ 4-Schnell wachsende Dimension
Data Warehouse Dimensionale Modellierung (Arten von Schemata)
Arten von Fakten im Data Warehouse
Arten von Dimensionen im Data Warehouse
Logisches und physisches Design des Data Warehouse
Wenn Ihnen dieser Artikel gefällt, teilen Sie ihn bitte mit oder klicken Sie auf die Schaltfläche Google +1.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.