Dimensions à changement lent (SCD) – Types | Data Warehouse

Classé dans : Articles | 0

Dimensions à changement lent: les dimensions à changement lent sont les dimensions dans lesquelles les données changent lentement, plutôt que de changer régulièrement sur une base temporelle.
par exemple, vous pouvez avoir une dimension client dans un domaine de vente au détail. Disons que le client est en Inde et chaque mois, il fait du shopping. Maintenant, la création du rapport de vente pour les clients est facile. Supposons maintenant que le client est transféré aux États-Unis et qu’il y fait des achats. Comment enregistrer un tel changement dans votre dimension client?,
Vous pouvez additionner ou faire la moyenne des ventes effectuées par les clients. Dans ce cas, vous n’obtiendrez pas la comparaison exacte des ventes réalisées par les clients. Comme le salaire du client est augmenté après le transfert, il / elle pourrait faire plus de shopping aux États-Unis par rapport à L’Inde. Si vous additionnez le total des ventes, les ventes effectuées par le client peuvent sembler plus fortes même si elles sont bonnes. Vous pouvez créer un deuxième enregistrement client et traiter le client transféré comme le nouveau client. Cependant, cela va créer des problèmes.,
Le traitement de ces problèmes implique des méthodologies de gestion SCD appelées Type 1 À Type 3. Les différents types de dimensions qui changent lentement sont expliqués en détail ci-dessous.
SCD Type 1: la méthodologie SCD Type 1 est utilisée lorsqu’il n’est pas nécessaire de stocker des données historiques dans la table des dimensions. Cette méthode remplace les anciennes données de la table de dimension par les nouvelles données. Il est utilisé pour corriger les erreurs de données dans la dimension.
par exemple, j’ai la table client avec les données ci-dessous.

surrogate_key customer_id customer_name Location------------------------------------------------1 1 Marspton Illions

Ici le nom du client est mal orthographiée., Ce devrait être Marston au lieu de Marspton. Si vous utilisez la méthode type1, elle écrase simplement les données. Les données dans le tableau mis à jour seront.

surrogate_key customer_id customer_name Location------------------------------------------------1 1 Marston Illions

L’avantage de type1 est la facilité d’entretien et moins d’espace occupé. L’inconvénient est qu’il n’y a pas de données historiques conservées dans l’entrepôt de données.
SCD Type 3: dans la méthode type 3, seuls l’état actuel et l’état précédent de la ligne sont conservés dans le tableau. Pour suivre ces modifications, deux colonnes distinctes sont créées dans le tableau., La table de dimension client dans la méthode de type 3 ressemblera à

surrogate_key customer_id customer_name Current_Location previous_location--------------------------------------------------------------------------1 1 Marston Illions NULL 

disons que le client passe D’Illions à Seattle et que la table mise à jour ressemblera à

surrogate_key customer_id customer_name Current_Location previous_location--------------------------------------------------------------------------1 1 Marston Seattle Illions

maintenant, si le client se déplace de seattle à NewYork, la table mise à jour sera

surrogate_key customer_id customer_name Current_Location previous_location--------------------------------------------------------------------------1 1 Marston NewYork Seattle

la méthode de type 3 aura un historique limité et cela dépend du nombre de colonnes que vous créez.
SCD Type 2: SCD type 2 stocke l’historique complet des données dans la table de dimension. Avec le type 2, nous pouvons stocker un historique illimité dans la table des dimensions., Dans le type 2, vous pouvez stocker les données de trois façons différentes. Ils sont

  • Versioning
  • Marquage
  • date D’entrée en vigueur

SCD Type 2 Versioning: dans la méthode de versioning, un numéro de séquence est utilisé pour représenter la modification. Le dernier numéro de séquence représente toujours la ligne actuelle et les numéros de séquence précédents représentent les données passées.
à titre d’exemple, utilisons le même exemple de client qui change d’emplacement. Initialement, le client est dans l’emplacement Illions et les données dans la table de dimension auront l’air.,

surrogate_key customer_id customer_name Location Version--------------------------------------------------------1 1 Marston Illions 1

Le client passe d’Illions à Seattle et le numéro de version sera incrémenté. La table de dimension aura l’apparence

surrogate_key customer_id customer_name Location Version--------------------------------------------------------1 1 Marston Illions 12 1 Marston Seattle 2

maintenant, si le client est déplacé vers un autre emplacement, un nouvel enregistrement sera inséré dans la table de dimension avec le numéro de version suivant.
Marquage SCD Type 2: dans la méthode de marquage, une colonne de drapeau est créée dans la table de dimension. L’enregistrement actuel aura la valeur de drapeau comme 1 et les enregistrements précédents auront le drapeau comme 0.
Maintenant, pour la première fois, la dimension client sera comme.,

surrogate_key customer_id customer_name Location flag--------------------------------------------------------1 1 Marston Illions 1

maintenant, lorsque le client se déplace vers un nouvel emplacement, les anciens enregistrements seront mis à jour avec la valeur de drapeau comme 0 et le dernier enregistrement aura la valeur de drapeau comme 1.

surrogate_key customer_id customer_name Location Version--------------------------------------------------------1 1 Marston Illions 02 1 Marston Seattle 1

SCD Type 2 Date D’entrée en vigueur: dans la méthode date D’entrée en vigueur, la période de la modification est suivie à l’aide des colonnes start_date et end_date dans le tableau des dimensions.
Le NULL dans la End_Date indique la version actuelle des données et les enregistrements restants indiquent les données passées.,
lecture recommandée:
SCD type 4-dimension à croissance rapide
Data Warehouse modélisation dimensionnelle (types de schémas)
types de faits dans Data Warehouse
types de Dimensions dans data warehouse
conception logique et physique de Data Warehouse
Si vous aimez cet article, partagez-le ou cliquez sur le bouton google +1.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *