Dimensiones que cambian lentamente (SCD) – tipos | almacén de datos

publicado en: Articles | 0

dimensiones que cambian lentamente: las dimensiones que cambian lentamente son las dimensiones en las que los datos cambian lentamente, en lugar de cambiar regularmente en función del tiempo.
por ejemplo, puede tener una dimensión cliente en un dominio minorista. Digamos que el cliente está en la India y cada mes hace algunas compras. Ahora crear el informe de ventas para los clientes es fácil. Ahora supongamos que el cliente es transferido a Estados Unidos y hace compras allí. ¿Cómo registrar tal cambio en su dimensión de cliente?,puede sumar o promediar las ventas realizadas por los clientes. En este caso no obtendrá la comparación exacta de las ventas realizadas por los clientes. A medida que el salario del cliente aumenta después de la transferencia, él/ella podría hacer más compras en Estados Unidos en comparación con la India. Si suma las ventas totales, entonces las ventas realizadas por el cliente podrían verse más fuertes incluso si es bueno. Puede crear un segundo registro de cliente y tratar al cliente transferido como el nuevo cliente. Sin embargo, esto también creará problemas.,el manejo de estos problemas implica metodologías de gestión de SCD que se denominan de tipo 1 A Tipo 3. Los diferentes tipos de dimensiones que cambian lentamente se explican en detalle a continuación.
SCD tipo 1: la metodología SCD tipo 1 se utiliza cuando no hay necesidad de almacenar datos históricos en la tabla de dimensiones. Este método sobrescribe los datos antiguos de la tabla de dimensiones con los datos nuevos. Se utiliza para corregir errores de datos en la dimensión.
como ejemplo, tengo la tabla de clientes con los datos a continuación.

surrogate_key customer_id customer_name Location------------------------------------------------1 1 Marspton Illions

Aquí el nombre del cliente es escritos erróneamente., Debería ser Marston en lugar de Marspton. Si utiliza el método type1, simplemente sobrescribe los datos. Los datos en la tabla actualizada serán.

surrogate_key customer_id customer_name Location------------------------------------------------1 1 Marston Illions

La ventaja de type1 es la facilidad de mantenimiento y menos espacio ocupado. La desventaja es que no hay datos históricos guardados en el almacén de datos.
SCD Tipo 3: en el método tipo 3, solo se mantiene el estado actual y el estado anterior de la fila en la tabla. Para realizar el seguimiento de estos cambios se crean dos columnas separadas en la tabla., La tabla de dimensión cliente en el método tipo 3 se verá como

surrogate_key customer_id customer_name Current_Location previous_location--------------------------------------------------------------------------1 1 Marston Illions NULL 

digamos, el cliente se mueve de Illions a Seattle y la tabla actualizada se verá como

surrogate_key customer_id customer_name Current_Location previous_location--------------------------------------------------------------------------1 1 Marston Seattle Illions

Ahora de nuevo si el cliente se mueve de seattle a NewYork, entonces la tabla actualizada será

surrogate_key customer_id customer_name Current_Location previous_location--------------------------------------------------------------------------1 1 Marston NewYork Seattle

El método Type 3 tendrá un historial limitado y depende del número de columnas que cree.SCD tipo 2: SCD tipo 2 almacena todo el historial de los datos en la tabla de dimensiones. Con el tipo 2 podemos almacenar historial ilimitado en la tabla de dimensiones., En el tipo 2, puede almacenar los datos de tres maneras diferentes. Son

  • Versioning
  • Flagging
  • Effective Date

SCD Type 2 Versioning: en el método de versionado, se usa un número de secuencia para representar el cambio. El último número de secuencia siempre representa la fila actual y los números de secuencia anteriores representan los datos anteriores.
Como ejemplo, usemos el mismo ejemplo de cliente que cambia la ubicación. Inicialmente, el cliente se encuentra en la ubicación de Illions y los datos en la tabla dimension se verán como.,

surrogate_key customer_id customer_name Location Version--------------------------------------------------------1 1 Marston Illions 1

El cliente se mueve desde Illones de Seattle y el número de versión se incrementa. La tabla de dimensiones se verá como

surrogate_key customer_id customer_name Location Version--------------------------------------------------------1 1 Marston Illions 12 1 Marston Seattle 2

Ahora de nuevo si el cliente se mueve a otra ubicación, se insertará un nuevo registro en la tabla de dimensiones con el siguiente número de versión.marcado SCD tipo 2: en el método de marcado, se crea una columna de marcado en la tabla de dimensiones. El registro actual tendrá el valor de la bandera como 1 y los registros anteriores tendrán la bandera como 0.
Ahora por primera vez, la dimensión cliente se verá como.,

surrogate_key customer_id customer_name Location flag--------------------------------------------------------1 1 Marston Illions 1

Ahora, cuando el cliente se mueva a una nueva ubicación, los registros antiguos se actualizarán con el valor de flag como 0 y el último registro tendrá el valor de flag como 1.

surrogate_key customer_id customer_name Location Version--------------------------------------------------------1 1 Marston Illions 02 1 Marston Seattle 1

SCD Type 2 Effective Date: en el método Effective Date, el período del cambio se rastrea utilizando las columnas start_date y end_date en la tabla dimension.
El NULL en End_Date indica la versión actual de los datos y los registros restantes indican los datos pasados.,
Lectura Recomendada:
SCD type 4-Fast growing dimension
Data Warehouse Dimensional Modelling (Types of Schemas)
Types of Facts in Data Warehouse
Types of Dimensions in data warehouse
Diseño Lógico y físico de Data Warehouse
Si le gusta este artículo, compártalo o haga clic en el botón google +1.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *