Metodologia para el DiseRo de Alnlacenes de Datos Etapa de Modelado Conceptual Jos Marfa Caverol, Esperanza Marcosl y Mario Piattini2 IEscuela Superiorde Ciencias ExperimentaZese Ingenieria-,UniversidadRey JuanCarZos,Cane TuZipdB s/n, 28933 M6stoles (Madrid),Espaha, Fax: 34 91 6647490, {j.m.cavero,e.marcos}@escet"urjc.es 2Escuela Superior de Informatica,Universidad de Castilla-LaMancha, Ronda de Calatrava5, 13071 Ciudad Real, Espafia,Fax: 34 926 295354, mpiattin@inf"cr.uclm.es Abstract (On-Lz"ne transactional processing) tradicionales estdn optimizados para proporcionar un elevado EL desarrolLo de uvzALmace.nde Datos ( Data rendimiento en el procesamientode un gran ndmero Warehouse) se ha convertido en unfactor Crin.code de transacciones concurrentes, que habitualmente exfro para machos compan"-i"as. De sa caLidadpaede afectan a un reducido numero de registros,mientras depender La supervz-vencia de la compan.-iaen an que IDS sistemas multidimensionales ban de mercado coda vez mas competz.lino.Por tanto, no responder a consultas complejas Ca veces es rezonabLe manejar el proceso .de construcci6n impredecibles) que acceden a una enorme cantidad juera deL marco de trabajo de ana metodoLogia. de re__oistros [1]. Desgraciadamente, ext.sten pocas metodologias Una posible soluci6n consiste en la completes para el disen-o de almacenes de datos. implantaci6n de un 51.sternsde almacn de datos, En este trabajo se presenta MIDEA, ana que proporciona un repositorio de inforrnaci6n metodoLogia basada en an modeLo conceptual procedente fundarnentalmente de sistemas muLtidimensionaL.La metodoLogz~autilz"za como operacionales (OLTP) que proporciona los datos marco de referencia Laversion 3 de la MetodoLogla para el procesamiento analftico y la toma de PAbLz`ca Espahola de PLaniflcaci6ny Desarrollo de decisiones. Contiene datos refxnados, hist6ricos, Sistemas de Informaci6n (METRICA). Porte de La resumidos y no voltiles, y son bases de datos metodoLogz~a est& soportada por ana herramienta fundamentalmente de s6lo lectura, es decir, las CASE ( IDEA-DWCASE), de La que Se dispone de actualizaciones se Bevan a cabo espo icamente, an primer prototipo. Ofreceremos ana vision de forma controlada y masiva, y habitualmente general tanto de La metodoLogzacomo deL modeLo fuerade los horarios de trabajo. conceptual, y profandz"zaremos,a modo de ejempLo, El inter6s de la industria en este tipo de en Una de Las actividades qae La componen: el tecnologia se refleja en el hecho de que el modelado conceptual. crecirniento de las ventas y estx~maciones realizadas entre 1998 y 2002 es superioral 20% annal [14]. For lo tanto, los sistemas de almacen de datos 1. Introducci6n proporcionan a los anah`stas un entomo integrado de informaci6n organizada de acuerdo a Sus La necesidad de poder disponer de una forma requisitos. Habitualmente se utilizan herramientas rzipiday sencilla de toda la informaci6n hist6rica OLAF (On-line Analytical Processing) como presenteen los sistemas operacionales y su uso para herramientasfrontales para el acceso a los datos. la toma de decisiones ha empujadoa las empresas y Aunque existen modelos hibridos, y distintas a la comunidadcientifica a buscarnuevas formas de variaciones sobre los bdsicos, podemos hablar estructuraci6n y acceso a estos datos de forrna fundamentalmente de dos tipos de arquitecturas eficiente para, de esta forma, conseguir una ventaja [151: la arquitecturaROLAP (Relational OLAP), y con Sus competidores.Existe un acuerdo en que los la arqul"tecturaMOLAP (MaLtidimensionaLOLAP). sistemas tradicionales de bases de datos no resultan En una arquitectura ROLAP, los datos se adecuados para realizar consultas analiticas sobre almacenan en tablas relacionales organizadas en un ellos desde una perspectiva multidimensional, que esqaema en estreLla [7] o a15curia de Sus natl.antes, es la forma en la que los analistas de negocio ven ofreciendo de esta forma una interfaz los dams de la organizaci6n. Los sistemas OLTP multidimensional a las tablas relacionales. Un QuaTIC'2001 / 107 esquema en estrella consiste en una tabla central de hechoSde grantamafioy varias tablas de dimensi6n 2. Trabajos reladonados a su alrededor cuyas claves primarias son claves ajenasen la tabla de hechos. Las medidas de inter6s A pesar de la evidente importancia que tiene para el proceso analitico se almacenanen las tablas disponer de un soporte metodol6gico para el de hecho, mientras que por cada dimensi6n desarrollo de un sistema OLAF de calidad, el (Tiempo, Geografia, etc.) existira Una tabla de proceso de disebo hastaahora ha recibido may poca dimensi6n, que contenc[rd todos los niveles de atenci6n por parte de la comunidad cientifica y de agregaci6n (en el esquema en copo de nieve, o los proveedores de productos~ Los modelos versi6n normalizada del esquema en estrella, cada habitualmenteutilizados para el discho de bases de nivel de agregaci6n formardsu propia tabla). datos operacionales, como el modelo EiR, no En Una arquitecturaMOLA?, sin embargo, los deberian utilizarse sin rods para el discfio de datos se almacenan directamente en estructuras entomos analiticos. Atendiendo a motivos multidimensionales, proporcionando por tanto puramente t6cnicos, las bases de datos obtenidas directamente una visi6n multidimensional, sin como resultado del modelado con esta teenica son ningdn artificio similar aI caso relacional. El inapropiadaspara sistemas de soporte a la decisi6n rendimiento de este tipo de sistemas suele ser en los que es importante la eficiencia en las superior al caso relacional pero, probablemente consultas y en la carga de los datos (incluyendo las debido a la poca madurez de este tipo de sistemas, cargas incrementales)[2]. Ademas, como Se sefiala todavfa no son capaces de almacenar la gram en [71, los modelos de datos E/ft "no son cantidad de informaci6n que soportan los sistemas comprendidos por Los asuarios y no puede relacionales y por ello en ocasiones Se utilizan navegarse de forma Atit por CUDSmediante el como almacenes de datos departamentales(data software de LosSGBD" ?or tanto, no s61o deberia marts) que pueden alimentarse de un almacn de ser obligatorio que el paradigma multidimensional datos corporativorelacional. Se utilizarapara consultarla base de datos, sino que Los entomos OLTP y OLAF son tambi6n deberia utilizarse para su disc6o y profundamentediferentes, y las t6cnicas utilizadas mantenirniento. Para utilizar el paradigms para el diseiio de bases de datos operacionales son multidimensional durante todas las fases de inapropiadaspara el diseho de almacenes de datos desarrollo es necesario "definir para este [7], [8}~ El proceso de desarrollarun almacn de paradigma modelos de datos conceptaales, l6gicos datos es, como cualquier tarea Queimplique alg6n ysicos, y desarrollar una metodologia vdlida qae tipo de integraci6n de recursos preexistentes (en proporcione galas acerca de c6mo crear y este caso, datos procedentes fundamentalmentede transformar 65105 modeLos durante el proceso de sistemas heredados), sumamente complejo, y desarroLlo" [3]. En [16] se propone la utilizaci6n exigira "an gran eacrzo sajeto a errores, del modelo multidimensional para la fase de generalmente jiastrante, y qae LLevaa que machos modelado conceptual y el relacional para las fases proyectos se abandonen antes de sa terminaci6n " de dise6o I6gico y fisico, debido a su s6lido [13]. fundamento matemtico para el procesamiento de A este respecto, en los dltimos ahOs ha habido consultas,y reclaman la necesidad de metodologias bastantes propuestas restringidas a algunos de los y herramientasde diseho para almacenes de datos aspectos particulates del disefio de los almacenesde con un soporte apropiado para la jerarquias de datos, sin embargo, `.aunqae Se han desarrollado agregaci6n, correspondencias entre modelos muchas solaciones para sabproblemas interesantes, multidimensionales y relacionales y modelos de como el manejo de datos maLtidimensionales, oste para el particionamiento y la agregaci6n que mantenimiento de vistas para datos agregados, pueden utilizarse desde las primeras etapas del integraci6n de datos, etc., la combinaci6n de estas diSeho. solaciones parciales y a menado muy abstractas en En los tiltimos ados ban aparecido diferentes ana metodologla completa de diseho y ana propuestas metodol6gicas para el desarrollo de estrategia de warehoasing todavia se deja en almacenes de datos. For ejemplo, en [8] los autores monos de Losdesarrolladores" {4]. plantean una aproximaci6n basada en dos panics: En el siguiente apartado Se resumen algunos por Unaparte, la Arquitecturaen Bus del Almac6n trabajos relacionados. En el apartado3 ofrecemos de Datos (Data Warehouse Bus Architectare), Que Unavisi6n general de la metodologia. El apartado4 mostrardc6mo construiruna sucesi6n de almacenes muestra, a modo de ejemplo, un resumen de una de de datos departamentales Que, finalmente, las actividades de la metodologia. For ultimo, permitirlincrearun almac6nde dates corporativoy, terrninaremoscon unas conclusiones. por otra, la aproximaci6n basada en el Ciclo de 108 / QuaTIC2001 Vida Dimensional del Negocio (Busbess multidimensionalde datos, denominadoIDEA que Dimensional Lecycle BDL approach), que tiene permite modelar esquemas conceptuales como objetivos la construcci6n, a partir de los multidimensionales- requisitos del negocio, de almacenes de datos departamentales basados en modelos dimensionales 3. PropueStal en estrella. Es Una metodologia muy detallada y, segdn los propios autores, ampliamente probada. Segdn (17), la caJidad total de los sistemas de Sin embargo, esta excesivamente centrada en el informaci6n es un concepto multidimensional, que rnodeJo reJacionaJ ya desde las fases iniciales deJ engloba a Jassiguientes dimensiones (figura J): modelado dimensional, . Calidad de las infraestructuras, que En [1], los autores presentan tanto un modelo engloba al hardware y el software que lo l6gico para el disefio de bases de datos soporta (por ejemplo, rodes, software de multidimensionales (Ilamado MD) como una sistema, etc") metodologia de disefio para obtener un esquema . Calidad del software, es decir, la calidad MD a partly de bases de datos operacionales. Para de las aplicaciones construidas, elfo utilizan como punto de partida un esquema E/R mantenidas o soportadas For el que describe una vista integrada de las bases de departamentode Sistemas de Informaci6n- datos operacionales, que contendrd toda la . Calidad de IDS datos de entrada a los informaci6n disponible para nuestro almacgn de distintos sistemas de informaci6n. datos, aunque en an formato no adecuado a este . Calidad de la inforrnaci6n, es decir, la tipo de sistema~ La metodologia consta, por una calidad de las salidas resultantes de los parte, de una serie de pasos para la construcci6n del sistemas de inforrnaci6n.En ocasiones, Ja esquema en el modelo MD, y por otra de una salida de un sistema se convierte en transforrnaci6n tanto al modelo relacional como a entrada de otro, por lo que la calidad de la matrices multidimensionales. La metodologia es informaci6n estd relacionada con la adn incomplete y pane de Una situaci6n ideal, calidad de los datos, suponiendo que toda la informaci6n estard incluida . Calidad administrativa,es decir, la calidad en el esquema E/R. Sin embargo, los esquemas de la gesti6n en la funci6n del operacionales deberian ser simplemente un apoyo, departamentode Sistemas de Informaci6n. dando una mayor importancia a los requisitos de los * Calidad de los servicios, que incluye la usuarios analiticos. calidad de los procesos de soporte aI En [6) se esboza un marco metodol6gico para el cliente, tales como los relativos a los .help disefio de almacenes de datos basado en el modelo desk'. conceptuaJ de Jos mismos auto/es, JJamado La metodofogfa de desarrollo que presentamos Dimensional Fact Model (DFM). La metodologia en el presente articulo tendn-a como objetivo adrl Se encuentra incompleta, y de momento Se fundamentalconseguir la calidad de la informaci6n centra dnicamente en la implementaci6n relacional. analitica suministradaa los usuarios que toman las Existen muchas otras propuestas parciales, decisiones en la empresa aunque, evidentemente, centradas en aspectos may particulates como tambien influirden (y se nerd inffuida por) el resto transformaci6n entre modelos, materizalizaci6n de de las dimensiones que engloban la calidad, taJ vistas, indices, etc. Por ejemplo, en [J2] Se propone como se muestraen la figura I . utilizer t6cnicas de data mining en las fases de dise6o del almac6n de datos (aJgoritmos de data mining para descubrir informaci6n implfcita en los datos, para la resoluci6n de conflictos de la integraci6n de esquemas para la compleci6n de valores perdidos y la correcci6n de ruido en los datos y datos incorrectos, etc.)" Como resumen. podemos decir que aunque existe un acuerdo en cuanto a la necesidad de metodologias y herramientas para el desarrolfo de aJmacenes de datos de calidad, todavia no existe ninguna undnimemente aceptada- En el presente articulo present&mos MIDEA, una metodologia de desarrollo de almacenes de datos. La metodologia utiliza en su fase de andlisis un modelo conceptual QuaTIC,2001 / 109 Cdidad dc los Sistemas de kLforz:I:laci6o Figura 1. Dimensiones de la cal\dad Figura 2. Prototipo IDEA-DWCASE La metodologia desarrolladaSe engloba dentro del marco del proyecto EINSTEIN. EINSTEIN es un proyecto de Investigaci6n y desarrollo Que aplica la experiencia y el conocimiento obtenido en el desarrollo de sistemas de bases de datos principal de IDEA es el Esquerna de Hecho, y es TelaCiOnales en la ultima d6cada (SQL, modelado E/R, herramientas CASE, metodologfas, ...) al el modelo de datos relacional y al de tipo de entidad disefio de bases de datos multidimensionales (BDMDs). descripci6n de un espacio n-dimensional Que El proyecto propone Una metodologia de contiene informaci6n relevante para su desarrollo de BDMD (Bases de Datos procesamiento analitico. Todo Esquema de Hecho MultiDimensionales) analog& a las tradicionales consta de un conjunto de dimensiones, Una que Se ban utilizado en el desarrollo de sistemas de estructurade celda, y puede, o no, tener definido an bases de datos relacionales. La metodologia utiliza predicado, de tal forma Quelos datos contenidos en como rnodelo conceptual en su lase de andlisis un la extensi6n del EH Sean dnicamente aquellos Que modelo conceptual multidimensional denominado cumplan el predicado. Cada dimensi6n esni IDEA desarrollado asimismo en el marco del asociada a un atributo de dimensi6n, el cual. en proyecto EINSTEIN [II). Ademds, parte de esta caso de Queaqu6Ilaest6 asociada a una subjerarqufa metodologia estd soportada por una herramienta de atributos, ser su rafz" For otra parte, la CASE (IDEA-DWCASE) que incorpora una estructura de celda consta de una estructura de interfaz grdfica [IO]. Esta herramienta permite la subcelda (Quecontiene un atributode sintesis y un transformaci6nde un esquema conceptualIDEA en conjunto de funciones de sintesis definidas sobre un esquema l6gico basado en el modelo soportado eSte) y puede tener an conjunto de m6todos, Que por algunos productos multidimensionales o son procedimientos aplicados sobre una o ms relacionales. La figura 2 muestra Una neatens del estructurasde subceldas. prototipo de la herrarnienta,cuya notaci6n grdflea A.continuaci6n ofreceremos Unavisi6n general Se basa en [SJ. de la metodologfa y profundizaremos, a modo de ejemplo, en una de Sus actividades. IDEA Se utiliza para comprender y representer los requisitos de los usuarios analiticos de una forma similar a como el mOdelo de datos E/E se utiliza para interactuar con los usuarios de los microdatos. Los esquemas de datos elementales de 105 sistemas OLTf] existentes y los requisitos obtenidos de los usuerios de datos analfticos son las entradas principales en la construcci6n de los esquemas conceptuales multidimensionales en IDEA. I10 / QuaTIC2001 El siguiente paso consiste en transformar, La figura 3 muestra una visi6n global de la utilizando un conjunto de reglas metodol6gicas, metodologfa, mostrando el alcance de los tres cada esquema conceptual definido previamente en procesos Que la componen, ASI-MD, DSI-MD y un esquema l6gico en el modelo de cada producto CSI-MD. concreto, el cuaf puede ser un sistema de gesti6n de Cada uno de estos procesos se divide en bases de datos multidimensional puro o un sistema actividades y, a su vez, 6stas se descomponen en relacional con caracterisdcas multidimensionales tareas. El orden asignado a las actividades no debe (star joins, Indices bitmap, ...). Es necesario interpretarse necesariamente como "una secuencia destacar Que el procedimiento habitual en los en su realizaci6n, ya Que 6stas pueden realizarse en proyectos actuales es transformer directamente los orden diferente a su codificaci6n o bien en paralelo, esquemas relacionales en esquemas intercalando tareas de actividades diferentes. Sin multidimensionales soportados directamente por embargo, no se dar;i por concluido un proceso hasta herramientas OLAF. no haber terminado codas Sus actividades. En los La aproximaci6n del proyecto EINSTEIN grdficos Que acompaflan &cada proceso, se destacan perrnite la ingenieria inners& de esquemas las actividades Que tengan una implicaci6n multidimensionales especfficos existences en destacada en el desarro!lo de un almacdn de datos. esquemas conceptuales IDEA. Estos podrdn comprobarse con los requisitos de los usuarios OLAF para verificar Que el alrnac6n de datos actual ' IDS satisface. De igual modo, al contrario de la mayoria de las aproxirnaciones actuales, es posible crear y/o verificar esquemas E/R conceptuales elementales utilizando un conjunto de reglas contenidas en la metodologi.a para satisfacer los requisitos de los usuarios analfticos. Creemos Que esta`aproximaci6n no ha sido tratada en suficiente profundidad en los trabajos previos, en IDS Que norrnalmente s6lo podemos ver una direcci6n en el modelado . .~~ i`m uh dimensional: el Que va desde las bases de datos NI;ion11 operacionales hacia las anal(fleas, pero no el opuesto, es decir, desde \as necesidades analfticas hacia un disefio operacional. La metodologia utiliza como marco de ~o~OSi referencia la propuesta para la versi6n 3 de la (MOIAPOrBLRU:!c|