https://unimib.academia.edu/stefanofantin

https://unimib.academia.edu/stefanofantin

doi:https://unimib.academia.edu/stefanofantin

Data Warehousing e ERP | ARQUIVO CENTRAL DE DATOS: HISTORIA E EVOLUCIÓN

ARQUIVO DATOS CENTRAL: HISTORIA E EVOLUCIÓNS

Os dous temas dominantes da tecnoloxía corporativa na década de 90 son
afirma i data warehouse e o ERP. Durante moito tempo estes dous poderosos
actuais formaron parte da TI corporativa sen ter nunca
interseccións. Era case coma se fosen materia e antimateria. Pero
o crecemento de ambos os fenómenos levou inevitablemente a un
a súa intersección. Hoxe, as empresas afrontan o problema de
que facer co ERP e data warehouse. Este artigo ilustrarao
cales son os problemas e como os abordan as empresas.
AO INICIO…
Ao principio estaba o data warehouse. Almacén de datos naceu para
contrarrestar o sistema de aplicación de procesamento de transaccións.
Nos primeiros tempos a memorización de datos estaba destinado a ser
só un contrapunto ás aplicacións de procesamento informático
transaccións. Pero hoxe en día hai visións moito máis sofisticadas
do que a data warehouse. No mundo actual o
data warehouse insírese dentro dunha estrutura que pode ser
denominada Fábrica de Información Corporativa.
A FÁBRICA DE INFORMACIÓN CORPORATIVA
(CIF)
A Fábrica de Información Corporativa ten compoñentes arquitectónicos
estándar: un nivel de transformación e integración de código
que integra i datos mentres eu datos móvense do entorno de
aplicación cara ao medio ambiente de data warehouse da empresa; a
data warehouse da empresa onde o datos
historias detalladas e integradas. O data warehouse da empresa serve como
cimentación sobre a que se poden construír todas as demais partes
do medio ambiente data warehouse; un almacén de datos operativos (ODS).
Un ODS é unha estrutura híbrida que contén algúns aspectos dos datos
almacén e outros aspectos dun ambiente OLTP; data marts, onde i
Os diferentes departamentos poden ter a súa propia versión dos datos
almacén; a data warehouse de exploración na que i
Os "filósofos" das empresas poden enviar as súas consultas
72 horas sen efectos nocivos data warehouse; e un recordo
preto da liña, onde datos vello e datos detalle a granel pode ser
almacenado barato.
ONDE ERP SE UNE A LA
FÁBRICA DE INFORMACIÓN CORPORATIVA
O ERP fusiona coa Fábrica de Información Corporativa en dous lugares.
Primeiro como aplicación básica (línea de base) que proporciona i
datos da aplicación a data warehouse. Neste caso i datos,
xerado como subproduto dun proceso de transacción,
están integrados e cargados no data warehouse da empresa. O
segundo punto de unión entre ERP e CIF e ODS. De feito, moitos
entornos o ERP utilízase como un ODS clásico.
No caso de que se utilice ERP como aplicación principal, el
o mesmo ERP tamén se pode usar no CIF como ODS. En
En calquera caso, se o ERP se vai utilizar en ambas as funcións, aí
debe haber unha clara distinción entre as dúas entidades. Noutras palabras,
cando o ERP desempeña o papel de aplicación básica e ODS, o
dúas entidades arquitectónicas deben ser distintas. Se unha soa
implementando un ERP intenta cumprir ambas funcións
ao mesmo tempo inevitablemente haberá problemas no
deseño e implantación desta estrutura.
SEPARAR ODS E APLICACIÓNS BÁSICAS
Hai moitas razóns que levan á división dos compoñentes
arquitectónico. Quizais a pregunta máis elocuente para separar o
diferentes compoñentes dunha arquitectura é que cada compoñente
da arquitectura ten a súa propia visión. É necesaria a aplicación de referencia
para un propósito diferente ao da ODS. Intente solapar
unha visión base de aplicación sobre o mundo dunha ODS ou viceversa
Non é unha forma correcta de traballar.
En consecuencia, o primeiro problema dun ERP no CIF é o de
comproba se hai unha distinción entre as solicitudes de referencia e as
SDG.
MODELOS DE DATOS NA CORPORATIVA
FÁBRICA DE INFORMACIÓN
Para conseguir a cohesión entre os distintos compoñentes
da arquitectura CIF, debe haber un modelo de datos. O
modelos de datos Serven de enlace entre os distintos compoñentes
da arquitectura, como aplicacións de referencia e ODS. O
modelos de datos converterse na "folla de ruta intelectual" para ter o
sentido correcto dos distintos compoñentes arquitectónicos do CIF.
Indo da man con esta noción, a idea é que debería
ser un gran e único modelo de datos. Por suposto que ten que facelo
ser un modelo a seguir datos para cada un dos compoñentes e tamén alí
debe ser un camiño sensato que conecte os distintos modelos.
Cada compoñente da arquitectura: ODS, aplicacións de referencia,
data warehouse da empresa, etc.. – precisa do seu
modelo de datos. E, polo tanto, debe haber unha definición precisa de
como estes modelos datos interactúan entre si.
MOVE I DATOS DO ERP EN DATA
ALMACENAMENTO
Se a orixe de datos é unha aplicación de referencia e/ou un ODS, cando
o ERP inserta i datos en data warehouse, esta inserción debe
ocorren no nivel máis baixo de "granularidade". Recapitulación ou
simplemente agregar i datos mentres saen
desde a aplicación de referencia ERP ou desde o ERP ODS non é o
cousa correcta para facer. O datos necesítanse detalles nos datos
almacén para formar a base do proceso DSS. Tal datos
serán remodelados de moitos xeitos por data marts e exploracións
do data warehouse.
O desprazamento de datos desde o entorno de aplicación de referencia
do ERP ao medio ambiente data warehouse da empresa faise nunha
forma razoablemente relaxada. Ese cambio ocorre despois diso
aproximadamente 24 horas desde a actualización ou creación no ERP. O feito de
ter un movemento "preguiceiro". datos en data warehouse
da empresa permite o datos procedente do ERP para "depositar".
Unha vez que eu datos almacénanse na aplicación de referencia,
entón pode mover con seguridade o datos do ERP
na empresa. Outro obxectivo alcanzable grazas ao movemento
deuses "preguiceiros". datos é a clara delimitación entre os procesos operativos e
DSS. Cun movemento "rápido" do datos a liña divisoria
entre DSS e operativo segue sendo vago.
O movemento de datos desde o ERP ODS ata data warehouse
da empresa adoita facerse periodicamente
semanal ou mensual. Neste caso o movemento de
datos baséase na necesidade de “limpar” o vello datos historiadores.
Por suposto, o ODS contén i datos que son moito máis recentes
respecto a datos historiadores atopados en data warehouse.
O desprazamento de datos en data warehouse case nunca se fai
"por xunto" (de forma maiorista). Copiar unha táboa
dende o entorno ERP ata data warehouse non ten sentido. Un enfoque
moito máis realista é o movemento das unidades seleccionadas do datos.
Só o datos que cambiaron desde a última actualización dos datos
almacén son os que se deben trasladar aos datos
almacén. Unha forma de saber cales datos foron modificados
xa que a última actualización é mirar as marcas de tempo do datos
atopado no entorno ERP. O deseñador selecciona todos os cambios
que apareceron desde a última actualización. Outro enfoque
consiste en utilizar técnicas de adquisición de cambios datos. Con
Estas técnicas analizan rexistros e cintas de diarios para
determinar cales datos debe moverse do entorno ERP a
O do data warehouse. Estas técnicas son as mellores
cantos rexistros e cintas de diario se poden ler desde ficheiros ERP
sen máis efectos sobre outros recursos ERP.
OUTRAS COMPLICACIÓNS
Un dos problemas dos ERP en CIF é o que lles pasa aos demais
fontes de aplicación ou ai datos das SAO que deben contribuír
data warehouse pero non forman parte do entorno ERP. Dado o
natureza pechada de ERP, especialmente SAP, o intento de integrar o
claves de fontes externas de datos con i datos que veñen do ERP a
tempo de moverse i datos en data warehouse, é un gran reto.
E cales son exactamente as probabilidades de que i datos de aplicacións ou
ODS fóra do entorno ERP integrarase nos datos
almacén? As probabilidades son en realidade moi altas.
BUSCAR DATOS HISTÓRICO DE ERP
Outro problema con i datos do ERP é o resultante
da necesidade de ter datos historiadores dentro do data warehouse.
Normalmente o data warehouse necesidades datos historiadores. E
A tecnoloxía ERP normalmente non almacena estes datos
histórico, polo menos non ata o punto de que sexa necesario nos datos
almacén. Cando unha gran cantidade de datos os historiadores comezan a
agregarse ao entorno ERP, este entorno debe ser
limpado. Por exemplo, supoña que a data warehouse debe
estar cargado con cinco anos de datos histórico mentres que o ERP mantén o
máximo seis meses destes datos. Sempre que a empresa estea satisfeita
recoller un conxunto de datos historiadores co paso do tempo,
entón non hai problemas para usar o ERP como fonte para o
data warehouse. Pero cando o data warehouse debe ir
atrás no tempo e leva deuses datos historiadores que non o foron
previamente recollido e gardado polo ERP, despois o entorno ERP
vólvese ineficiente.
ERP E METADATOS
Outra consideración a facer sobre o ERP e data warehouse é iso
sobre metadatos existentes no entorno ERP. Así como metadatos
pasar do entorno ERP ao entorno informático data warehouse, The
os metadatos deben moverse do mesmo xeito. Ademais, i
os metadatos deben transformarse en formato e estrutura
requirido pola infraestrutura de data warehouse. Hai un grande
diferenza entre metadatos operativos e metadatos DSS. Os metadatos
operativos son principalmente para o desenvolvedor e para o
programador. Os metadatos DSS son principalmente para o usuario
a final. Metadatos existentes en aplicacións ERP ou ODS
deben ser convertidos e esta conversión non sempre é doada
e directa.
FONTE DE DATOS DO ERP
Se se usa ERP como provedor de datos para data warehouse ci
ten que ser unha interface sólida que mova i datos do medio ambiente
ERP ao medio ambiente data warehouse. A interface debe:
▪ ser doado de usar
▪ permitir o acceso a datos do ERP
▪ tomar o significado de datos que están a piques de ser trasladados
en data warehouse
▪ coñecer as limitacións do ERP que poderían xurdir en
cando o datos do ERP:
▪ integridade referencial
▪ relacións xerárquicas
▪ relacións lóxicas implícitas
▪ convenio de aplicación
▪ todas as estruturas de datos apoiado polo ERP, etc.
▪ ser eficiente no acceso datos, proporcionando:
▪ movemento directo de datos
▪ adquisición do cambio datos
▪ apoiar o acceso oportuno a datos
▪ comprender o formato de datos, etcétera…
INTERFACCIÓN CON SAP
A interface pode ser de dous tipos, propia ou comercial.
Algunhas das principais interfaces comerciais inclúen:
▪ SAS
▪ Prims Solutions
▪ D2k, etc.
MÚLTIPLES TECNOLOXÍAS ERP
Tratar o entorno ERP coma se dunha soa tecnoloxía se tratase é a
gran erro. Hai moitas tecnoloxías ERP, cada unha coa súa
fortalezas. Os vendedores máis coñecidos do mercado son:
▪ SAP
▪ Oracle Financials
▪ PeopleSoft
▪ JD Edwards
▪ Baan
SAP
SAP é o software ERP máis grande e completo. As aplicacións
de SAP inclúen moitos tipos de aplicacións en moitas áreas. SAP ten
a reputación de ser:
▪ moi grande
▪ moi difícil e caro de implementar
▪ precisa de moitas persoas e consultores para ser
implementado
▪ require persoas especializadas para a súa implantación
▪ leva moito tempo a implementar
Ademais, SAP ten a reputación de almacenar o seu propio datos molto
coidado, dificultando o acceso a eles
persoa externa á área SAP. A forza de SAP é o de ser
capaz de capturar e almacenar unha gran cantidade de datos.
Recentemente SAP anunciou a súa intención de ampliar o
as súas aplicacións a data warehouse. Hai moitos pros e contras
utilizando SAP como provedor data warehouse.
Unha vantaxe é que SAP xa está instalado e que a maioría dos
consultores xa coñecen SAP.
As desvantaxes de ter SAP como provedor data warehouse son
moitos: SAP non ten experiencia no mundo de data warehouse
Se SAP é o provedor de data warehouse, é necesario "sacar"
i datos de SAP a data warehouse. Dato un historial de SAP
sistema pechado, é improbable que sexa doado introducir o de SAP
iso (???). Hai moitos entornos legados que alimentan SAP,
como IMS, VSAM, ADABAS, ORACLE, DB2, etc.
SAP insiste nun enfoque "non inventado aquí". SAP non o quere
colaborar con outros provedores para usar ou crear data warehouse.
SAP insiste en xerar todo o seu software por si mesmo.
Aínda que SAP é unha empresa grande e poderosa, o feito de
intento de reescribir a tecnoloxía de ELT, OLAP, administración
sistema e mesmo o código central do dbms é só unha tolemia.
En lugar de adoptar unha actitude de cooperación cos provedores
di data warehouse desde hai moito tempo, SAP seguiu o enfoque que
eles "saben mellor". Esta actitude ralentiza o éxito
SAP pode ter na área de data warehouse.
A negativa de SAP a permitir o acceso de provedores externos
con prontitude e gracia para eles datos. A esencia mesma do uso
un data warehouse é de fácil acceso datos. Toda a historia de SAP é
baseado en dificultar o acceso datos.
A falta de experiencia de SAP no manexo de grandes volumes de datos;
no campo de data warehouse hai volumes de datos nunca visto desde entón
SAP e xestionar estas grandes cantidades de datos precisa ter un
tecnoloxía adecuada. Aparentemente SAP non está informado diso
barreira tecnolóxica que existe para entrar no campo de datos
almacén.
Cultura corporativa de SAP: SAP creou un negocio
na obtención de i datos do sistema. Pero para facelo hai que ter
unha mentalidade diferente. Tradicionalmente, as empresas de software que eran
non foron bos para introducir datos nun ambiente
conseguir que os datos vaian por outro lado. Se SAP pode facer este tipo de
switch será a primeira empresa en facelo.
En resumo, é cuestionable se unha empresa debe seleccionar
SAP como provedor data warehouse. Hai riscos moi graves
por unha banda e moi poucas recompensas por outra. Pero hai outra
motivo que desalienta a elección de SAP como provedor de datos
almacén. Porque todas as empresas deberían ter a mesma data
almacén de todas as outras empresas? O data warehouse é o corazón
de vantaxe competitiva. Se todas as empresas adoptasen o mesmo
data warehouse sería difícil, aínda que non imposible,
conseguir unha vantaxe competitiva. SAP parece pensar que a
data warehouse pódese ver como unha galleta e iso é un
un sinal máis da súa mentalidade de aplicación de "obter os datos".
en".
Ningún outro provedor de ERP é tan dominante como SAP.
Sen dúbida haberá empresas que sigan o camiño de SAP
para os seus data warehouse pero presuntamente estes datan
Os almacéns de SAP serán grandes, caros e esixentes
tempo para a súa creación.
Estes ambientes inclúen actividades como o procesamento de caixeiros bancarios,
procesos de reserva de compañías aéreas, procesos de reclamacións
seguro, etc. O sistema de transaccións foi máis eficaz,
máis evidente era a necesidade de separar entre operativo e proceso
DSS (Sistema de Apoio á Decisión). Porén, con sistemas de recursos
humano e persoal, nunca te atopas ante grandes volumes de
transaccións. E, por suposto, cando se contrata unha persoa
ou deixa a empresa este é un rexistro dunha transacción.
Pero en relación a outros sistemas, sistemas de recursos humanos e
os persoais simplemente non teñen moitas transaccións. Polo tanto, en
recursos humanos e sistemas de persoal non é totalmente obvio que o haxa
necesita un DataWarehouse. En moitos sentidos estes sistemas
representan la fusión de sistemas DSS.
Pero hai outro factor que debes ter en conta se é necesario
facer co almacén de datos e PeopleSoft. En moitos ambientes, i datos
dos recursos humanos e persoais son secundarios ao negocio
xefe da empresa. A maioría das empresas realizan
fabricación, vendas, prestación de servizos, etc. O
Os sistemas de recursos humanos e de persoal adoitan ser secundarios (ou de
soporte) á principal liña de negocio da empresa. Polo tanto, é
equívoco e inconveniente data warehouse separado para o
apoio aos recursos humanos e persoais.
PeopleSoft é moi diferente de SAP neste sentido. Con SAP, é así
obrigatorio que exista un data warehouse. Con PeopleSoft, non o é
entón tan claro. Un almacén de datos é opcional con PeopleSoft.
O mellor que se pode dicir para i datos PeopleSoft son eses datos
almacén pódese utilizar para arquivar o datos referente
antigos recursos humanos e persoais. Un segundo motivo para
cal querería utilizar unha empresa a data warehouse a
prexuízo do ambiente PeopleSoft é permitir o acceso e
acceso gratuíto a ferramentas de análise, ai datos por PeopleSoft. Pero
Ademais destes motivos, pode haber casos nos que é preferible non facelo
ter un almacén de datos para datos PeopleSoft.
En resumo
Hai moitas ideas sobre a construción dun dato
almacén dentro dun software ERP.
Algúns destes son:
▪ Ten sentido ter un data warehouse que se asemella a calquera
outra cousa no sector?
▪ Que tan flexible é un ERP data warehouse software?
▪ Un ERP data warehouse o software pode xestionar un volume de
datos que está situado nundata warehouse arena"?
▪ Cal é o rexistro de rastrexo que fai o provedor de ERP
enfrontado con fácil e barato, en termos de tempo, ai datos? (que
é o rexistro de provedores de ERP na entrega de barato, en
tempo, fácil acceso aos datos?)
▪ Cal é o teu entendemento da arquitectura DSS e
"fábrica de información corporativa" do provedor de ERP?
▪ Os provedores de ERP entenden como conseguir datos dentro de
do medio ambiente, pero tamén entende como exportalos?
▪ Que tan aberto está o provedor de ERP ás ferramentas de data
almacén?
Todas estas consideracións deben facerse na determinación
onde poñer o data warehouse que acollerá i datos de ERP e outros
datos. En xeral, a non ser que exista unha razón convincente para facelo
facer o contrario, recoméndase construír data warehouse fóra
desde o entorno do provedor de ERP.
CAPÍTULO 1
Visión xeral da organización de BI
Puntos clave:
Os repositorios de información funcionan ao revés
á arquitectura de intelixencia empresarial (BI):
A cultura corporativa e as TI poden limitar o éxito
creación de organizacións de BI.
A tecnoloxía xa non é o factor limitante para as organizacións de BI. O
problema para arquitectos e planificadores de proxectos non é se o
tecnoloxía existe, pero se poden implementar eficazmente o
tecnoloxía dispoñible.
Para moitas empresas a data warehouse é pouco máis que un almacén
pasiva que distribúe i datos aos usuarios que o precisen. O datos
extráense dos sistemas fonte e enchéganse en estruturas de destino
di data warehouse. O datos tamén se poden limpar con todos os
fortuna. Non obstante, tampouco se engade ningún valor adicional
recollido por datos durante este proceso.
Esencialmente, Dw pasivo, no mellor dos casos, ofrece
só eu datos limpo e operativo para as asociacións de usuarios. Alí
a creación de información e a comprensión analítica dependen
integramente polos usuarios. Xulgue se o DW (Almacén de datos) é
o éxito é subxectivo. Se xulgamos o éxito
capacidade para recoller, integrar e limpar de forma eficiente i datos
corporativo nunha base previsible, entón si, o DW é un éxito.
Por outra banda, se nos fixamos na recollida, consolidación e lo
explotación da información a organización no seu conxunto, entón
o DW é un fracaso. Un DW proporciona pouco ou ningún valor
información. Como resultado, os usuarios vense obrigados a conformarse,
creando así silos de información. Este capítulo presenta
unha visión completa para resumir a arquitectura de BI (Business
Intelixencia) da empresa. Comecemos cunha descrición de BI e
despois pasaremos a debates sobre deseño e
desenvolver información, en lugar de simplemente proporcionar i datos
aos usuarios. A continuación, as discusións céntranse no cálculo de
valor dos seus esforzos de BI. Concluímos definindo como IBM
aborda os requisitos arquitectónicos de BI da súa organización.
Descrición da arquitectura de
Organización de BI
Os poderosos sistemas de información orientados ás transaccións están agora
común en todas as grandes empresas, a medida que se nivelan
efectivamente o terreo de xogo para as corporacións de todo o mundo.
Sen embargo, seguir sendo competitivo agora require sistemas analíticamente
orientada cara a que pode revolucionar a capacidade da empresa redescubrindo ed
utilizando a información que xa teñen. Estes sistemas
as analíticas derivan da comprensión da riqueza de datos
dispoñible. A BI pode mellorar o rendemento en toda a información
da empresa. As empresas poden mellorar as relacións de cliente a cliente
provedores, mellorar o beneficio dos produtos e servizos, xerar
ofertas novas e mellores, controla o teu risco e entre moitas outras
as ganancias reducen os gastos drasticamente. Con BI teu
empresa finalmente comeza a utilizar a información do cliente
como ben competitivo grazas a aplicacións que teñen obxectivos de
mercado.
Ter o negocio correcto significa ter respostas definitivas
preguntas clave como:
▪ Cal dos nosos clientes fan que gañemos máis, ou nós
fan unha perda?
▪ Onde viven os nosos mellores clientes en relación a tenda/
almacén que frecuentan?
▪ Cales dos nosos produtos e servizos se poden vender máis
efectivamente e a quen?
▪ Que produtos se poden vender de forma máis efectiva e a quen?
▪ Que campaña de vendas ten máis éxito e por que?
▪ Que canles de venda son máis eficaces para que produtos?
▪ Como podemos mellorar as relacións coas nosas mellores persoas clientes?
A maioría das empresas teñen datos áspero de responder
estas preguntas.
Os sistemas operativos xeran grandes cantidades de produto, de
cliente e de datos mercado desde puntos de venda, reservas,
mediante sistemas de atención ao cliente e soporte técnico. O reto é
extraer e explotar esta información.
Moitas empresas só se benefician de pequenas fraccións das súas datos
para análises estratéxicas.
I datos restante, moitas veces unido con i datos derivados de fontes externas como
"informes do goberno" e outra información comprada son un
mina de ouro só á espera de ser explorada, ei datos debe
só ser refinado no seu contexto de información
organización.
Este coñecemento pódese aplicar de diferentes formas, variacións
dende o deseño dunha estratexia corporativa global ata
comunicación persoal con provedores, a través de call centers,
facturación, Internet e outros puntos. O ambiente empresarial actual impón
que DW e as solucións de BI relacionadas evolucionan máis aló
a execución de estruturas tradicionais datos que eu datos normalizado a
nivel atómico e "granxas estrela/cubo".
O que se necesita para seguir sendo competitivos é unha fusión
tecnoloxías tradicionais e avanzadas nun esforzo por apoiar a
vasto panorama analítico.
Para concluír, o ambiente xeral debe potenciar o coñecemento
da empresa no seu conxunto, garantindo que as accións realizadas
como consecuencia das análises realizadas son útiles para que todos poidan
beneficio.
Por exemplo, digamos que clasificas o teu clientes nas categorías
alto ou baixo risco.
Se esta información se xera a partir dun modelo de extracción ou
outros medios, deben colocarse no Dw e facerse accesibles
calquera persoa, mediante calquera ferramenta de acceso, como i
informes estáticos, follas de cálculo, táboas ou procesamento analítico en
liña (OLAP).
Con todo, actualmente, moita información deste tipo
permanecer nos silos datos dos individuos ou departamentos que xeran
a análise. A organización, no seu conxunto, ten pouca ou nula visibilidade
para a comprensión. Só mesturando este tipo de contidos
información na súa empresa DW pode eliminar os silos de
información e eleve o seu ambiente DW.
Hai dous grandes obstáculos para desenvolver unha organización
da BI.
En primeiro lugar, temos o problema da propia organización
da disciplina correspondente.
Aínda que non poidamos axudar cos cambios de política
da organización, podemos axudar a comprender os compoñentes de
unha organización de BI, a súa arquitectura e como
A tecnoloxía de IBM facilita o seu desenvolvemento.
A segunda barreira a superar é a falta de tecnoloxía
integrado e o coñecemento dun método que recorda todo o espazo
de BI en oposición a só un pequeno compoñente.
IBM está a aceptar os cambios na tecnoloxía
de integrado. É a súa responsabilidade proporcionar un deseño
auto-consciente. Esta arquitectura debe desenvolverse con
tecnoloxía escollida para a integración sen restricións, ou polo menos con
tecnoloxía que se adhire aos estándares abertos. Ademais, o teu
A dirección da empresa debe garantir que a empresa Bi é
realizado segundo o programa e non permitilo
desenvolvemento de silos de información derivados do autoservizo
axendas ou obxectivos.
Isto non quere dicir que o ambiente de BI non sexa sensible
reaccionar ás diferentes necesidades e requisitos dos distintos usuarios; en cambio, significa
que a implementación desas necesidades e requisitos individuais é
feito en beneficio de toda a organización de BI.
Unha descrición da arquitectura da organización de BI pode
atoparse na páxina 9 da figura 1.1.A arquitectura demostra
unha rica mestura de tecnoloxías e técnicas.
Desde a visión tradicional, a arquitectura inclúe os seguintes compoñentes
de almacén
Capa atómica.
Esta é a base, o corazón de todo o Dw e, polo tanto, de
informes estratéxicos.
I datos almacenados aquí conservará a integridade histórica, as relacións de
datos e incluír métricas derivadas, ademais de ser limpas,
integrado e almacenado mediante os modelos de extracción.
Todo o uso posterior destes datos e información relacionada é
derivado desta estrutura. Esta é unha excelente fonte para
extracción de datos e para informes con consultas SQL estruturadas
Depósito operativo de datos ou informe baseado en
datos(Almacenamento de datos operativos (ODS) ou informes
base de datos.)
Esta é unha estrutura de datos deseñado específicamente para
informes técnicos.
I datos almacenados e informados sobre estas estruturas poden finalmente
propagarse ao almacén a través da zona de organización (escenificación
zona), onde podería utilizarse para sinalización estratéxica.
Zona de escenificación.
A primeira parada para a maioría datos destinada ao medio ambiente
almacén é a área de organización.
Aquí eu datos intégranse, límpanse e transfórmanse datos útil iso
poboará a estrutura do almacén
Data marts.
Esta parte da arquitectura representa a estrutura de datos usado
específicamente para OLAP. A presenza de datamarts, se i datos son
almacenados nos esquemas de estrelas superpostos datos
multidimensional nun ambiente relacional, ou en archivadores
di datos confidencial utilizado por tecnoloxía OLAP específica, como o
Servidor DB2 OLAP, non é relevante.
A única limitación é que a arquitectura facilita o uso de datos
multidimensional.
A arquitectura tamén inclúe tecnoloxías e técnicas de BI críticas
que se distinguen por:
Análise espacial
O espazo é unha inesperada información para o analista e
é fundamental para completar a resolución. O espazo pode
representar información sobre persoas que viven nun lugar determinado
localización, así como información sobre onde está esa localización
fisicamente en comparación co resto do mundo.
Para realizar esta análise, debes comezar por atar a túa
información sobre as coordenadas de latitude e lonxitude. Quere dicir que
denominada "xeocodificación" e debe formar parte da extracción,
transformación e o proceso de carga (ETL) a nivel
atómico do seu almacén.
Minería de datos.
A extracción de datos permite que as nosas empresas crezan
número de clientes, para predecir tendencias de vendas e habilitar
xestionar as relacións con i clientes (CRM), entre outras iniciativas do
BI.
A extracción de datos debe, polo tanto, integrarse coas estruturas de
datos da Dwhouse e apoiado por procesos de almacén para
garantir tanto o uso eficaz como eficiente da tecnoloxía e
técnicas relacionadas.
Como se indica na arquitectura de BI, o nivel atómico do
Dwhouse, así como datamarts, é unha excelente fonte de datos
para extracción. Esas mesmas estruturas tamén deben ser
destinatarios dos resultados da extracción para garantir a súa dispoñibilidade
público máis amplo (público máis amplo).
Axentes.
Hai varios "axentes" para examinar ao cliente para cada punto, como, por exemplo
sistemas operativos da empresa e o mesmo dw. Estes axentes poden
ser redes neuronais avanzadas adestradas para aprender
tendencias de cada punto, como a demanda futura do produto baseado
en promocións de vendas, motores baseados en regras aos que reaccionar
un datas conxunto de circunstancias, ou mesmo simples axentes que
denuncian excepcións aos "altos executivos". Estes procesos si
presente xeralmente en tempo real e, polo tanto, debe
estar estreitamente vinculados co seu movemento datos.
Todas estas estruturas de datos, tecnoloxías e técnicas de garantía
que non vai pasar a noite xerando unha organización de
o teu BI.
Esta actividade desenvolverase en pequenos pasos incrementais
puntos.
Cada paso é un esforzo do proxecto independente e infórmase
como una iteración en su iniciativa DW o BI. As iteracións
pode incluír a implantación de novas tecnoloxías, para
comezar con novas técnicas, engadindo novas estruturas datos ,
cargando i datos complementaria , ou coa ampliación da análise
o teu ambiente. Este parágrafo é discutido máis
en profundidade no capítulo 3.
Ademais das estruturas tradicionais das ferramentas DW e BI, hai outras
funcións da súa organización de BI para as que debe
deseño, como:
Puntos de contacto de cliente (Toque de cliente
puntos).
Como con toda organización moderna, hai unha serie de
puntos de contacto do cliente que indican como ter unha experiencia
positivo para o teu clientes. Existen as canles tradicionais como i
comerciantes, centralitas, correo directo, multimedia e impresión
publicidade, así como as canles máis actuais como o correo electrónico e a web, i datos
deben adquirirse produtos con algún punto de contacto,
transportados, limpos, procesados e despois poboados ás instalacións datos de
BI.
Fundamentos de datos asociacións operativas e de usuarios (Operational
bases de datos e comunidades de usuarios).
Ao final dos puntos de contacto do clientes atópanse os fundamentos de datos
das comunidades de usuarios e aplicacións da empresa. O datos existente
son datos tradicional que hai que unir e fusionar co datos que
fluír desde os puntos de contacto para satisfacer o necesario
información.
Analistas. (Analistas)
O principal beneficiario do entorno de BI é o analista. El é quen
beneficia da actual extracción de datos operativo, integrado con
diferentes fontes de datos , aumentada con funcións como analíticas
xeográficos (xeocodificación) e presentados en tecnoloxías de BI que
permítelle extraer, OLAP, informes e análises SQL avanzados
xeográficos. A interface principal para o analista para o ambiente de
informes é o portal de BI.
Porén, o analista non é o único que se beneficia da arquitectura
BI.
Xerentes, grandes asociacións de usuarios, e mesmo membros, provedores e
clientes deberían atopar beneficios na BI empresarial.
Bucle de retroalimentación.
A arquitectura de BI é un ambiente de aprendizaxe. Un principio
característica do desenvolvemento é permitir estruturas persistentes de datos
actualizarse mediante a tecnoloxía de BI utilizada e mediante accións
empresas usuarias. Un exemplo é a avaliación de
cliente (puntuación do cliente).
Se o departamento de vendas realiza un modelo de minería
das puntuacións do cliente para utilizar un servizo novo, entón o
O departamento de vendas non debe ser o único grupo beneficiario
do servizo.
En cambio, o modelo de extracción debería realizarse como parte
fluxo natural de datos dentro da empresa e as puntuacións do cliente
debería converterse nunha parte integrada do contexto da información de
almacén, visible para todos os usuarios. A suite IBM centrada en Bi-bI
incluíndo DB2 UDB, DB2 OLAP Server inclúe a maioría
parte dos compoñentes tecnolóxicos importantes, definidos na figura
1.1.
Utilizamos a arquitectura tal e como aparece nesta figura do libro a
darnos un nivel de continuidade e demostrar como cada produto
de IBM encaixan no patrón xeral de BI.
Proporcionar contido de información (Proporcionar
Contido informativo)
Deseñar, desenvolver e implementar o teu entorno de BI é
unha ardua operación. O deseño debe abarcar ambos
necesidades empresariais actuais e futuras. O deseño da arquitectura
debe ser completa para incluír todas as conclusións atopadas
durante a fase de deseño. A execución debe permanecer
comprometidos cun único propósito: desenvolver a arquitectura de BI
segundo se presenta formalmente no debuxo e en función dos requisitos de
Negocio.
É particularmente difícil argumentar que a disciplina garantirá o
éxito relativo.
Isto é sinxelo porque non desenvolves todo un ambiente de BI
de súpeto, pero faise en pequenos pasos ao longo do tempo.
Non obstante, identificar os compoñentes de BI da súa arquitectura é
importante por dúas razóns: guiarás todas as decisións posteriores
técnicas arquitectónicas.
Será capaz de planificar conscientemente un uso particular da tecnoloxía
aínda que quizais non recibas unha repetición que necesitas
tecnoloxía durante varios meses.
Comprender suficientemente os requisitos da túa empresa influirá no tipo
de produtos que adquirirás para a túa arquitectura.
O deseño e desenvolvemento da súa arquitectura garante
que é o teu almacén
non é un evento aleatorio, senón un "ben pensado",
anuncio coidadosamente construído ópera da arte como un mosaico de
tecnoloxía mixta.
Deseñar o contido da información
Toda planificación inicial debe centrarse e identificar
principais compoñentes de BI que serán necesarios polo medio
xeral agora e no futuro.
Coñecer os requisitos empresariais é importante.
Mesmo antes de que comece toda a planificación convencional, o
o planificador do proxecto a miúdo pode identificar un ou dous
compoñente inmediatamente.
O equilibrio de compoñentes que poden ser necesarios para
Non obstante, a túa arquitectura non se pode atopar facilmente.
Durante a fase de deseño, a parte principal da arquitectura
vincula a sesión de desenvolvemento de aplicacións (JAD) cunha busca
para identificar os requisitos comerciais.
Ás veces, estes requisitos pódense confiar a ferramentas
consultas e informes.
Por exemplo, os usuarios afirman que se queren automatizar
actualmente hai que xerar un informe manualmente mediante a integración
dúas relacións actuais e sumando os cálculos derivados da
combinación de datos.
Aínda que este requisito é sinxelo, define un certo
funcionalidade da característica que debe incluír cando
compre ferramentas de informes para a súa organización.
O deseñador tamén debe cumprir requisitos adicionais para
obter unha imaxe completa. Os usuarios queren subscribirse
este informe?
Os subconxuntos do informe son xerados e enviados por correo electrónico aos distintos
usuarios? Queren ver este informe no portal da empresa?
Todos estes requisitos son parte da simple necesidade de
substituír un informe manual solicitado polos usuarios. O beneficio
deste tipo de requisitos é que todos, usuarios e deseñadores, teñen
comprensión do concepto de informes.
Non obstante, hai outro tipo de empresas que debemos planificar.
Cando os requisitos empresariais se indiquen en forma de
Preguntas estratéxicas empresariais, é fácil para o deseñador experto
Discernir medidas/feitos e requisitos dimensionais.
A figura 1.2 ilustra a medida e os compoñentes dimensionais de a
Problema empresarial.
Se os usuarios de JAD non saben como indicar os seus requisitos
en forma de problema comercial, o deseñador adoita proporcionar
algúns exemplos para saltar-iniciar a sesión de recollida
requisitos.
O deseñador experto pode axudar aos usuarios a comprender non só o
comercio estratéxico, pero tamén como formalo.
O enfoque de recollida de requisitos é discutido no capítulo 3; Para
agora só queremos sinalar a necesidade de deseñar para todos
tipos de requisitos de BI
Un problema estratéxico empresarial non é só un requisito
Negocios, pero tamén unha pista de deseño. Se tes que contestar
a unha pregunta multidimensional, entón tes que memorizar,
presente i datos dimensional, e se precisa almacenar o
datos multidimensional, tes que decidir que tipo de tecnoloxía ou
técnica que vai empregar.
Implementas un esquema de estrela de cubo reservado ou ambos?
Como podes ver, mesmo un simple problema empresarial
pode influír significativamente no deseño. Porén
Este tipo de requisitos comerciais son comúns e comprensibles, polo menos
por deseñadores e planificadores con experiencia en proxectos.
Houbo suficiente debate sobre as tecnoloxías e o apoio de
OLAP e unha ampla gama de solucións dispoñibles. Ata agora
mencionamos a necesidade de reunir informes sinxelos con i
requisitos dimensionais empresariais e como estes requisitos
influír nas decisións técnicas de arquitectura.
Pero cales son os requisitos que non se comprenden facilmente
por usuarios ou polo equipo de DW? Necesitarás algunha análise analítica?
espacial (análise espacial)?
Os modelos de extracción de datos serán unha parte necesaria da túa
futuro? Quen sabe?
É importante ter en conta que este tipo de tecnoloxías non son moi
coñecido polas comunidades de usuarios xerais e membros do equipo
Dw, en parte, isto pode ocorrer porque normalmente
son tratados por algúns expertos técnicos internos ou de terceiros. É unha
caso extremo dos problemas que xeran este tipo de tecnoloxías. Eu mesmo
os usuarios non poden describir os requisitos comerciais nin enmarcalos
co fin de proporcionar directrices aos deseñadores, estes poden
pasar desapercibido ou, peor, simplemente ignorado.
Máis problemático faise cando o deseñador e o desenvolvedor non o fan
pode recoñecer a aplicación dun destes pero avanzado
tecnoloxías críticas.
Como a miúdo escoitamos dicir aos deseñadores: "ben, porque
non o deixamos de lado ata conseguir esta outra cousa?
"Están realmente interesados nas prioridades ou simplemente as evitan
requisitos que non entenden? O máis probable é que sexa a última hipótese.
Digamos que o teu equipo de vendas comunicou un requisito
de negocio, como se indica na figura 1.3, como podes ver, o
requisito enmárcase en forma de problema empresarial. Alí
diferenza entre este problema e o problema dimensional típico é
a distancia. Neste caso, o equipo de vendas quere saber,
en base mensual, as vendas totais de produtos, almacéns e
clientes que viven a menos de 5 quilómetros do almacén onde se atopan
mercan.
Desafortunadamente, os deseñadores ou arquitectos simplemente poden facelo
ignorar o compoñente espacial dicindo: "temos o cliente, o
produto e i datos do depósito. Mantemos a distancia ata que
outra iteración.
"Resposta errónea. Este tipo de problemas de negocio preocupa
BI totalmente. Representa unha comprensión máis profunda do
o noso negocio e un espazo analítico robusto para os nosos analistas.
A BI vai máis aló dunha simple consulta ou informes estándar, ou
incluso OLAP. Isto non quere dicir que estas tecnoloxías non o fagan
son importantes para a túa BI, pero por si só non representan
o entorno BI.
Deseño para o contexto da información
(Deseño de contido informativo)
Agora que identificamos os requisitos empresariais que destacan
nun debuxo deben incluírse diversos compoñentes fundamentais
arquitectura xeral. Algúns dos compoñentes da BI forman parte
dos nosos esforzos iniciais, mentres que algúns non se aplicarán para
varios meses.
Non obstante, todos os requisitos coñecidos reflíctense no deseño para que
cando necesitamos implementar unha tecnoloxía en particular, estamos
prepárate para facelo. Algo sobre o proxecto reflectirá o pensamento
tradicional.
Por exemplo, a figura 1.1, ao comezo do capítulo, mostra un dato
mart que garda i datos dimensional.
Este conxunto de datos úsase para apoiar usos posteriores de
datos dimensións dimensionais impulsadas por cuestións empresariais que
identificamos. Como son os documentos adicionais
xerados, como o desenvolvemento do deseño de datos, nós
comezaremos a formalizar como i datos espalláronse no medio ambiente.
Comprobamos a necesidade de representar i datos así
dimensional, subdividíndoos (segundo necesidades específicas
determinado) en data marts.
A seguinte pregunta a responder é: como se construirán
estes mercados de datos?
Constrúes as estrelas para soportar os cubos, ou só os cubos, ou só as estrelas?
(ou cubos dereitas, ou estrelas dereitas). Xerar a arquitectura de datos
mercados dependentes que requiren unha capa atómica para todos datos
adquirido? Permitir que os centros de datos independentes adquiran i datos
directamente desde os sistemas operativos?
Que tecnoloxía de cubo intentarás estandarizar?
Tes cantidades enormes de datos necesarios para a análise dimensional
ou necesitas os cubos da túa forza de vendas nacional nun
semanal ou ambos? Constrúe un elemento poderoso
como DB2 OLAP Server para finanzas o cubos de Cognos
PowerPlay para a túa organización de vendas ou para ambos?
Estas son as grandes decisións de deseño arquitectónico que
afectará o seu entorno de BI de aquí en diante. Si,
estableceu a necesidade de OLAP. Agora como vai levar a cabo iso
tipo de técnica e tecnoloxía?
Como afectan ao teu algunhas das tecnoloxías máis avanzadas
debuxos? Supoñemos que identificou unha necesidade
espazo na súa organización. Agora tes que lembrar
problemas de debuxo arquitectónico aínda que non sexan planificados
realizar compoñentes espaciais durante varios meses. O arquitecto debe
deseñar hoxe en base ao necesario. Prever a necesidade de
análise espacial que xera, almacena, realiza e proporciona
acceso a datos espacial. Isto á súa vez debería servir como
limitación relativa ao tipo de tecnoloxía e especificacións
plataforma de software que pode considerar actualmente. Para
exemplo, o sistema de administración de base de datos relacional
(RDBMS) que realizas para a túa capa atómica debe ter
unha extensión espacial robusta dispoñible. Isto comprobaría o
máximo rendemento ao utilizar xeometría e obxectos
espazo nas súas aplicacións analíticas. Se o seu RDBMS non o fai
podo manexar eu datos (espacial-céntrico) internamente, polo que terás que facelo
estabilizar unha base de datos (espacial-céntrico) externo. Isto complica o
xestión de problemas e compromete o seu rendemento xeral,
sen esquecer os problemas adicionais creados para o teu
DBA, xa que probablemente teñan unha comprensión mínima
das bases de datos espacial tamén. Por outra banda, se o seu motor
RDMBS xestiona todos os compoñentes espaciais e relacionados
o optimizador é consciente das necesidades especiais (por exemplo,
indexación) de obxectos espaciais, entón os seus DBA poden manexalos
xestiona rapidamente os problemas e podes elevalos
prestacións.
Ademais, cómpre axustar a zona e a capa de escenificación
ambiente atómico para incluír a limpeza de enderezos (a
elemento clave para a análise espacial), así como os seguintes
gardar obxectos espaciais. A sucesión de edicións de
o debuxo continúa agora que introducimos a noción de limpeza
enderezo. Por unha banda, esta aplicación ditará o tipo de
software necesario para o seu esforzo ETL.
Necesitas produtos como Trillium para darche un enderezo
clean, ou un provedor de ETL que escollas para proporcionar iso
funcionalidade?
De momento é importante que aprecies o nivel do deseño
debe completarse antes de comezar a realizar o seu
medio ambiente (almacén). Os exemplos anteriores deberían
demostrar a multitude de decisións de deseño que deben seguir
a identificación de calquera requisito comercial particular. Se está feito
Correctamente, estas decisións de deseño avanzan
a interdependencia entre as estruturas físicas do seu contorno, o
selección da tecnoloxía utilizada e o fluxo de propagación da
contido de información. Sen esta arquitectura convencional
de BI, a súa organización estará suxeita a unha mestura
caótica das tecnoloxías existentes, no mellor dos casos, unidas en certo modo
non precisa para proporcionar estabilidade aparente.
Manter o contido da información
Aportar o valor da información á túa organización é
unha operación moi difícil. Sen entendemento suficiente
e experiencia, ou planificación e debuxo adecuados, mesmo o
mellores equipos fallarían. Por outra banda, se tes un grande
intuición e planificación detallada pero sen disciplina para
execución, só perdeu o seu diñeiro e tempo
porque o teu esforzo está condenado ao fracaso. A mensaxe debería
ser claro: se falta un ou máis destes
habilidades, comprensión/experiencia ou planificación/debuxo ou
disciplina de aplicación, isto levará a paralizar ou
destruír o edificio da organización de BI.
O teu equipo está suficientemente preparado? Hai alguén no teu
Equipo de BI que comprende o vasto panorama analítico dispoñible
en contornas de BI, nas técnicas e tecnoloxías necesarias
para levar a cabo esa paisaxe? Hai alguén no teu equipo
que pode recoñecer a diferenza de aplicación entre avanzado
informes estáticos e OLAP, ou as diferenzas entre ROLAP e OLAP? Un dos
membros do seu equipo recoñece claramente o camiño de
extracto e como pode afectar ao almacén ou como
Pode o almacén manter o rendemento mineiro? Un membro
do equipo entende o valor de datos espazo ou tecnoloxía
baseado en axentes? Tes alguén que aprecie a aplicación única
de ferramentas ETL versus tecnoloxía de corretores
mensaxe? Se non tes un, obtén un. BI é moito máis
grande dunha capa atómica normalizada, de OLAP, dos esquemas a
estrela e un ODS.
Ter a comprensión e a experiencia para recoñecer os requisitos
de BI e as súas solucións é esencial para a súa capacidade
formalizar correctamente as necesidades dos usuarios e o deseño
e implementar as súas solucións. Se a túa comunidade de usuarios ten
dificultade para describir os requisitos, é tarefa do equipo
almacén proporcionar esa comprensión. Pero se o equipo de
almacén
non recoñece a aplicación específica de BI, por exemplo, dada
minería, entón non é o mellor que fan os ambientes de BI
adoitan limitarse a ser depósitos pasivos. Non obstante, ignore estes
tecnoloxías non diminúe a súa importancia e o efecto que teñen
sobre a aparición das túas posibilidades de intelixencia empresarial
organización, así como a estrutura da información que deseña
promocionar.
A planificación debe incluír a noción de debuxo, ed
ambos requiren unha persoa competente. Ademais, a planificación
require un equipo de filosofía e observación
dos estándares. Por exemplo, se a súa empresa estableceu un
plataforma estándar ou identificou un RDBMS particular que vostede
queremos estandarizar en toda a plataforma, incumbe a nós iso
todos os membros do equipo cumpre con eses estándares. Xeralmente un
equipo expón a necesidade de normalización (ao usuario
comunidades), pero o propio equipo non está disposto a unirse
estándares tamén establecidos noutras áreas na empresa ou quizais mesmo no
empresas similares. Non só é hipócrita, senón que garante que a empresa non o faga
é capaz de explotar os recursos e investimentos existentes. Non significa
que non hai situacións que garantan unha plataforma ou a
tecnoloxía non estandarizada; con todo, os esforzos do almacén
deberían protexer celosamente os estándares da empresa ata
que os requisitos comerciais non impongan o contrario.
O terceiro compoñente clave necesario para crear BI
a organización é a disciplina.
Depende en total, por igual dos individuos e do medio.
Os planificadores de proxectos, patrocinadores, arquitectos e usuarios deben apreciar
disciplina necesaria para construír a estrutura da información da empresa.
Os deseñadores deben dirixir os seus esforzos de deseño de tal forma que
completar outros esforzos necesarios na sociedade.
Por exemplo, digamos que a súa empresa constrúe a
Aplicación ERP que ten un compoñente de almacén.
Polo tanto, é responsabilidade dos deseñadores de ERP colaborar co
equipo de ambiente de almacén para non competir ou
duplicar o traballo xa iniciado.
A disciplina tamén é un tema que hai que coidar
por toda a organización e normalmente está establecida e encomendada a a
nivel executivo.
Os xestores están dispostos a unirse a un enfoque deseñado? A
enfoque que promete crear contido informativo que a
final aportará valor a todas as áreas do negocio, pero quizais
Compromete axendas individuais ou departamentais? Lembra o dito
"Pensar en todo é máis importante que pensar só nunha cousa".
Este dito é certo para as organizacións de BI.
Desafortunadamente, moitos almacéns concentran os seus esforzos
intentando orientar e aportar valor a un determinado departamento ou
usuarios específicos, con pouca atención á organización en
xeral. Supoñamos que o director solicita axuda ao equipo
camarote. O equipo responde cun traballo que durou 90 días que
inclúe non só a entrega dos requisitos de notificación definidos pola
xestor pero garante que todos datos base mestúranse na capa
atómico antes de ser introducido na tecnoloxía de cubos
proposta.
Esta adición de enxeñería garante que a empresa de
se beneficiará de werehouse datos necesario para o xestor.
Con todo, o executivo falou con consultoras externas que
propuxeron unha solicitude similar con entrega en menos de 4
semanas.
Asumindo que o equipo interno do fogar é competente, o
o xestor ten unha opción. Quen pode apoiar a disciplina de
enxeñería adicional necesaria para facer crecer o activo
negocio informativo ou pode optar por crear o seu propio
solución rapidamente. O último parece ser verdadeiramente elixido
con demasiada frecuencia e só serve para crear contedores de información de
que beneficia só a uns poucos ou ao individuo.
Obxectivos a curto e longo prazo
Os arquitectos e deseñadores de proxectos deben formalizar a
visión a longo prazo da arquitectura e plans xerais para
crecer nunha organización de BI. Esta combinación de
ganancia a curto prazo e planificación a longo prazo
representan os dous lados dos esforzos de BI. Beneficio a curto prazo
a data límite é a faceta de BI que está asociada ás iteracións do
o teu almacén.
Aquí é onde se centran os planificadores, arquitectos e patrocinadores
satisfacer os requisitos comerciais específicos. É neste nivel onde o
constrúense estruturas físicas, compre tecnoloxía e o
se implementan técnicas. Non están feitos para tratar con eles
requisitos específicos definidos por comunidades de usuarios particulares.
Todo faise co fin de atender requisitos específicos definidos
dunha determinada comunidade.
A planificación a longo prazo, con todo, é a outra faceta
de BI. Aquí é onde os plans e proxectos aseguraron que estaba
construíu calquera estrutura física, as tecnoloxías seleccionadas e o
técnicas realizadas feitas con ollo cara á empresa. E o
planificación a longo prazo que proporcione cohesión
necesarios para asegurar que todos os beneficios empresariais reúnan
as ganancias a curto prazo atopadas.
Xustifica o teu esforzo de BI
Un data warehouse por si só non ten ningún valor inherente. Noutros
palabras, non hai ningún valor inherente entre as tecnoloxías de
técnicas de almacén e implementación.
O valor de calquera esforzo de almacén atópase nas accións
realizadas seguindo o contorno e o contido do almacén
informativo cultivado ao longo do tempo. Este é un punto crítico para entender
antes de intentar estimar o valor de calquera iniciativa de
onde casa.
Con demasiada frecuencia, arquitectos e deseñadores intentan aplicarlle valor
compoñentes físicos e técnicos do almacén cando en realidade o valor é
baséase en procesos de negocio que se ven afectados positivamente
almacén e información ben adquirida.
Aquí radica o reto de establecer BI: como xustifica o investimento?
Se o wherehouse en si non ten valor intrínseco, os deseñadores de
proxecto debe investigar, definir e formalizar os beneficios
logrado por aqueles particulares que utilizarán o almacén para
mellorar os procesos de negocio específicos ou o valor de
información protexida ou ambas.
Para complicar as cousas, calquera proceso empresarial
afectados polos esforzos do almacén poderían proporcionar beneficios
"considerable" ou "lixeiro". Vantaxes considerables proporcionan a
métrica tanxible para medir o retorno do investimento (ROI), p
Por exemplo, converter o inventario un tempo adicional durante un período
específico ou para un menor custo de envío por envío. É máis
É difícil definir os pequenos beneficios, como un acceso mellorado
información, en términos de valor tangible.
Conecta o teu proxecto para coñecer o
Solicitudes empresariais
Con demasiada frecuencia, os deseñadores de proxectos intentan conectar o valor
do almacén con obxectivos amorfos da empresa. Declarando iso
“O valor dun almacén baséase na nosa capacidade
satisfacer as solicitudes estratéxicas” abrimos o
fala. Pero por si só non é suficiente para determinar se
investir en inventario ten sentido. É mellor conectar repeticións
de almacéns con solicitudes comerciais concretas e coñecidas.
Medición do ROI
Calcular o ROI nunha configuración de almacén pode ser
particularmente difícil. É especialmente difícil se a vantaxe
principal dunha determinada repetición é algo intanxible ou
fácil de medir. Un estudo descubriu que os usuarios perciben
as dúas principais vantaxes das iniciativas de BI:
▪ Crear a capacidade de tomar decisións
▪ Crear acceso á información
Estes beneficios son beneficios suaves (ou leves). É doado de ver
como podemos calcular un ROI baseado nun cliente potencial (ou
maior) como reducir o custo do transporte, pero como
medimos a capacidade de tomar mellores decisións?
Este é definitivamente un reto para os deseñadores de proxectos cando
están tentando convencer á empresa para que invista nunha determinada
esforzo de almacén. Aumentar as vendas ou diminuír os custos
xa non son os temas centrais que impulsan o ambiente de BI.
Pola contra, estás mirando as solicitudes de acceso de empresas
mellor información para que un departamento en particular poida
tomar decisións máis rápidas. Estes son motores estratéxicos a
que resultan ser igualmente importantes para o negocio pero son
máis ambigua e máis difícil de caracterizar nunha métrica tanxible.
Neste caso, o cálculo do ROI pode ser enganoso, se non irrelevante.
Os deseñadores do proxecto deben ser capaces de demostrar valor
tanxible para que os executivos decidan se invisten
aplícase unha repetición particular. Non obstante, non proporemos un novo
método para calcular el ROI, ni presentaremos ningún argumento para ou
contra ela.
Hai moitos artigos e libros dispoñibles que discuten os fundamentos para
calcular o ROI. Hai propostas de valor especiais como valor
on Investing (VOI), ofrecido por grupos como Gartner, que pode
para investigar. Pola contra, centrarémonos en aspectos fundamentais de calquera
ROI ou outras propostas de valor que debes considerar.
Aplicando ROI
Máis aló do argumento dos beneficios "duros" fronte aos beneficios "suave".
asociados aos esforzos de BI hai outras cuestións a considerar
cando aplicamos o ROI. Por exemplo:
Atribuír demasiados aforros aos esforzos de DW que virían
en calquera caso
Digamos que a súa empresa pasou dunha arquitectura de
mainframe a un entorno UNIX distribuído. Entón calquera
aforro que pode (ou non) conseguir con ese esforzo
non se debe atribuír exclusivamente, se é o caso (?), a
almacén.
Non contabilizar todo é caro. E hai moitas cousas que facer
ter en conta. Considere a seguinte lista:
▪ Custo de posta en marcha, incluída a viabilidade.
▪ Custo do hardware dedicado con almacenamento relacionado e
comunicacións
▪ Custo do software, incluída a xestión datos e extensións
cliente/servidor, software ETL, tecnoloxías DSS, ferramentas
aplicacións de visualización, programación e fluxo
software de traballo e seguimento, .
▪ Custo de deseño da estrutura datos, con realización, e
a optimización de
▪ Custo de desenvolvemento de software directamente asociado ao esforzo
BI
▪ Custo da asistencia domiciliaria, incluída a optimización de
rendemento, incluíndo o control de versións de software e
operacións de axuda
Aplicar o ROI "Big-Bang".
A creación do almacén como un esforzo único e xigantesco
está destinado a fallar, así que tamén calcula o ROI dunha iniciativa
de gran empresa A oferta é sorprendente, e que os deseñadores
seguen facendo débiles intentos de estimar o valor do conxunto
esforzo.
Porque os deseñadores intentan dar un valor monetario
sobre a iniciativa empresarial se é amplamente coñecido e aceptado que
É difícil estimar repeticións específicas? Como é posible? Non é
posible con poucas excepcións. Non o fagas.
Agora que establecemos o que non facer ao calcular
ROI, hai algúns puntos aquí que nos axudarán a definir
un proceso fiable para estimar o valor dos seus esforzos de BI.
Obtención do consenso sobre o ROI. Independentemente do teu
elección da técnica para estimar o valor dos seus esforzos de BI, debe
ser acordado por todas as partes, incluídos os deseñadores de proxectos,
os patrocinadores e directivos da empresa.
Reducir o ROI en partes identificables. Un paso necesario cara
o cálculo razoable dun ROI é centrar ese cálculo en a
proxecto específico. Isto permítelle estimar un valor
en función dos requisitos comerciais específicos que se cumpran
Definir os custos. Como se mencionou, moitos custos deben ser
considerado. Ademais, os custos deben incluír non só os custos asociados
á iteración única pero tamén aos custos asociados
para garantir o cumprimento dos estándares da empresa.
Definir beneficios. Vinculando claramente o ROI cos requisitos
empresas específicas, deberíamos ser capaces de identificar
vantaxes que levarán a satisfacer os requisitos.
Reducir custos e beneficios en beneficios inminentes. É o camiño
mellor basear as súas valoracións no valor actual neto
(NPV) en lugar de intentar predecir valor futuro en
futuras ganancias.
Mantén o momento de dividir o teu ROI ao mínimo. E'
ben documentado ao longo do longo período de tempo que se utilizou no teu
ROI
Use máis dunha fórmula de ROI. Existen numerosos métodos para
Predición do ROI e debes planificar se usas un ou
máis, incluíndo o valor actual neto, a velocidade interna do retorno
(IRR) e recuperación.
Definir proceso repetible. Isto é fundamental para calcular
calquera valor a longo prazo. Debe documentarse a
proceso repetible único para todas as subsecuencias do proxecto a
segue.
Os problemas enumerados son os máis comúns definidos polos expertos
da contorna do fogar. A insistencia por parte da dirección de
ter un ROI "Big-Bang" entregado é moi confuso. Se comezas todos os
os seus cálculos de ROI reducíndoos en pezas identificables e tanxibles, ten
unha boa oportunidade para estimar unha valoración precisa do ROI.
Preguntas sobre os beneficios do ROI
Sexa cal sexan os teus beneficios, suaves ou duros, podes utilizalos
algunhas preguntas básicas para determinar o seu valor. Para
exemplo usando un sistema de escala simple, de 1 a 10, ti
pode rastrexar o impacto de calquera esforzo usando o seguinte
preguntas:
▪ Como valorarías a comprensión datos seguindo isto
proxecto da súa empresa?
▪ Como estimaría as melloras do proceso como resultado
este proxecto?
▪ Como medirías agora o impacto dos novos coñecementos e inferencias
disponibles por esta iteración
▪ Cal foi o impacto dos novos contornos informáticos e
realizando como resultado do aprendido?
Se as respostas a estas preguntas son poucas, é posible que
a empresa non paga a pena o investimento realizado. As preguntas cun alto
puntuación apunta a ganancias de valor significativas e debería
servir de guía para una investigación posterior.
Por exemplo, unha puntuación alta para melloras de procesos
debería levar aos deseñadores a examinar como son os procesos
foi mellorado. Podes descubrir que algunhas ou todas as ganancias que obtén
son tanxibles e, polo tanto, pódese obter facilmente un valor monetario
aplicado.
Sacar o máximo proveito da primeira iteración do
almacén
O maior resultado do seu esforzo empresarial adoita estar no
primeiras iteracións. Estes primeiros esforzos tradicionalmente
establecer o contido informativo máis útil para o público e
establece axudas de base tecnolóxica para as posteriores
Aplicacións de BI.
Normalmente todas as seguintes secuencias de datos de proxecto
os almacéns aportan cada vez menos valor adicional á empresa
xeral. Isto é especialmente certo se non repites
engade novos temas ou non responde ás necesidades dun novo
comunidade de usuarios.
Esta característica de almacenamento tamén se aplica ás baterías
crecendo de datos historiadores. Como os esforzos posteriores requiren máis
datos e canto máis datos vértense no almacén co paso do tempo, a maioría dos
datos tórnase menos relevante para a análise utilizada. Estes datos son
moitas veces chamado datos latentes e sempre é caro mantelos porque
case nunca se usan.
Que significa isto para os patrocinadores do proxecto? Esencialmente, i
Os primeiros patrocinadores comparten máis do que custa o investimento.
Isto é primordial porque son o impulso para fundar a capa
amplo entorno tecnolóxico e recursos de almacén,
incluído o orgánico.
Pero estes primeiros pasos aportan o maior valor e, polo tanto, os deseñadores
os proxectos moitas veces teñen que xustificar o investimento.
Os proxectos realizados despois da súa iniciativa de BI poden ter custos
inferior (en comparación co primeiro) e directo, pero aportan menos valor
á empresa.
E os propietarios das organizacións deben comezar a consideralo
botar a acumulación de datos e tecnoloxías menos relevantes.
Minería de datos: extracción Dati
Numerosos compoñentes arquitectónicos requiren variacións
tecnoloxías e técnicas de minería de datos—
por exemplo, os diferentes “axentes” para examinar os puntos de interese do
clientes, os sistemas operativos da empresa e para o propio dw. Estes
Os axentes poden ser redes neuronais avanzadas adestradas
tendencias de pote, como a demanda futura de produtos en función
promocións de vendas; motores baseados en regras para
reaccionar a un conxunto datas de circunstancias, por exemplo, diagnóstico
recomendacións médicas e de tratamento; ou mesmo axentes simples
coa función de informar de excepcións aos altos directivos (arriba
executivos). Xeralmente estes procesos de extracción datos si
verificar en tempo real; polo tanto, deben estar unidos
completamente co movemento de datos eles mesmos.
Procesamento de procesamento analítico en liña
Analítica en liña
A capacidade de cortar, cortar en dados, rodar, perforar
e realizar a análise
o que-se, está dentro do alcance, obxectivo da suite
Tecnoloxía IBM. Por exemplo, funcións de procesamento analítico
en liña (OLAP) existen para DB2 que trae análise dimensional ao
motor de base de datos mesmo.
As funcións engaden utilidade dimensional a SQL mentres
aproveitan todos os beneficios de ser parte natural de DB2. Outro
Un exemplo de integración OLAP é a ferramenta de extracción, DB2
Analizador de servidores OLAP. Esta tecnoloxía permite os cubos de
Servidor DB2 OLAP para ser rápida e automática
analizados para identificar e informar sobre os valores de datos inusual ou inesperado
en todo o cubo ao analista empresarial. E por último, as funcións do
DW Center proporciona medios para que os arquitectos comproben, entre os
outras cousas, o perfil dun cubo de servidor DB2 OLAP como parte
natureza natural dos procesos ETL.
Análise espacial Análise espacial
O espazo representa a metade das áncoras analíticas (clientes).
necesario para un panorama
amplo analítico (o tempo representa a outra metade). O nivel atómico
(nivel atómico ) do almacén, representado na figura 1.1,
inclúe fundamentos tanto para o tempo como para o espazo. As gravacións
Análise da áncora de tempo para a información de tempo e enderezo
Análise de ancoraxe dende o espazo. Marcas de tempo
realizan a análise a tempo, e a información conduce a dirección
a análise por espazo. O diagrama mostra o proceso de xeocodificación
converter enderezos en puntos nun mapa ou puntos no espazo
para que conceptos como distancia e dentro/fóra poidan ser
utilizados en análises-realizados a nivel atómico e análise espacial
que se pon a disposición do analista. IBM ofrece extensións
espazo, desenvolvido co Instituto de Investigación do Sistema Ambiental (ESRI),
al base de datos DB2 para que os obxectos espaciais poidan ser
almacenado como parte normal de base de datos relacional. DB2
Os extensores espaciais tamén proporcionan todas as extensións SQL para
explotar a análise espacial. Por exemplo, extensións SQL de
pregunta sobre
distancia entre enderezos ou se un punto está dentro ou fóra dunha área
poligonais definidos, son un estándar analítico co Espacial
Extensores. Consulte o capítulo 16 para obter máis información.
Base de datos- Ferramentas para residentes Ferramentas Base de datos-
Residente
DB2 ten moitas funcións SQL residentes en BI que axudan
na acción de análise. Estes inclúen:
▪ Funcións de recursión para realizar análises, como “atopar
todas as rutas de voo posibles desde San Francisco a nova York".
▪ Funcións analíticas para ranking, funcións acumulativas, cubo
e rollups para facilitar as tarefas que se producen normalmente
só coa tecnoloxía OLAP, agora son unha parte natural do
motor de base de datos
▪ A capacidade de crear táboas que conteñan resultados
Os vendedores de base de datos os líderes mesturan máis que as capacidades de BI
en base de datos o mesmo.
Os principais provedores de base de datos están mesturando máis que
Funcionalidade de BI en base de datos o mesmo.
Isto proporciona un mellor rendemento e máis opcións de execución para o teu
Solucións de BI.
Discútanse as características e funcións de DB2 V8
en detalle nos seguintes capítulos:
Fundamentos de Arquitectura Técnica e Xestión de Datos
(Capítulo 5)
▪ Fundamentos de DB2 BI (Capítulo 6)
▪ Táboas de consulta materializada DB2
Táboas) (capítulo 7)
▪ Funcións DB2 OLAP (Capítulo 13)
▪ Características e funcións de BI mellorada de DB2 (Enhanced BI
Características e funcións) (Capítulo 15)
Sistema simplificado de entrega de datos
Sistema de entrega de datos simplificado
A arquitectura representada na Figura 1.1 inclúe numerosas
estruturas datos físico. Un é o almacén de datos operando.
Xeralmente, un ODS está orientado a obxectos,
integrado e actual. Construirías un ODS para apoiar, por exemplo,
exemplo, a oficina de vendas. As vendas de SAO complementaríanse datos
procedentes de numerosos sistemas diferentes pero só conservarían, p
exemplo, as transaccións actuais. O ODS pódese actualizar
incluso moitas veces ao día. Ao mesmo tempo, os procesos
empuxan o datos integrado noutras aplicacións. Esta estrutura é
específicamente deseñados para integrarse datos actual e dinámica e
sería un candidato probable para soportar análises en tempo real,
como proporcionar aos axentes de servizos clientes información de vendas
tendencias actuais dun cliente extraendo información sobre tendencias de vendas
dende o propio almacén. Outra estrutura que se mostra na figura 1.1 é
un estado formal para o dw. Non só este é o lugar para
a execución da necesaria integración, a calidade de datosE
da transformación de datos de stock en breve, pero tamén o é
unha zona de almacenamento fiable e temporal para datos contesta iso
pode utilizarse na análise en tempo real. Se decides
use un ODS ou unha zona de espera, un
das mellores ferramentas para poboar estas estruturas datos usando
diferentes fontes operativas é a consulta distribuída heteroxénea de DB2.
Esta capacidade é proporcionada pola función opcional de DB2
chamada DB2 Relational Connect (só consulta) e a través de DB2
DataJoiner (un produto separado que entrega a aplicación,
a inserción, actualización e posibilidade de eliminación a
RDBMS distribuídos heteroxéneos).
Esta tecnoloxía permite aos arquitectos datos atar datos di
produción con procesos analíticos. Non só a tecnoloxía pode
adaptarse a practicamente calquera das solicitudes de replicación que
poden aparecer con análises en tempo real, pero iso
Tamén poden conectarse a unha gran variedade de bases datos máis
populares, incluíndo DB2, Oracle, Sybase, SQL Server,
Informix e outros. Pódese usar DB2 DataJoiner para encher
unha estrutura datos formal como un ODS ou mesmo unha mesa
permanentemente representado no almacén destinado a restauración
rápido para actualizacións instantáneas ou á venda. Naturalmente,
estas mesmas estruturas datos pódese poboar usando
outra tecnoloxía importante deseñada para a replicación de datos, IBM
Propagador de datos relacional. (DataPropagator é un produto separado
para sistemas centrais. DB2 UNIX, Linux, Windows e OS/2 inclúen
servizos de replicación datos como característica estándar).
Outro método para moverse datos operando arredor
to enterprise é un integrador de aplicacións empresariais doutro xeito
coñecido como intermediario de mensaxes.Este
A tecnoloxía única permite un control inigualable para o centrado
(orientación) e moverse datos arredor da empresa. IBM ten o mediador
da mensaxe máis usada, MQSeries ou unha variación
do produto que inclúe os requisitos de e-commerce, IBM
WebSphere MQ.
Para máis discusión sobre como aproveitar MQ para soportar a
almacén e un entorno de BI, visita sitio web do libro. Polo momento, é
abonda con dicir que esta tecnoloxía é un excelente medio para
captura e transformación (usando MQSeries Integrator) datos
operadores centrados (orientados) contratados para solucións de BI. Alí
A tecnoloxía MQ foi integrada e empaquetada en UDB V8, que
significa que agora se poden xestionar as colas de mensaxes
coma se fosen táboas DB2. O concepto de soldadura de
mensaxes en cola e o universo de base de datos relacional está dirixido
cara a un ambiente de entrega poderoso datos.
Latencia cero Latencia cero
O obxectivo estratéxico final de IBM é a análise de latencia cero (latencia cero).
Segundo se define por
Gartner, un sistema de BI debe ser capaz de inferir, asimilar
e proporcionar información aos analistas que o soliciten. O reto,
por suposto, está na forma de mesturar datos actual e en tempo real
con información histórica necesaria, como i datos modelo(s) relacionado(s).
tendencia, ou o entendemento extraído, como delineación do
cliente
Esta información inclúe, por exemplo, a identificación de clientes ad
alto ou baixo risco ou que produtos i clientes mercarán moito
probablemente se xa teñen queixo nos seus carros
adquisicións.
Conseguir unha latencia cero depende en realidade de dous
mecanismos fundamentais:
▪ Unión completa de datos que se analizan co
técnicas e ferramentas establecidas creadas por BI
▪ Un sistema de entrega de datos eficiente para garantir que
a análise en tempo real está realmente dispoñible
Estes requisitos previos para a latencia cero non son diferentes dos dous
obxectivos establecidos por IBM e descritos anteriormente.
O apareamento próximo de datos forma parte do programa
integración perfecta organizada por IBM. E crear un sistema
de entrega de datos eficiente depende completamente de
tecnoloxía dispoñible que simplifica o proceso de entrega de
datos. Como resultado, dous dos tres obxectivos de IBM son críticos
para facer o terceiro. IBM está a desenvolver conscientemente o seu
tecnoloxía para garantir a latencia cero é unha realidade para os usuarios
esforzos de almacén.
Resumo / Síntese
A organización de BI ofrece unha folla de ruta para
crea o teu ambiente
de forma iterativa. Debe axustarse para reflectir as necesidades do
o seu negocio, actual e futuro. Sen visión arquitectónica
ancho, as repeticións do almacén son pouco máis que
implementacións aleatorias de almacén central que fan pouco
crear unha empresa ampla e informativa.
O primeiro obstáculo para os xestores de proxectos é como xustificar
investimentos necesarios para o desenvolvemento da organización de BI.
Aínda que o cálculo do ROI segue sendo un soporte importante para
logros do almacén, é cada vez máis difícil
prever exactamente. Isto levou a outros métodos para
determinando se está a obter o valor do seu diñeiro. O
se adquire o valor do investimento2 (VOI), por exemplo
como solución.
Correspóndelles aos arquitectos de datos e planificadores de proxectos
xerar e proporcionar información deliberadamente ás asociacións
usuarios e non simplemente proporcionarlles un servizo datos. Existe unha
enorme diferenza entre ambos. A información é algo que un fai
diferenza nos procesos de toma de decisións e eficacia; relativamente, i
datos son bloques de construción para derivar esa información.
Aínda que eu sexa crítico coa fonte datos para atender solicitudes
comercial, o ambiente de BI debería desempeñar un papel máis importante
na creación de contidos informativos. Temos que levar
medidas adicionais para limpar, integrar, transformar ou
en caso contrario cree un contido informativo segundo o cal o
os usuarios poden tomar medidas, polo que debemos asegurarnos de que eses
as accións e decisións, cando sexan razoables, están apoiadas
no entorno BI. Se relegamos o almacén a só servir datos,
está garantido que as asociacións de usuarios crearán o contido
información necesaria para tomar medidas. Isto garante que os seus
comunidade poderá tomar mellores decisións, pero a empresa
padece o descoñecemento que utilizaron.
Dato que os arquitectos e os planificadores de proxectos inicien os proxectos
específicos para o entorno de BI, seguen sendo responsables ante a empresa
en xeral. Un exemplo sinxelo destas dúas características
as caras das iteracións de BI atópase na fonte datos. Todos os
datos recibidas para solicitudes comerciais específicas deben ser
poboado na primeira capa atómica. Isto garante o desenvolvemento de
activo de información corporativa, así como xestionar, dirixir o
Solicitudes específicas do usuario definidas na iteración.

Que datos W arehouse?
Almacén de datos é o corazón da arquitectura de sistemas de información
desde 1990 e apoia os procesos de información ofrecendo sólidos
plataforma integrada datos historiadores tomados como base para os posteriores
análises. O data warehouse ofrecer a facilidade de integración nun
mundo de sistemas de aplicación que non son compatibles entre si. Data
almacén converteuse nunha tendencia. Almacén de datos
organizar e almacenar i datos necesarios para procesos de información e
analítica baseada nunha longa perspectiva histórica temporal. Todos
isto supón unha aposta considerable e constante pola construción e
no mantemento de data warehouse.
Entón, que é a data warehouse? A data warehouse e:
▪ orientado á materia
▪ sistema integrado
▪ tempo variante
▪ non volátil (non se pode borrar)
unha colección de datos usado para apoiar as decisións directivas
implementación de procesos.
I datos inserido en data warehouse xorden na maioría dos
casos procedentes de contornos operativos. O data warehouse está feito por un
unidade de almacenamento, separada fisicamente do resto
sistema, que contén datos previamente transformado por
aplicacións que operan sobre información derivada do contorno
operando.
Definición literal de a data warehouse merece un estudo en profundidade
explicación xa que existen motivacións e significados importantes de
antecedentes que describen as características dun almacén.
ORIENTACIÓN A MATERIAS ORIENTACIÓN
TEMÁTICA
A primeira característica de a data warehouse é que está orientado cara
principais actores dunha empresa. A guía dos ensaios a través do
datos contrasta co método máis clásico que proporciona
a orientación das aplicacións cara a procesos e funcións,
método compartido maioritariamente pola maioría
sistemas de xestión máis antigos.
O mundo operativo está deseñado en torno a aplicacións e funcións
como préstamos, aforros, tarxetas bancarias e fideicomisos para unha institución
financeira. O mundo da dw organízase en torno a materias
principios como cliente, vendedor, produto e negocio.
O aliñamento arredor dos temas afecta ao deseño e
sobre a realización de datos atopado no dw. Máis importante aínda,
o tema principal afecta á parte máis importante da
estrutura clave.
O mundo da aplicación está influenciado tanto polo deseño dos datos
baseado no deseño do proceso. O mundo de
dw céntrase exclusivamente no modelado datos Está activado
debuxo de base de datos. O deseño do proceso (na súa forma
clásica) non forma parte do contorno dw.
As diferenzas entre a elección do proceso/función e a aplicación
elección por materia tamén se revelan como diferenzas de contido
de datos a nivel detallado. O datos dos dw non inclúen i datos que
non se utilizará para o proceso de DSS durante as solicitudes
orientado operativo datos conteñen i datos satisfacer
inmediatamente os requisitos funcionais/de procesamento que poden o
menos teñen algún uso para o analista DSS.
Outra forma importante en que as aplicacións orientadas ás operacións
ai datos difiren de datos de dw está en dei informes datos. O datos
operativo manter unha relación continua entre dúas ou máis táboas
baseado nunha regra empresarial activa. O datos por dw
abranguen un espectro de tempo e as relacións que se atopan no dw son
moitas. Moitas regras comerciais (e, en consecuencia, moitas
informes de datos ) están representados no almacén de datos entre dous o
varias táboas.
(Para unha explicación detallada de como as relacións entre o datos son
tratados no DW, remitimos ao tema técnico sobre iso
pregunta.)
Desde ningunha outra perspectiva que a da diferenza
fundamental entre unha elección de aplicación funcional/de proceso e
unha elección de materia, hai unha maior diferenza entre os sistemas
operativo ei datos e o DW.
INTEGRACIÓN INTEGRACIÓN
O aspecto máis importante do ambiente dw é que i datos atopado
dentro do dw intégranse facilmente. SEMPRE. SEN
EXCEPCIÓNS. A esencia mesma do ambiente dw é que i datos
contidos dentro dos límites do almacén están integrados.
A integración revélase de moitas formas diferentes: nas convencións
consistente identificada, na medición de variables consistentes, en
estruturas codificadas consistentes, nos atributos físicos de datos
consistente, etc.
Ao longo dos anos fixérono os deseñadores de diversas aplicacións
posesión de moitas decisións sobre como debería unha solicitude
ser desenvolvido. Decisións de estilo e deseño individualizadas
das aplicacións dos deseñadores revélanse de cen xeitos: en
diferenzas de codificación, estrutura clave, características físicas,
identificación de convencións, etc. A capacidade colectiva de moitos
Os deseñadores de aplicacións crean aplicacións inconsistentes
é lendario. A figura 3 expón algunhas das máis diferenzas
importante nas formas de deseño das aplicacións.
Codificación: Codificación:
Os deseñadores de aplicacións escolleron a codificación de campo:
sexo- de diferentes xeitos. Un deseñador representa o sexo como
unha "m" e "f". Outro deseñador representa o sexo como un "1"
e un “0”. Outro deseñador representa o sexo como unha "x" e
“y”. Outro deseñador representa o sexo como "masculino" e
"feminino". Non importa moito como entra o sexo no DW. A "M"
e "F" son probablemente tan bos como todos os
representación.
O que importa é que de calquera orixe derive o campo do sexo,
ese campo chega ao DW nun estado integrado consistente. Desde
consecuencia cando o campo se carga no DW desde
unha aplicación onde se representou no formato
“M” e “F”, i datos debe converterse ao formato DW.
Medición de Atributos: Medición de
Atributos:
Os deseñadores da aplicación optaron por medir a canalización
varias formas no curso
Algúns anos. Un deseñador almacena o datos do gasoduto en
centímetros. Outro deseñador de aplicacións almacena o datos
do gasoduto en termos de polgadas. Outro deseñador de
tendas de aplicacións i datos de gasoduto en millóns de pés cúbicos
por segundo. E outro deseñador almacena a información do
oleoduto en termos de estaleiros. Sexa cal sexa a fonte, cando o
a información da canalización chega ao DW que debe ser
medido do mesmo xeito.
Segundo as indicacións da figura 3, as cuestións de integración
afectan a case todos os aspectos do proxecto: as características
deuses físicos datos, o dilema de ter máis dunha fonte de datos, o
cuestión de mostras identificadas inconsistentes, formatos de datos
inconsistente, etc.
Sexa cal sexa o tema do deseño, o resultado é o mesmo:
i datos debe almacenarse no DW en singular e
forma globalmente aceptable mesmo cando os sistemas operativos de
fondo almacenan de forma diferente i datos.
Cando o analista DSS mira o DW, o obxectivo do analista
debería ser a explotación de datos que están no almacén,
en lugar de preguntarse pola credibilidade ou a coherencia de
datos.
VARIENCIA TEMPORAL
Todo o datos no DW son precisos nalgún momento.
Esta característica básica do datos no DW é moi diferente dos datos
atopado no entorno operativo. O datos do contorno operativo son
tan preciso como no momento do acceso. Noutras palabras,
no contorno operativo cando se accede a unha unidade datos, si
agarde ata que reflicta valores precisos como no momento do acceso.
Porque eu datos no DW son tan precisos como nalgún momento do
tempo (é dicir, non "agora mesmo"), dise que i datos atopado no DW
son "varianzas temporais".
A variación temporal de datos por DW refírese de varias maneiras.
O xeito máis sinxelo é que i datos dunha representación DW datos é unha
longo horizonte temporal: cinco a dez anos. O horizonte
o prazo de tempo representado para o ambiente operativo é moito máis curto
▪ a partir dos valores actuais de ata sesenta e noventa
Aplicacións que deben funcionar ben e deben ser
dispoñible para o procesamento de transaccións debe traer o
cantidade mínima de datos se admiten algún grao de
flexibilidade. Así as aplicacións operativas teñen un horizonte
curto prazo, como tema de deseño de
aplicacións de audio.
A segunda forma na que aparece a "varianza temporal" no DW é en
estrutura clave. Cada estrutura clave do DW contén,
implícita ou explícita, un elemento de tempo, como
día, semana, mes, etc. O elemento tempo está case sempre aí
na parte inferior da clave concatenada que se atopa no DW. Nestes
en ocasións, o elemento tempo existirá implícitamente, como o azar
onde se duplica un ficheiro completo ao final do mes ou do trimestre.
A terceira forma en que se mostra a varianza temporal é que i datos do
DW, tan pronto como rexistrado correctamente, non pode ser
actualizado. O datos dos DW son, para todos os efectos prácticos, un longo
serie de instantáneas. Claro que se as instantáneas son
tomadas incorrectamente, entón as instantáneas poden ser
modificado. Pero supoñendo que se tomen as instantáneas
correctamente, non se modifican tan pronto como se fagan. Nalgunhas
casos pode ser pouco ético ou mesmo non válido que as instantáneas no
DW están modificados. O datos operativo, sendo preciso como en
momento de inicio de sesión, pódense actualizar a medida que se produza
a necesidade.
NON VOLÁTIL
A cuarta característica importante de DW é que non é volátil.
Realízanse actualizacións, insercións, eliminacións e modificacións
regularmente para ambientes operativos rexistro por rexistro. Pero o
manipulación básica de datos que son necesarios no DW é moito máis
sinxelo. Só hai dous tipos de operacións que se producen no
DW: a carga inicial de datos e acceso a datos. Non hai
ningunha actualización do datos (no sentido xeral de
actualización) no DW como operación de procesamento normal.
Hai algunhas consecuencias moi poderosas desta diferenza
base entre o procesamento operativo e o procesamento DW. A nivel
por deseño, a necesidade de ser cauteloso coa actualización
anormal non é un factor no DW, desde a actualización de datos Non é
realizadas. Isto significa que a nivel de deseño físico,
pódense tomar liberdades para optimizar o acceso datos,
en particular ao tratar os temas de normalización e
desnormalización física. Outra consecuencia da sinxeleza
das operacións de DW está na tecnoloxía subxacente utilizada para
executa o ambiente DW. Ter que soportar actualizacións
rexistro por rexistro en liña (como é frecuentemente o caso de
procesamento operativo) a tecnoloxía requírese que teña algunha
cimentos moi complexos baixo unha aparente sinxeleza.
A tecnoloxía que admite copias de seguridade e recuperación, transaccións
e integridade de datos e a detección e solución da condición de bloqueo é
bastante complexo e non necesario para o procesamento DW.
As características dun DW, orientación ao deseño,
integración de datos dentro do DW, variación temporal e sinxeleza
de xestión de datos, todo leva a un ambiente que é moi, moi
diferente do entorno operativo clásico. A fonte de case todas
datos de DW son o entorno operativo. É tentador pensar
que hai unha redundancia masiva de datos entre os dous ambientes.
De feito, a primeira impresión que ten moita xente é a de
gran redundancia de datos entre o ambiente operativo e o ambiente de
DW. Tal interpretación é superficial e demostra unha
falta de comprensión do que sucede no DW.
De feito hai un mínimo de redundancia datos entre o ambiente operativo
e de datos do DW. Consideremos o seguinte:
▪ I datos son filtrados datas que pasa do contorno operativo
ao contorno DW. Moitas datos nunca pasan fóra
desde o entorno operativo. Excepto que i datos que son necesarios para
O procesamento DSS atopa a súa dirección no ambiente
▪ o horizonte temporal de datos é moi diferente dun ambiente
ao outro. O datos no ambiente operativo son moi frescos. O datos
no DW son moito máis vellos. Só dende a perspectiva
do horizonte temporal, hai moi pouca superposición
entre o entorno operativo e o DW.
▪ O DW contén datos de resumo que nunca se atopan
no medio ambiente
▪ I datos sufrir unha transformación fundamental de
momento en que pasan á Figura 3 ilustra iso máis
parte de datos están cambiando significativamente de estado
seleccionar e mover ao DW. Dito doutro xeito, o
maior parte dei datos está modificado fisicamente e
radicalmente como se traslada ao DW. Dende o punto de vista
de integración non son o mesmo datos que residen
no entorno operativo.
Á vista destes factores, a redundancia de datos entre os dous ambientes é
un evento raro, que leva a menos do 1% de redundancia entre ambos
ambientes.
A ESTRUTURA DO ALMACÉN
Os DW teñen unha estrutura distinta. Hai varios niveis de resumo e
detalle que delimita os DW.
Os distintos compoñentes dun DW son:
▪ Metadatos
▪ Dati detalles actuais
▪ Dati de vellos detalles
▪ Dati lixeiramente resumido
▪ Dati altamente resumido
De lonxe a principal preocupación é polo datos de detalle
correntes. É a principal preocupación porque:
▪ I datos os detalles actuais reflicten os acontecementos máis recentes,
que sempre son de grande interese e
▪ i datos dos detalles actuais son voluminosos porque o é
almacenado no nivel máis baixo de granularidade e
▪ i datos Case sempre gárdanse os detalles actuais
almacenamento en disco, que é rápido de acceder, pero caro e
complexo de
I datos de detalle canto máis vellos sexan datos que se almacenan
algúns recordos de masa. Ten acceso esporádicamente e é
almacenados nun nivel de detalle compatible con datos detalles
correntes. Aínda que non é obrigatorio almacenalo nun soporte de
almacenamento alternativo, debido ao gran volume de datos unido con
acceso esporádico de datos, o soporte de memoria para datos di
Os detalles máis antigos normalmente non se almacenan no disco.
I datos resumidas lixeiramente son datos que se destilan desde o fondo
nivel de detalle atopado no nivel de detalle actual. Isto
O nivel DW case sempre se almacena no disco. O
problemas de deseño que xorden para o arquitecto datos
na construción deste nivel do DW están:
▪ Que unidade de tempo é o resumo feito anteriormente
▪ Que contidos, atributos resumirán lixeiramente o
contido de datos
O seguinte nivel de datos atopado no DW é o de datos altamente
resumos. O datos altamente resumidos son compactos e facilmente
accesible. O datos ás veces atópanse moi resumidos
no contorno DW e noutros casos i datos altamente resumidos son
atopado fóra dos muros inmediatos da tecnoloxía que alberga o DW.
(en todo caso, i datos altamente resumidos forman parte do DW
independentemente de onde i datos están aloxados fisicamente).
O compoñente final do DW son os metadatos. En moitos aspectos
metadatos atópanse nunha dimensión diferente que outros datos
do DW, porque os metadatos non contén ningún datas directamente
extraído do entorno operativo. Os metadatos teñen un papel especial e
moi importante en DW. Os metadatos úsanse como:
▪ un directorio para axudar ao analista DSS a localizar o
contido do DW,
▪ unha guía para mapear o datos de como eu datos Estiveron
transformado do ambiente operativo ao ambiente DW,
▪ unha guía dos algoritmos utilizados para o resumo entre datos di
detalle actual ei datos lixeiramente resumido, i datos altamente
resumos,
Os metadatos xogan un papel moito máis importante no ambiente DW
do que nunca tiveron no ámbito operativo
MEDIO DE ALMACENAMIENTO DE DETALLE ANTIGO
Pódese usar cinta magnética para almacenar ese tipo
datos. De feito, hai unha gran variedade de ferramentas de almacenamento que
deberían considerarse para a conservación das antigas datos di
detalle.
Segundo o volume de datos, a frecuencia de acceso, o custo
das ferramentas e do tipo de acceso, é completamente probable
que outras ferramentas necesitarán o antigo nivel de detalle
no DW.
FLUXO DE DATOS
Hai un fluxo normal e previsible de datos dentro do DW.
I datos entran no DW desde o entorno operativo. (NOTA: hai
algunhas excepcións moi interesantes a esta regra. Porén, case
todo o datos introducir o DW desde o entorno operativo). Dato que eu datos
entran no DW desde o entorno operativo, transfórmase como foi
descrito anteriormente. A condición de ingresar no DW, i datos entran no
nivel actual de detalle, como se mostra. Reside alí e úsase
ata que se produza un dos tres eventos:
▪ é purificado,
▪ resúmese, e/ou
▪ é
Proceso obsoleto dentro dun movemento DW i datos detalles actuais
a datos de detalles antigos, baseados na idade de datos. O proceso
resumo utiliza o detalle de datos para calcular i datos
lixeiramente resumidos e os niveis altamente resumidos de datos. Hai
algunhas excepcións ao fluxo mostrado (debatiranse máis adiante).
Non obstante, normalmente, para a gran maioría dos datos atopado
dentro dun DW, o fluxo de datos é como se representa.
USO DO ALMACEN DE DATOS
Non é de estrañar os distintos niveis de datos dentro do DW non
recibir diferentes niveis de uso. Como regra xeral, canto maior sexa o nivel de
resumo, máis i datos utilízanse.
Moitos usos ocorren en datos moi resumidos, mentres que os vellos
datos de detalles case nunca se usan. Hai unha boa razón no
mover a organización ao paradigma de utilización de recursos. Canto máis ten
resumo i datos, canto máis rápido e eficiente é chegar ao datos. Se
un tenda descobre que fai moito procesamento a nivel de detalle DW,
entón unha grande cantidade correspondente de recursos da máquina
consúmese. É no mellor interese de todos procesar
como nun alto nivel de resumo canto antes.
Para moitas tendas, utilizou o analista DSS nun ambiente pre-DW
datos a nivel de detalle. En moitos aspectos a chegada a datos detalles
aseméllase a unha manta de seguridade, aínda que estean dispoñibles
outros niveis de resumo. Unha das actividades do arquitecto datos è
retirar ao usuario DSS do uso constante de datos ao máis alto nivel
baixo detalle. Hai dúas razóns dispoñibles
do arquitecto de datos:
▪ instalar un sistema de devolución de cargo, onde o usuario final paga o
recursos consumidos e
▪ que indican que o tempo de resposta pode ser moi bo
obtido cando o comportamento con i datos está a un alto nivel
de resumo, mentres que o mal tempo de resposta provén do
comportamento de datos a un nivel baixo
OUTRAS CONSIDERACIÓNS
Hai outras consideracións de construción e xestión
D.W.
A primeira consideración é a dos índices. O datos nos niveis máis altos de
o resumo pódese indexar libremente, mentres que i datos
en niveis máis baixos de detalle son o máis voluminosos posibles
indexado frugalmente. Do mesmo xeito, i datos a altos niveis
os detalles poden ser renovados con relativa facilidade,
mentres que o volume de datos nos niveis inferiores é tan grande que i datos non
pódense renovar facilmente. En consecuencia, o modelo
de datos e o traballo formal realizado polo deseño plantexa o
base para o DW aplicado case exclusivamente ao nivel
detalle actual. Noutras palabras, as actividades de modelaxe de
datos non se aplican aos niveis de resumo, en case todos os casos.
Outra consideración estrutural é a da subdivisión de
datos por DW.
A partición pódese facer en dous niveis: a nivel de dbms e al
nivel de aplicación. Na división a nivel dbms, The dbms è
informado das divisións e vixíaas en consecuencia. No caso de
división a nivel de aplicación, só o é o programador
informados das divisións e da responsabilidade das súas
a administración déixalle a el
Baixo o nivel dbms, moito traballo faise automaticamente. Ahí está
moita inflexibilidade asociada á administración automática de
divisións. No caso de divisións a nivel de aplicación de datos do
data warehouse, moito traballo pesa sobre o programador, pero o
resultado final é a flexibilidade na administración de datos na data
almacén
OUTRAS ANOMALÍAS
Mentres que os compoñentes do data warehouse Funcionan como se describe
para case todos datos, hai algunhas excepcións útiles que deben
ser discutido. Unha excepción é a de datos resumos públicos
(datos resumos públicos). Estes son datos resumos que foron
calculado a partir de data warehouse pero son utilizados pola sociedade. O datos
Os resumos públicos gárdanse e xestionan no data warehouse,
aínda que como se mencionou anteriormente están calculados. O
contadores traballan para producir estes trimestrais datos como o
ingresos, gastos trimestrais, beneficio trimestral, etc. O traballo
feito por contadores é externo a data warehouse. Non obstante, i datos son
usado "internamente" dentro da empresa - de marketing, vendas, etc.
Outra anomalía, que non se falará, é a de datos exteriores.
Outro tipo excepcional datos que se pode atopar nun determinado
almacén é o de datos de detalle permanente. Estes provocan o
necesidade de almacenar permanentemente i datos nun nivel
detallado por razóns éticas o legales. Se unha empresa está expoñendo i
traballadores relacionados con substancias perigosas é necesario datos
detallada e permanente. Se unha empresa produce un produto que
implica a seguridade pública, que partes dun avión hai
a necesidade de datos permanente detallada, así como se unha empresa
celebra contratos perigosos.
A sociedade non pode permitirse o luxo de pasar por alto os detalles porque
durante os próximos anos, no caso de que se produza unha demanda, unha destitución, a
defecto de construción en disputa, etc. exposición da empresa
podería ser grande. Como resultado, hai un tipo único de datos
coñecido como datos de detalle permanente.
RESUMO
Un data warehouse é unha variante orientada a obxectos, integrada
tempo, unha colección de datos non volátil para soportar as necesidades de
decisión administrativa. Cada unha das funcións salientables de
un data warehouse ten as súas implicacións. Ademais hai catro
niveis de datos do data warehouse:
▪ Detalle antigo
▪ Detalle actual
▪ Dati lixeiramente recapitulado
▪ Dati altamente resumido
Os metadatos tamén son unha parte importante do data warehouse.
RESUMO
O concepto de almacenamento de datos recibido recentemente
moita atención e converteuse nunha tendencia dos anos 90. Isto é
debido á capacidade de a data warehouse para superalos
limitacións dos sistemas de apoio á administración como i
sistemas de apoio á decisión (DSS) e sistemas de información
executivo (EIS).
Aínda que o concepto de data warehouse parece prometedor,
implementar i data warehouse pode ser problemático debido a
de procesos de almacenamento a gran escala. A pesar do
complexidade dos proxectos de almacenamento datos, moitos provedores
e consultores de almacén datos afirman que
o almacenamento de datos a corrente non causa ningún problema.
Porén, ao comezo deste proxecto de investigación, case ningún
realizouse unha investigación independente, rigorosa e sistemática. Desde
En consecuencia, é difícil dicir o que realmente acontece
na industria cando se constrúen data warehouse.
Este estudo explorou a práctica de almacenamento de datos
contemporáneos que pretende desenvolver unha comprensión máis rica
da práctica australiana. A análise da literatura proporcionou o
contexto e fundamento para o estudo empírico.
Hai unha serie de achados desta investigación. Primeira
lugar, este estudo revelou as actividades que se produciron
durante o desenvolvemento de data warehouse. En moitas áreas, i datos reunidos
confirmou a práctica descrita na literatura. En segundo lugar
sitio, problemas e problemas que poden afectar o
desenvolvemento de data warehouse foron identificados por este estudo.
Finalmente, os beneficios obtidos das organizacións australianas conectadas
o uso de data warehouse foron revelados.
Capítulo 1
Contexto de investigación
O concepto de almacenamento de datos recibiu un amplo recoñecemento
exposición e converteuse nunha tendencia emerxente no
90 (McFadden 1996, TDWI 1996, Shah e Milstein 1997,
Shanks et al. 1997, Eckerson 1998, Adelman e Oates 2000). É dicir
pódese ver polo crecente número de artigos sobre os datos
almacenamento en publicacións comerciais (Little e Gibson 1999).
Moitos artigos (véxase, por exemplo, Fisher 1995, Hackathorn 1995,
Morris 1995a, Bramblett e King 1996, Graham et al. 1996,
Sakaguchi e Frolick 1996, Álvarez 1997, Brousell 1997, Clarke
1997, McCarthy 1997, O' Donnell 1997, Edwards 1998, TDWI
1999) informaron de importantes beneficios derivados das organizacións
que implementan i data warehouse. Apoiaron a súa teoría
con evidencias anecdóticas de implementacións exitosas, o alto rendemento
sobre cifras de investimento (ROI) e, tamén, proporcionar orientación
referencia ou metodoloxías para o desenvolvemento de data warehouse
(Shanks et al. 1997, Seddon e Benjamin 1998, Little e Gibson
1999). Nun caso extremo, Graham et al. (1996) teñen
informou dun rendemento medio dun investimento a tres anos do 401%.
Non obstante, gran parte da literatura actual descoidou o
complexidade que implica a realización destes proxectos. Os proxectos de
data warehouse son normalmente complexos e de gran escala e
polo tanto implican unha alta probabilidade de fracasar se non o son
coidadosamente controlados (Shah e Milstein 1997, Eckerson 1997,
Foley 1997b, Zimmer 1997, Bort 1998, Gibbs e Clymer 1998, Rao
1998). Requiren grandes cantidades de recursos humanos e de recursos
económicos e, tempo e esforzo para construílos (Hill 1998, Crofts 1998). O
tempo típico e os medios económicos necesarios son respectivamente
uns dous anos e dous ou tres millóns de dólares (Braly 1995, Foley
1997b, Bort 1998, Humphries et al. 1999). Estes tempos e medios
as entidades financeiras están obrigadas a controlar e consolidar moitos aspectos
diferenzas no almacenamento de datos (Cafasso 1995, Hill 1998). No lado
de consideracións de hardware e software, outras funcións, que varían
da extracción de datos aos procesos de carga de datos, do
capacidade de memoria para xestionar actualizacións e metadatos datos
para a formación de usuarios, debe ser considerado.
No momento en que comezou este proxecto de investigación, había moi pouco
investigación académica realizada no campo do almacenamento de datos,
especialmente en Australia. Isto foi evidente pola escaseza de elementos
publicados en data warehousing por xornais ou outros escritos
académicos da época. Moitos dos escritos académicos
dispoñible describiu a experiencia estadounidense. A falta de
investigación académica na área sl data warehousing provocou o
demanda de investigación rigorosa e estudos empíricos (McFadden 1996,
Shanks et al. 1997, Little e Gibson 1999). En particular, os estudos
de investigación sobre o proceso de implantación de data warehouse
deben realizarse para ampliar os coñecementos
xeral sobre a implantación de data warehouse e
servirá como base para un futuro estudo de investigación (Shanks ed
outros. 1997, Little e Gibson 1999).
O obxectivo deste estudo, polo tanto, é estudar o que realmente
Ocorre cando as organizacións manteñen e usan datos
almacén en Australia. En concreto, este estudo implicará
unha análise de todo un proceso de desenvolvemento de a data warehouse,
partindo da iniciación e planificación pasando polo deseño e
implementación e posterior utilización dentro das organizacións
australiano. Ademais, o estudo tamén contribuirá á práctica actual
identificando áreas onde se pode desenvolver a práctica
melloradas e as ineficiencias e os riscos pódense minimizar ou
evitar. Ademais, servirá de base para outros estudos sobre data warehouse in
Australia e encherá o baleiro que existe actualmente na literatura.
Preguntas de investigación
O obxectivo desta investigación é estudar as actividades implicadas
na implantación de data warehouse e o seu uso por
organizacións australianas. En particular, estúdanse os elementos
en materia de planificación, desenvolvemento e
funcionamento, uso e riscos implicados. Entón a pregunta
desta investigación é:
“Cal é a práctica actual data warehouse en Australia?"
Para responder eficazmente a este problema, a
determinado número de preguntas de investigación subsidiarias. En concreto, tres
identificáronse subpreguntas a partir da literatura, que é
presentado no capítulo 2, para guiar este proxecto de investigación:
Como se implementan i data warehouse por organizacións
australiano? Que problemas atopaches?
Cales son os beneficios experimentados?
Para responder a estas preguntas utilizouse un debuxo
investigación exploratoria empregando unha enquisa. Como estudo
exploratoria, as respostas ás preguntas anteriores non están completas
(Shanks et al. 1993, Denscombe 1998). Neste caso, é
é necesaria a triangulación para mellorar as respostas a estes
solicitudes. Non obstante, a investigación proporcionará unha base sólida para
traballo futuro que examine estas cuestións. Un detallado
discusión sobre a xustificación e deseño do método de investigación
preséntase no capítulo 3.
Estrutura do proxecto de investigación
Este proxecto de investigación divídese en dúas partes: o estudo contextual
do concepto de almacenamento de datos e investigación empírica (ver
figura 1.1), cada un dos cales se analiza a continuación.
Parte I: Estudo contextual
A primeira parte da investigación consistiu en reexaminar o
literatura actual sobre varios tipos de almacenamento de datos, incluíndo i
sistemas de apoio á decisión (DSS), sistemas de información
executive (EIS), os estudos de caso de data warehouse e os conceptos de data
almacén. Ademais, os resultados dos foros data warehouse e deuses
grupos de reunión de expertos e profesionais realizados polo grupo de
A investigación de Monash DSS, contribuíu a esta fase do estudo
que pretendía obter información sobre a práctica dos datos
almacén e identificar os riscos que entraña a súa adopción.
Durante este período de estudo contextual, comprensión
da área problemática estableceuse para proporcionar coñecemento
base para investigacións empíricas posteriores. Porén, isto
foi un proceso continuo mentres se levaba a cabo o estudo
investigación.
Parte II: Investigación empírica
O concepto relativamente novo de almacenamento de datos, especialmente
en Australia, creou a necesidade de realizar unha enquisa para
obter unha imaxe ampla da experiencia de uso. Isto
parte levouse a cabo unha vez que o dominio do problema estaba
foi establecido mediante unha extensa revisión da literatura. O concepto
de data-warehousing formado durante a fase de estudo contextual é
utilizouse como entrada para o cuestionario inicial deste estudo.
Despois diso, examinouse o cuestionario. Sodes expertos en citas
almacén participou na proba. Finalidade da proba
O cuestionario inicial consistía en comprobar a súa integridade e precisión
algunhas preguntas. En base aos resultados da proba, o cuestionario é
foi modificado e a versión modificada foi enviada a
participantes da enquisa. Os cuestionarios devoltos entón foron
analizado para i datos en táboas, diagramas e outros formatos. O
resultados da análise de datos formar unha fotografía instantánea
práctica de almacenamento de datos en Australia.
DESCRIPCIÓN GENERAL DO ALMACÉN DE DATOS
O concepto de almacenamento de datos evolucionou con melloras
da tecnoloxía informática.
Está dirixido a superar os problemas que atopan os grupos de
soporte de aplicacións como o sistema de apoio á decisión (DSS) e
Sistema de Información Executiva (EIS).
No pasado o principal obstáculo destas aplicacións foi
a incapacidade destas aplicacións para proporcionar a base de datos
necesarios para a análise.
Isto débese principalmente á natureza do traballo
xestión. Os intereses da dirección dunha empresa varían
constantemente dependendo da zona tratada. Polo tanto i datos
fundamental para estas aplicacións debe ser capaz de
cambiar rapidamente dependendo da parte a tratar.
Isto significa que i datos debe estar dispoñible en forma
adecuado para as análises requiridas. De feito, os grupos de apoio de
aplicacións resultaron moi difíciles no pasado recoller ed
integrar datos de fontes complexas e diversas.
O resto desta sección presenta unha visión xeral do concepto
almacenamento de datos e trata sobre como o data warehouse pode superar o
Problemas do grupo de apoio á aplicación.
O termo "Almacén de datos” foi lanzado por William Inmon en 1990.
A súa definición tan citada ve o Almacén de datos Vir
colección de datos orientado a temas, integrado, non volátil e variable
ao longo do tempo, en apoio das decisións de xestión.
Usando esta definición Inmon destaca que i datos residentes
nunha data warehouse debe posuír os seguintes 4
características:
▪ Orientado á materia
▪ Integrado
▪ Non volátil
▪ Variable no tempo
Por Inmon orientado a temas significa que i datos na data
almacén nas maiores áreas organizativas que houbo
definido no modelo datos. Por exemplo todos datos sobre i clientes
están contidos na área temática CLIENTES. Igualmente todos
datos relacionados cos produtos están contidos na área temática
PRODUTOS.
Por Integrated Inmon significa que i datos procedentes de diferentes
as plataformas, os sistemas e as localizacións combínanse e almacénanse
lugar único. En consecuencia datos similares deben transformarse
en formatos consistentes para que se poidan engadir e comparar
facilmente.
Por exemplo, represéntanse o xénero masculino e feminino
polas letras M e F nun sistema, e con 1 e 0 noutro. Para
integralos da forma correcta, un ou os dous formatos deben
transformarse para que os dous formatos sexan iguais. Neste
no caso de que poidamos cambiar M a 1 e F a 0 ou viceversa. Orientado cara
tema e Integrado indican que o data warehouse está deseñado para
proporcionar unha visión funcional e transversal de datos á parte
da empresa.
Por Non volátil quere dicir que i datos en data warehouse quedan
coherencia e actualización de datos non é necesario. En cambio, cada
cambio en datos orixinais engádese ao base de datos da data
almacén. Isto significa que o histórico dei datos está contido en
data warehouse.
Para as variables co tempo, Inmon indica que i datos en data warehouse
sempre conteñen ei indicadores de tempo datos normalmente
atravesar un determinado horizonte temporal. Por exemplo a
data warehouse pode conter 5 anos de valores históricos de clientes dal
1993 a 1997. A dispoñibilidade da historia e dunha serie temporal
de datos permite analizar tendencias.
Un data warehouse pode recoller o seu datos desde sistemas
OLTP;de orixes datos externos á organización e/ou por outros especialistas
proxectos de sistemas de captura datos.
I datos extractos poden pasar por un proceso de limpeza, en
este caso i datos transfórmanse e intégranse antes de ser
almacenado en base de datos do data warehouse. Entón eu datos
residentes dentro do base de datos do data warehouse están dispoñibles
para acceder ao usuario final e ferramentas de recuperación. Usando
estas ferramentas o usuario final pode acceder á vista integrada
da organización de datos.
I datos residentes dentro do base de datos do data warehouse son
almacenados tanto en formato detallado como en formato de resumo.
O nivel de resumo pode depender da natureza do datos. O datos
detallado pode consistir en datos actual e datos historiadores
I datos as regalías non están incluídas no data warehouse ata i datos
en data warehouse están actualizados.
Ademais de gardar o datos eles mesmos, a data warehouse pode tamén
almacenar un tipo diferente de datas chamado METADATOS que
describe i datos residentes no seu base de datos.
Hai dous tipos de metadatos: metadatos de desenvolvemento e metadatos de desenvolvemento
análises.
Os metadatos de desenvolvemento úsanse para xestionar e automatizar
procesos de extracción, limpeza, cartografía e carga datos en
data warehouse.
A información contida nos metadatos de desenvolvemento pode conter
detalles dos sistemas operativos, detalles dos elementos a extraer, o
modelo datos do data warehouse e normas da empresa para
conversión dei datos.
O segundo tipo de metadatos, coñecido como metadatos analíticos
permite ao usuario final explorar o contido dos datos
almacén para atopar o datos dispoñibles e o que significan en termos
claro e non técnico.
Polo tanto, os metadatos analíticos funcionan como ponte entre os datos
aplicacións de almacén e de usuario final. Estes metadatos poden
contén o modelo de negocio, descricións de datos correspondentes
ao modelo de negocio, consultas e informes predefinidos,
información para inicios de sesión de usuarios e o índice.
Os metadatos de análise e desenvolvemento deben combinarse nun só
contención de metadatos integrada para funcionar correctamente.
Desafortunadamente, moitas das ferramentas existentes teñen as súas propias
metadatos e actualmente non hai estándares existentes que
permitir que as ferramentas de almacenamento de datos integren estas
metadatos. Para remediar esta situación moitos comerciantes de
as principais ferramentas de almacenamento de datos formaron Meta Data
Consello que máis tarde se convertería na Meta Data Coalition.
O propósito desta coalición é construír un conxunto de metadatos
estándar que permite diferentes ferramentas de almacenamento de datos
converter metadatos
Os seus esforzos resultaron no nacemento do Meta
Especificación de intercambio de datos (MDIS) que permitirá o intercambio
de información entre os arquivos de Microsoft e os ficheiros MDIS relacionados.
A existencia de datos tanto resumidos/indexados como detallados
o usuario a posibilidade de realizar un TRILLADO AFOGADO
(perforación) veña datos indexados a detallados e viceversa.
A existencia de datos historias detalladas permite a creación de
análise de tendencias ao longo do tempo. Ademais, os metadatos de análise poden
ser usado como o directorio de base de datos do data warehouse per
axudar aos usuarios finais a localizar i datos necesario.
En comparación cos sistemas OLTP, coa súa capacidade de soportar
análise de datos e informes, o data warehouse é visto como un sistema
máis apropiado para procesos de información como facer e
responder a consultas e elaborar informes. A seguinte sección
destacará detalladamente as diferenzas dos dous sistemas.
ALMACÉN DE DATOS CONTRA OS SISTEMAS OLTP
Moitos dos sistemas de información dentro das organizacións
Están destinados a apoiar as operacións diarias. Estes
sistemas coñecidos como SISTEMAS OLTP, capturan transaccións
continuamente actualizado diariamente.
I datos dentro destes sistemas adoitan modificarse, engadirse ou
eliminado. Por exemplo, o enderezo dun cliente apenas cambia
móvese dun lugar a outro. Neste caso o novo enderezo
rexistrarase modificando o campo do enderezo de base de datos.
O obxectivo principal destes sistemas é reducir os custos
transaccións e ao mesmo tempo reducir os tempos de procesamento.
Exemplos de sistemas OLTP inclúen accións críticas como as escrituras
contabilidade de pedidos, nóminas, facturas, fabricación, servizos de ai clientes.
A diferenza dos sistemas OLTP, que foron creados por proceso
baseado en transaccións e eventos, i data warehouse foron creados
para proporcionar soporte a procesos baseados en analíticas de datos e o seu
procesos de decisión.
Isto conséguese normalmente integrando i datos de varios sistemas
OLTP e externo nun único "contedor". datos, como se comentou
no apartado anterior.
Modelo de proceso de almacenamento de datos Monash
O modelo de proceso para data warehouse Monash foi desenvolvido por
investigadores do Monash DSS Research Group, baséase en
literaturas de data warehouse, sobre a experiencia no apoio ao
desenvolvemento de campos de sistemas, en discusións con provedores de
aplicacións para usar en data warehouse, sobre un grupo de expertos
no uso de data warehouse.
As fases son: inicio, planificación, desenvolvemento e operacións
Explicacións. O diagrama explica a natureza iterativa ou
desenvolvemento evolutivo de a data warehouse proceso utilizando
frechas bidireccionais colocadas entre as distintas fases. Neste
contexto "iterativo" e "evolutivo" significa que, en cada un
paso do proceso, pódense realizar actividades de implementación
propágase sempre cara atrás ata a fase anterior. Isto é
pola natureza do proxecto a data warehouse en que
solicitudes adicionais xurden en calquera momento
do usuario final. Por exemplo, durante a fase de desenvolvemento de a
proceso de data warehouse, un é solicitado polo usuario final
nova dimensión ou área temática, que non pertencía á
plan orixinal, debe engadirse ao sistema. Isto
provoca un cambio no proxecto. O resultado é que o equipo de
o deseño debe modificar os requisitos dos documentos creados ata o momento
durante a fase de deseño. En moitos casos, o estado actual do
proxecto debe volver á fase de deseño onde
a nova solicitude deberá engadirse e documentarse. O usuario
final debe poder ver a documentación específica revisada ei
cambios realizados na fase de desenvolvemento. Ao final de
Neste ciclo de desenvolvemento o proxecto debe obter un gran feedback
ambos equipos, o equipo de desenvolvemento e o equipo de usuarios. O
A retroalimentación reutilízase entón para mellorar un proxecto futuro.
Planificación da capacidade
Dw adoita ser de tamaño moi grande e crecer
moi rapidamente (Best 1995, Rudin 1997a) seguindo o
cantidade de datos historias que conservan da súa duración. Alí
o crecemento tamén pode ser causado por datos elementos adicionais solicitados por
usuarios para aumentar o valor de datos que xa teñen. Desde
en consecuencia, os requisitos de almacenamento para datos pode
mellorarse significativamente (Eckerson 1997). Así é
esencial para garantir, mediante a realización da planificación de
capacidade coa que pode crecer o sistema a construír
crecemento das necesidades (Best 1995, LaPlante 1996, Lang 1997,
Eckerson 1997, Rudin 1997a, Foley 1997a).
Na planificación da escalabilidade dw, hai que coñecer o
crecemento esperado no tamaño do inventario, tipos de preguntas
probable que se leve a cabo e o número de usuarios finais admitidos (Mellor
1995, Rudin 1997b, Foley 1997a). Crea aplicacións escalables
require unha combinación de tecnoloxías e técnicas de servidor escalables
de deseño de aplicacións escalables (Best 1995, Rudin 1997b.
Ambos son necesarios á hora de crear unha aplicación
extremadamente escalable. As tecnoloxías de servidor escalables poden
fai que sexa fácil e beneficioso engadir almacenamento, memoria e
CPU sen degradar o rendemento (Lang 1997, Telephony 1997).
Existen dúas tecnoloxías de servidor escalables principais: informática
múltiplo simétrico (SMP) e procesamento masivo
paralelo (MPP) ) (IDC 1997, Humphries et al. 1999). Un servidor
SMP normalmente ten varios procesadores que comparten unha memoria,
sistema de autobuses e outros recursos (IDC 1997, Humphries et al. 1999).
Pódense engadir procesadores adicionais para aumentar
a súa poder computacional. Outro método para aumentar o
poder potencia computacional do servidor SMP, é combinar numerosos
Máquinas SMP. Esta técnica coñécese como agrupación (Humphries
et al. 1999). Un servidor MPP, por outra banda, ten varios procesadores cada un
coa súa propia memoria, sistema de bus e outros recursos (IDC 1997,
Humphries et al. 1999). Cada procesador chámase nodo. A
aumento en poder computacional pódese conseguir
engadir nodos adicionais aos servidores MPP (Humphries et al.
1999).
Unha debilidade dos servidores SMP son demasiadas operacións de entrada-saída
(E/S) poden conxestionar o sistema de bus (IDC 1997). Isto
O problema non se produce nos servidores MPP xa que todos
o procesador ten o seu propio sistema de bus. Con todo, as interconexións
entre cada nodo son xeralmente moito máis lentos que o sistema de bus
dos SMP. Ademais, os servidores MPP poden engadir unha capa
complexidade adicional para desenvolvedores de aplicacións (IDC
1997). Así, a elección entre servidores SMP e MPP pode verse influenciada
por moitos factores, incluíndo a complexidade das preguntas, a relación
prezo/rendemento, a capacidade de tratamento requirida, o
impediu aplicacións dw e o aumento do tamaño de base de datos
de dw e no número de usuarios finais.
Numerosas técnicas de deseño de aplicacións escalables
pódese utilizar na planificación da capacidade. Un
utiliza varios períodos de notificación como días, semanas, meses e anos.
Tendo varios prazos de notificación, o base de datos pódese dividir en
pezas agrupadas con facilidade (Inmon et al. 1997). Outro
técnica consiste en utilizar táboas resumo que se constrúen
Resumindo datos da datos detallado. Entón eu datos os resumos son máis
compacto que detallado, o que require menos espazo de memoria.
Entón o datos de detalles pódese almacenar nunha unidade
almacenamento máis barato, o que aforra aínda máis almacenamento.
Aínda que o uso de táboas de resumo pode aforrar espazo
memoria, requiren moito esforzo para mantelos actualizados e actualizados
acorde coas necesidades comerciais. Non obstante, esta técnica é
moi utilizado e frecuentemente usado en conxunto coa técnica
anterior (Best 1995, Inmon 1996a, Chauduri e Dayal
1997).
Definición Almacén de datos Técnico
Arquitecturas Definición de técnicas
arquitecturas dw
Os primeiros adoptantes do almacenamento de datos concibíronse principalmente
unha implementación centralizada do dw onde todos os datos, incluído
i datos externos, estaban integrados nun único,
almacenamento físico (Inmon 1996a, Bresnahan 1996, Peacock 1998).
A principal vantaxe deste enfoque é que os usuarios finais
Podo acceder á vista a escala empresarial
(visión de toda a empresa) dei datos organizacional (Ovum 1998). Outro
vantaxe é que ofrece estandarización de datos mediante
a organización, o que significa que só hai unha versión ou
definición para cada terminoloxía utilizada no depósito dw
metadatos (repositorios) (Flanagan e Safdie 1997, Ovum 1998). O
A desvantaxe deste enfoque, por outra banda, é que é caro e difícil
a construír (Flanagan e Safdie 1997, Ovum 1998, Inmon et al.
1998). Non moito tempo despois da arquitectura de almacenamento datos
centralizado popularizouse, o concepto de extracción evolucionou
dos subconxuntos máis pequenos do datos para apoiar as necesidades de
aplicacións específicas (Varney 1996, IDC 1997, Berson e Smith
1997, pavo real 1998). Estes pequenos sistemas derivan dos máis
gran data warehouse centralizado. Chámanse data
almacéns departamentais dependentes ou data mart dependentes.
A arquitectura de data mart dependente coñécese como
arquitectura de tres niveis onde o primeiro nivel consiste en datos
almacén centralizado, o segundo está formado por almacéns datos
departamental e a terceira consiste no acceso a datos e das ferramentas de
análise (Demarest 1994, Inmon et al. 1997).
Os data marts adoitan construírse despois do data warehouse
centralizado foi construído para satisfacer as necesidades de
unidades específicas (White 1995, Varney 1996).
Os data marts almacenan datos moi relevantes en relación aos datos
unidade (Inmon et al. 1997, Inmon et al. 1998, IA 1998).
A vantaxe deste método é que non haberá datas non
integrado e que i datos serán menos redundantes dentro dos datos
marts desde todo datos veñen dun almacén datos integrado.
Outra vantaxe é que haberá poucas conexións entre cada un
data marts e fontes relacionadas datos porque cada data mart só ten
unha fonte de datos. Ademais, con esta arquitectura no lugar, os usuarios
as finais aínda poden acceder á vista xeral de datos
organizacións corporativas. Este método coñécese como o
método de arriba abaixo, no que se constrúen mercados de datos despois dos datos
almacén (pavo real 1998, Goff 1998).
Aumentando a necesidade de mostrar resultados cedo, algúns
organizacións comezaron a construír data marts independentes
(Flanagan e Safdie 1997, White 2000). Neste caso, data marts
levan os seus datos directamente desde o básico de datos OLTP e non de
almacenamento centralizado e integrado, eliminando así a necesidade de
ter almacenamento central no lugar.
Cada data mart require polo menos unha ligazón ás súas fontes
di datos. Unha desvantaxe de ter varias ligazóns para cada data
mart é que, en comparación coas dúas arquitecturas anteriores, o
sobreabundancia de datos aumenta significativamente.
Cada data mart debe almacenar todos os datos datos solicitado localmente para
non teñen ningún efecto nos sistemas OLTP. Isto fai que i datos
almacénanse en diferentes data marts (Inmon et al. 1997).
Outra desvantaxe desta arquitectura é que leva a
creación de interconexións complexas entre data mart e os seus
fontes de datos que son difíciles de levar a cabo e controlar (Inmon ed
outros. 1997).
Outra desvantaxe é que os usuarios finais non poden alimentar
acceder á información xeral da empresa como i datos
dos diferentes datamarts non están integrados (Ovum 1998).
Outra desvantaxe é que pode haber máis dun
definición para cada terminoloxía utilizada nos data mart que xera
inconsistencias de datos na organización (Ovum 1998).
A pesar das desvantaxes comentadas anteriormente, os mercados de datos independentes
aínda atraen o interese de moitas organizacións (IDC 1997).
Un factor que os fai atractivos é que se desenvolven máis rápido
e requiren menos tempo e recursos (Bresnahan 1996, Berson e
Smith 1997, Ovum 1998). En consecuencia, serven principalmente
como proxectos de proba que se poden utilizar para identificar
rapidamente os beneficios e/ou imperfeccións do proxecto (Parsaye
1995, Braly 1995, Newing 1996). Neste caso, a parte de
implementar no proxecto piloto debe ser pequeno pero importante
para a organización (Newing 1996, Mansell-Lewis 1996).
Ao examinar o prototipo, os usuarios finais e a administración poden
decidir se continuar ou deter o proxecto (Flanagan e Safdie
1997).
Se a decisión é continuar, data marts para outros sectores
deberían construírse un a un. Hai dúas opcións para
usuarios finais en función das súas necesidades na construción de datos
matrices independentes: integradas/federadas e non integradas (Ovum
1998)
No primeiro método, debería construírse cada novo data mart
baseado en data marts e modelo actuais datos usado
pola empresa (Varney 1996, Berson e Smith 1997, Peacock 1998).
A necesidade de utilizar o modelo datos da empresa faino necesario
asegurarse de que só hai unha definición para cada terminoloxía
usado a través de data marts, isto tamén é para garantir que os datos
Pódense combinar diferentes mercados para dar unha visión xeral
información corporativa (Bresnahan 1996). Este método é
chamado de abaixo cara arriba e é mellor cando hai unha restrición
medios financeiros e tempo (Flanagan e Safdie 1997, Ovum 1998,
pavo real 1998, Goff 1998). No segundo método, data marts
construído só pode satisfacer as necesidades dunha unidade específica.
Unha variante do data mart federado é o data warehouse distribuído
no que o base de datos O middleware do servidor hub úsase para unirse a moitos
data marts nun único repositorio de datos distribuído (White 1995). En
este caso, i datos as empresas están distribuídas en varios data mart.
As solicitudes dos usuarios finais son enviadas a base de datos
middleware de concentrador de servidor, que extrae todos os datos solicitado polos datos
marts e devolve os resultados ás aplicacións do usuario final. Isto
proporciona información comercial aos usuarios finais. Non obstante,
Os problemas dos data marts aínda non están eliminados
independente. Hai outra arquitectura que se pode utilizar que é
chamar ao data warehouse virtual (Blanco 1995). Porén, isto
a arquitectura, que se describe na figura 2.9, non é unha arquitectura
de almacenamento datos real xa que non move a carga
desde sistemas OLTP ata data warehouse (Demarest 1994).
De feito, as peticións de datos polos usuarios finais pasaron a
Sistemas OLTP que devolven resultados despois do procesamento
solicitudes dos usuarios. Aínda que esta arquitectura permite aos usuarios
finais para xerar informes e formular solicitudes, non poden achegar i
datos histórico e visión xeral da información da empresa como i datos
dos diferentes sistemas OLTP non están integrados. Entón, este
a arquitectura non pode satisfacer a análise de datos complexos como
exemplos de previsións.
Selección de aplicacións de acceso e acceso
recuperación de datos
O propósito de construír a data warehouse é transmitir
información aos usuarios finais (Inmon et al 1997, Poe 1996,
McFadden 1996, Shanks et al 1997, Hammergren 1998); unha ou
múltiples aplicacións de acceso e recuperación datos debe proporcionarse. Para
Hoxe, hai unha gran variedade destas aplicacións para que o usuario elixa
escoller (Hammergren 1998, Humphries et al. 1999). O
as aplicacións seleccionadas determinan o éxito do esforzo
de almacenamento datos nunha organización porque o
as aplicacións son a parte máis visible data warehouse ao usuario
final (Inmon et al. 1997, Poe 1996). Para ter éxito nunha cita
almacén, debe ser capaz de soportar as actividades de análise de datos
do usuario final (Poe 1996, Seddon e Benjamin 1998, Eckerson
1999). Polo tanto, o "nivel" do que quere o usuario final debe ser
identificados (Poe 1996, Mattison 1996, Inmon et al 1997,
Humphries et al., 1999).
En xeral, os usuarios finais pódense agrupar en tres
categorías: usuarios executivos, analistas de negocios e usuarios avanzados (Poe
1996, Humphries et al., 1999). Os usuarios executivos precisan
fácil acceso a conxuntos predefinidos de informes (Humphries ed
outros 1999). Estes informes pódense conseguir facilmente con
navegación por menús (Poe 1996). Ademais, os informes deberían
Presentar información mediante representación gráfica
como táboas e modelos para transportar rapidamente
información (Humphries et al. 1999). Analistas de negocios, que non
poden ter as posibilidades técnicas para desenvolver relacións a partir
cero por si mesmos, deben ser capaces de modificar as relacións actuais para
satisfacer as súas necesidades específicas (Poe 1996, Humphries et al
1999). Os usuarios avanzados, pola contra, son o tipo de usuarios finais que
ter a capacidade de xerar e escribir solicitudes e informes desde
cero (Poe 1996, Humphries et al. 1999). Eles son os que
desenvolver informes para outros tipos de usuarios (Poe 1996, Humphries
e outros 1999).
Unha vez determinados os requisitos do usuario final deben facerse
unha selección de aplicacións de acceso e recuperación datos entre todos
as dispoñibles (Poe 1996, Inmon et al. 1997).
Acceso a datos e ferramentas de recuperación poden ser
clasificados en 4 tipos: ferramenta OLAP, ferramenta EIS/DSS, ferramenta de consulta e
ferramentas de elaboración de informes e minería de datos.
As ferramentas OLAP permiten aos usuarios crear consultas ad hoc
os feitos en base de datos do data warehouse. Ademais destes produtos
permitir aos usuarios explorar desde datos xeral a aqueles
detallado.
As ferramentas EIS/DSS proporcionan informes executivos como análise de "e se".
e acceso a informes organizados por menú. Os informes deben ser
predefinidos e combinados con menús para facilitar a navegación.
As ferramentas de consulta e informes permiten aos usuarios elaborar informes
predefinidos e específicos.
As ferramentas de minería de datos úsanse para identificar relacións que
podería arroxar nova luz sobre operacións esquecidas no datos do
almacén de datos.
Ademais de optimizar os requisitos de cada tipo de usuario, i
As ferramentas seleccionadas deben ser intuitivas, eficientes e fáciles de usar.
Tamén deben ser compatibles con outras partes da arquitectura e
capaz de traballar con sistemas existentes. Tamén se suxire
escoller ferramentas de acceso e recuperación de datos con prezos e rendemento
razoable. Outros criterios a considerar inclúen o compromiso do
provedor da ferramenta para apoiar o seu produto e os desenvolvementos que a mesma
o mesmo terá en próximas versións. Para garantir a implicación dos usuarios
no uso do almacén de datos, o equipo de desenvolvemento implica o
usuarios no proceso de selección da ferramenta. Neste caso
debe realizarse unha avaliación práctica do usuario.
Para mellorar o valor do almacén de datos, o equipo de desenvolvemento pode
tamén proporcionan acceso web aos seus almacéns de datos. A
O almacén de datos habilitado para a web permite aos usuarios acceder ao datos
desde lugares remotos ou mentres viaxa. Ademais a información pode
proporcionarse a un custo inferior mediante a redución de custos
di formación.
2.4.3 Almacén de datos Fase de Operación
Esta fase consta de tres actividades: Definición de estratexias de data
actualización, control das actividades do almacén de datos e xestión de
seguridade do almacén de datos.
Definición de estratexias de actualización de datos
Despois da carga inicial, i datos en base de datos do almacén de datos
debe actualizarse periodicamente para xogar
cambios realizados en datos orixinais. Por iso debemos decidir
cando actualizar, cantas veces o
actualizar e como actualizar o datos. Suxírese facer o
refrescar dei datos cando o sistema se pode desconectar. Alí
A taxa de actualización está determinada polo equipo de desenvolvemento baseado
sobre os requisitos dos usuarios. Hai dous enfoques para actualizar o
almacén de datos: actualización completa e carga continua de
modificacións.
O primeiro enfoque, a actualización completa, require recarga
todo o datos dende cero. Isto significa que todo datos debe requirir
ser extraído, limpo, transformado e integrado en cada actualización. Isto
debería evitarse, na medida do posible, porque
Require moito tempo e recursos.
Un enfoque alternativo é cargar continuamente i
cambios. Isto engade i datos que foron modificados
desde o último ciclo de actualización do almacén de datos. A identificación de
rexistros novos ou modificados reduce significativamente a cantidade de
datos que se deben propagar ao data warehouse de cada un
actualizar xa que só estes datos engadirase a base de datos
do almacén de datos.
Hai polo menos 5 enfoques que se poden usar para retirarse
i datos novo ou modificado. Para obter unha estratexia eficiente
refrescar dei datos unha mestura destes enfoques pode ser útil
recolle todos os cambios no sistema.
A primeira aproximación, que usa marcas de tempo, asume que vén
asignado a todos datos editou e actualizou unha marca de tempo así
para poder identificalos todos facilmente datos modificado e novo.
Este enfoque, con todo, non foi moi utilizado na maioría
parte dos sistemas operativos actuais.
O segundo enfoque é usar un ficheiro delta xerado por
unha aplicación que só contén os cambios realizados datos.
Usar este ficheiro tamén amplía o ciclo de actualización.
Non obstante, mesmo este método non se utilizou en moitos
aplicacións.
O terceiro enfoque é analizar un ficheiro de rexistro, que
basicamente contén información similar ao ficheiro delta. O único
A diferenza é que se crea un ficheiro de rexistro para o proceso de recuperación e
pode ser difícil de entender.
O cuarto enfoque é modificar o código da aplicación.
Non obstante, a maior parte do código da aplicación é antigo e
fráxil; polo tanto, debe evitarse esta técnica.
O último enfoque é comparar datos fontes co ficheiro
deuses principais datos.
Control das actividades do almacén de datos
Unha vez que o almacén de datos foi lanzado aos usuarios, é
necesario supervisalo no tempo. Neste caso, o administrador
do almacén de datos pode empregar unha ou varias ferramentas de xestión e
control para supervisar o uso do almacén de datos. En particular
pódese recoller información sobre persoas e tempo
ao que acceden ao almacén de datos. Veña datos pódense crear cultivos
un perfil do traballo realizado que se pode utilizar como entrada
na implementación do reembolso do usuario. A contracargo
permite que os usuarios sexan informados sobre o custo do procesamento
almacén de datos.
Ademais, o control do almacén de datos tamén se pode utilizar para
identificar os tipos de consultas, o seu tamaño, o número de consultas por
día, tempos de resposta á consulta, sectores alcanzados e cantidade
di datos procesado. Outro propósito de facer a comprobación de
almacén de datos é identificar o datos que non están en uso. Estes datos
pódense eliminar do almacén de datos para mellorar o tempo
de resposta de execución de consulta e supervisar o crecemento de
datos que residen dentro do base de datos do almacén de datos.
Xestión da seguridade do almacén de datos
Un almacén de datos contén datos integrado, crítico, sensible que
pódese chegar facilmente. Por este motivo debería
estar protexido de usuarios non autorizados. Un xeito de
implementar a seguridade é usar a función del SGBD
para asignar diferentes privilexios a distintos tipos de usuarios. Neste
xeito, debe manterse un perfil para cada tipo de usuario
acceso. Outra forma de protexer o teu almacén de datos é cifralo
tal e como está escrito base de datos do almacén de datos. Acceso a
datos e as ferramentas de recuperación deben descifrar o datos antes de enviar i
resultados aos usuarios.
2.4.4 Almacén de datos Fase de implantación
É a última fase do ciclo de implementación do almacén de datos. O
as actividades a realizar nesta fase inclúen formación de
usuarios para utilizar o almacén de datos e crear comentarios
do almacén de datos.
Formación de usuarios
A formación dos usuarios debe facerse primeiro
de acceso a datos do almacén de datos e o uso de ferramentas
recuperación. En xeral, as sesións deberían comezar
a introdución ao concepto de almacenamento de datosEn
contido do almacén de datos, ai meta datos e as características básicas
das ferramentas. Entón, os usuarios máis avanzados tamén poderían estudar
táboas físicas e características de usuario de acceso a datos e ferramentas
recuperación.
Hai moitos enfoques para facer formación de usuarios. Un de
isto implica unha selección de moitos usuarios ou analistas elixidos por a
grupo de usuarios, en función do seu liderado e capacidade
comunicación. Estes son adestrados a título persoal sobre
todo o que precisan saber para familiarizarse co
sistema. Unha vez rematada a formación, volven ao seu traballo e
comezan a ensinar a outros usuarios a usar o sistema. No
en función do que aprenderon, outros usuarios poden comezar
explorar o almacén de datos.
Outro enfoque é formar a moitos usuarios no mesmo
tempo, coma se estiveses facendo un curso de aula. Este método
É axeitado cando hai moitos usuarios que precisan ser adestrados
ó mesmo tempo. Outro método é adestrar
cada usuario individualmente, un por un. Este método é
adecuado cando hai poucos usuarios.
O propósito da formación de usuarios é familiarizarte
con acceso a datos e as ferramentas de recuperación así como os contidos do
almacén de datos. Non obstante, algúns usuarios poden quedar desbordados
pola cantidade de información proporcionada durante a sesión
formación. Así que hai que facer un certo número de cousas
apoio continuo e sesións de actualización para responder
a preguntas específicas. Nalgúns casos fórmase un grupo
usuarios para proporcionar este tipo de soporte.
Recollida de comentarios
Unha vez implantado o almacén de datos, os usuarios poden facelo
use i datos que residen no almacén de datos para diversos fins.
Principalmente, os analistas ou usuarios usan i datos en
almacén de datos para:
1 Identificar as tendencias da empresa
2 Analizar os perfís de compra de clientes
3 Divide i clientes e de
4 Ofrecer os mellores servizos para clientes - personalizar os servizos
5 Formular estratexias marketing
6 Proporcione presupostos competitivos para análises de custos e axuda
controlar
7 Apoiar a toma de decisións estratéxicas
8 Identifica oportunidades para destacar
9 Mellorar a calidade dos procesos empresariais actuais
10 Comproba o beneficio
Seguindo a dirección de desenvolvemento do almacén de datos, poderían
Realice unha serie de revisións do sistema para obter comentarios
tanto do equipo de desenvolvemento como da comunidade de
usuarios finais.
Os resultados obtidos pódense ter en conta para o
próximo ciclo de desenvolvemento.
Dado que o almacén de datos ten un enfoque incremental,
é fundamental aprender dos acertos e erros dos anteriores
desenvolvementos.
2.5 Resumo
Neste capítulo discutíronse os enfoques presentes en
literatura. Na sección 1 tratouse o concepto de
almacén de datos e o seu papel na ciencia da decisión. No
sección 2 as principais diferenzas entre
almacén de datos e sistemas OLTP. Na sección 3 comentamos
Modelo de almacén de datos Monash que se utilizou
na sección 4 para describir as actividades implicadas no proceso
desenvolvemento dun data warehouse, estas teses non se basearon
investigación rigorosa. O que pasa na realidade pode ser
moi diferente do que informa a literatura, porén estes
resultados poden ser usados para crear unha equipaxe básica que
salientar o concepto de almacén de datos para esta investigación.
Capítulo 3
Métodos de investigación e deseño
Este capítulo trata sobre métodos de investigación e deseño para
este estudo. A primeira parte mostra unha visión xenérica dos métodos
de investigación dispoñible para recuperar información, ademais
discuten os criterios para seleccionar o mellor método para un
estudo particular. A continuación, discutiranse dous métodos na sección 2
seleccionados cos criterios que se acaban de expoñer; destes elixiranse e
adoptado un cos motivos expostos no apartado 3 onde se atopen
explícanse tamén os motivos da exclusión do outro criterio. Alí
A sección 4 preséntase o deseño da investigación e a sección 5 preséntao
conclusións.
3.1 Investigación en sistemas de información
A investigación en sistemas de información non é simplemente limitada
ao ámbito tecnolóxico pero tamén debe estenderse para incluír
obxectivos de comportamento e organización.
Debémosllo ás teses de diversas disciplinas que van dende
ciencias sociais ás naturais; isto leva á necesidade de a
determinado espectro de métodos de investigación que implican métodos cuantitativos
e cualitativos para ser utilizados para sistemas de información.
Todos os métodos de investigación dispoñibles son importantes, de feito varios
investigadores como Jenkins (1985), Nunamaker et al. (1991) e Galliers
(1992) argumentan que non existe un método universal específico
realizar investigacións en diversos campos dos sistemas de información; Por suposto
un método pode ser axeitado para unha investigación particular pero non
para outros. Isto lévanos a necesidade de seleccionar un método que
é axeitado para o noso proxecto de investigación particular: para iso
elección Benbasat et al. (1987) afirman que deben ser considerados
a natureza e a finalidade da investigación.
3.1.1 Natureza da investigación
Poden ser diversos métodos baseados na natureza da investigación
clasificadas en tres tradicións moi coñecidas na ciencia
da información: investigación positivista, interpretativa e crítica.
3.1.1.1 Investigación positivista
A investigación positivista tamén se coñece como estudo científico ou
empírico. Trata de: “explicar e predicir o que sucederá no
mundo social mirando as regularidades e as relacións causa-efecto
entre os elementos que a constitúen” (Shanks et al 1993).
A investigación positivista tamén se caracteriza pola repetibilidade,
simplificacións e refutacións. Ademais, a investigación positivista admite
a existencia de relacións a priori entre os fenómenos estudados.
Segundo Galliers (1992) a taxonomía é un método de investigación
incluídas no paradigma positivista, que porén non se limita a isto,
de feito hai experimentos de laboratorio, experimentos de campo,
casos prácticos, demostracións de teoremas, predicións e simulacións.
Usando estes métodos os investigadores admiten que os fenómenos
estudado pode ser observado de forma obxectiva e rigorosa.
3.1.1.2 Investigación interpretativa
Investigación interpretativa, que adoita chamarse fenomenoloxía ou
o antipositivismo é descrito por Neuman (1994) como “análise
sistemática do significado social da acción mediante directa e
observación detallada de persoas en situacións naturais, en orde
para chegar á comprensión e interpretación de como o
as persoas crean e manteñen o seu mundo social". Estudos
métodos interpretativos rexeitan a suposición de que os fenómenos observados
pódese observar obxectivamente. De feito están baseados
sobre interpretacións subxectivas. Ademais, os investigadores interpretativos non
impoñen significados a priori aos fenómenos que estudan.
Este método inclúe estudos subxectivos/argumentativos, accións de
investigación, estudos descritivos/interpretativos, investigacións futuras e xogos
papel. Ademais destas investigacións e estudos de casos poden ser
incluídos neste enfoque xa que se refiren aos estudos de
individuos ou organizacións en situacións complexas
do mundo real.
3.1.1.3 Investigación crítica
A indagación crítica é o enfoque menos coñecido nas ciencias
social pero recentemente recibiu a atención dos investigadores
no ámbito dos sistemas de información. O suposto filosófico de que o
a realidade social é historicamente producida e reproducida polas persoas,
así como os sistemas sociais coas súas accións e interaccións. Os seus
a capacidade, porén, está mediada por unha certa consideración
social, cultural e político.
Do mesmo xeito que a investigación interpretativa, a investigación crítica sostén que o
a investigación positivista non ten nada que ver co contexto social e ignórao
a súa influencia nas accións humanas.
A investigación crítica, pola súa banda, critica a investigación interpretativa
ser demasiado subxectivo e porque non pretende axudar
persoas para mellorar as súas vidas. A maior diferenza entre o
a investigación crítica e os outros dous enfoques é a súa dimensión valorativa.
Mentres que a obxectividade das tradicións positivistas e interpretativas é para
predicir ou explicar o status quo ou a realidade social, investigación crítica
pretende avaliar e transformar criticamente a realidade social subxacente
estudo.
Os investigadores críticos adoitan opoñerse ao status quo para facelo
eliminar as diferenzas sociais e mellorar as condicións sociais. Alí
a investigación crítica ten un compromiso cunha visión procesual de
fenómenos de interese e, polo tanto, é normalmente lonxitudinal.
Exemplos de métodos de investigación son os estudos históricos a longo prazo e
estudos etnográficos. A investigación crítica, con todo, non foi
amplamente utilizado na investigación de sistemas de información
3.1.2 Finalidade da investigación
Xunto coa natureza da busca, pódese utilizar o seu propósito
orientar ao investigador na selección dun método particular
investigación. O propósito dun proxecto de investigación está intimamente relacionado
á posición da busca en relación ao ciclo de busca que consta
tres fases: construción da teoría, probas teóricas e perfeccionamento da teoría
teoría. Polo tanto, en función do impulso con respecto ao ciclo de busca, a
o proxecto de investigación pode ter unha finalidade explicativa, descritiva
exploratoria ou preditiva.
3.1.2.1 Investigación exploratoria
A investigación exploratoria está dirixida a investigar un tema
completamente novos e formular preguntas e hipóteses de investigación
futuro. Este tipo de investigación emprégase na construción de
teoría para obter referencias iniciais nunha nova área.
Normalmente, utilízanse métodos de investigación cualitativa, como casos
de estudo ou estudos fenomenolóxicos.
Non obstante, tamén é posible empregar técnicas cuantitativas como
investigacións ou experimentos exploratorios.
3.1.3.3 Investigación descritiva
A investigación descritiva ten como obxectivo analizar e describir en gran parte
detallar unha situación particular ou práctica organizativa. Isto
é apropiado para a construción da teoría e tamén se pode usar para
confirmar ou discutir hipóteses. Investigación descritiva xeralmente
inclúe o uso de medidas e mostras. Os métodos de investigación máis axeitados
inclúen investigacións e análises de antecedentes.
3.1.2.3 Investigación explicativa
A investigación explicativa trata de explicar por que suceden as cousas.
Constrúese sobre feitos que xa foron estudados e trata de atopar
as razóns destes feitos.
Polo tanto, a investigación explicativa normalmente constrúese sobre a investigación
exploratorio ou descritivo e é auxiliar para probar e refinar
as teorías. A investigación explicativa normalmente emprega estudos de casos
ou métodos de investigación baseados en enquisas.
3.1.2.4 Investigación preventiva
A investigación preventiva ten como obxectivo predicir eventos e comportamentos
en observación que se están estudando (Marshall e Rossman
1995). A predición é a proba científica estándar da verdade.
Este tipo de investigación xeralmente emprega enquisas ou análises
datos historiadores. (1989)
A discusión anterior mostra que hai unha serie de
posibles métodos de investigación que se poden utilizar nun estudo
particular. Non obstante, debe haber un método específico que sexa máis axeitado
doutros para un determinado tipo de proxecto de investigación. (Gallers
1987, Yin 1989, De Vaus 1991). Todo investigador, polo tanto, ten
necesidade de avaliar coidadosamente os puntos fortes e débiles de
diversos métodos, para chegar a adoptar o método de investigación máis axeitado e
compatible co proxecto de investigación. (Jenkins 1985, Pervan e Klass
1992, Bonomia 1985, Yin 1989, Himilton e Ives 1992).
3.2. Posibles métodos de investigación
O obxectivo deste proxecto foi estudar a experiencia en
Organizacións australianas con i datos almacenado cun
desenvolvemento di data warehouse. Dato que, actualmente, hai un
falta de investigación na área de almacenamento de datos en Australia,
este proxecto de investigación aínda está na fase teórica do ciclo
investigación e ten un propósito exploratorio. Explorando a experiencia en
Organizacións australianas que adoptan o almacenamento de datos
require interpretación da sociedade real. En consecuencia, o
segue o suposto filosófico que subxace ao proxecto de investigación
a interpretación tradicional.
Despois dun exame rigoroso dos métodos dispoñibles, identificáronse
dous posibles métodos de investigación: enquisas e estudos de casos
(estudos de caso), que se poden utilizar para investigación
exploratorios (Shanks et al. 1993). Galliers (1992) argumenta que
a idoneidade destes dous métodos para este estudo en particular
a súa taxonomía revisada dicindo que son aptas para a construción
teórico. As dúas subseccións seguintes tratan cada método en
detalle.
3.2.1 Método de investigación da enquisa
O método de investigación da enquisa procede do antigo método de
censo. Un censo consiste en recoller información de
toda unha poboación. Este método é caro e pouco práctico
especialmente se a poboación é grande. Entón, en comparación con
censo, unha enquisa céntrase normalmente no
recoller información para un pequeno número, ou mostra, de
representantes da poboación (Fowler 1988, Neuman 1994). A
mostra reflicte a poboación da que se extrae, con diferentes
niveis de precisión, segundo a estrutura da mostra, o
tamaño e o método de selección utilizado (Fowler 1988, Babbie
1982, Neuman 1994).
O método de investigación defínese como "instantáneas de prácticas,
situacións ou puntos de vista nun determinado momento no tempo, realizados utilizando
cuestionarios ou entrevistas, das que se poden derivar inferencias
made” (Galliers 1992:153) [fotografía instantánea de prácticas,
situacións ou puntos de vista nun momento determinado, realizados utilizando
cuestionarios ou entrevistas, dos que se poden facer inferencias]. O
as investigacións tratan da recollida de información sobre determinados aspectos
do estudo, por un determinado número de participantes, facendo
preguntas (Fowler 1988). Mesmo estes cuestionarios e entrevistas, que
inclúen entrevistas presenciais telefónicas e estruturadas,
son as técnicas de recollida de datos usado máis comúnmente en
investigacións (Blalock 1970, Nachmias e Nachmias 1976, Fowler
1988), pódense utilizar observacións e análises (Gable
1994). De todos estes métodos de recollida do datos, o uso de
cuestionario é a técnica máis popular, xa que garante que i datos
recollidos están estruturados e formatados e, polo tanto, facilita
clasificación da información (Hwang 1987, de Vaus 1991).
Ao analizar i datos, unha estratexia de investigación adoita empregar o
técnicas cuantitativas, como a análise estatística, pero poden ser
Tamén se utilizan técnicas cualitativas (Galliers 1992, Pervan
e Klass 1992, Gable 1994). Normalmente, i datos recollidos son
usado para analizar distribucións e patróns de asociacións
(Fowler 1988).
Aínda que as enquisas son xeralmente apropiadas para a investigación
que tratan coa pregunta 'que?' (que) ou a partir del
derivando, como "canto" e "cantos", eles
pódese preguntar a través da pregunta "por que" (Sonquist e
Dunkelberg 1977, Yin 1989). Segundo Sonquist e Dunkelberg
(1977), a investigación de investigación apunta a hipóteses difíciles, programa de
avaliación, describindo a poboación e desenvolvendo modelos de
comportamento humano. Ademais, pódense utilizar enquisas
estudar unha determinada opinión sobre a poboación, as condicións,
opinións, características, expectativas e mesmo comportamentos pasados
ou presente (Neuman 1994).
As investigacións permiten ao investigador descubrir as relacións entre os
poboación e os resultados son normalmente máis xenéricos que
outros métodos (Sonquist e Dunkelberg 1977, Gable 1994). O
as enquisas permiten aos investigadores cubrir unha zona xeográfica
máis amplo e chegar a moitos declarantes (Blalock 1970,
Sonquist e Dunkelberg 1977, Hwang e Lin 1987, Gable 1994,
Neuman 1994). Finalmente, as enquisas poden proporcionar información
que non estean dispoñibles noutro lugar nin na forma requirida para as análises
(Fowler 1988).
Non obstante, hai algunhas limitacións na realización dunha enquisa. Un
a desvantaxe é que o investigador non pode obter moita información
respecto ao obxecto estudado. Isto débese ao feito de que o
as investigacións realízanse só nun momento determinado e, polo tanto,
hai un número limitado de variables e persoas que o investigador pode
estudo (Yin 1989, de Vaus 1991, Gable 1994, Denscombe 1998).
Outra desvantaxe é o que pode ser realizar unha enquisa
moi caro en termos de tempo e recursos, especialmente se
implica entrevistas cara a cara (Fowler 1988).
3.2.2. Método de investigación de investigación
O método de investigación de investigación implica un estudo en profundidade
unha situación particular dentro do seu contexto real nun
período de tempo definido, sen intervención algunha por parte do
investigador (Shanks & C. 1993, Eisenhardt 1989, Jenkins 1985).
Principalmente este método úsase para describir as relacións entre
as variables que se están a estudar nunha determinada situación
(Galliers 1992). As investigacións poden involucrar casos individuais ou
múltiples, dependendo do fenómeno analizado (Franz e Robey 1987,
Eisenhardt 1989, Yin 1989).
O método de investigación de indagación defínese como “unha investigación
estudo empírico que estuda un fenómeno contemporáneo dentro da
contexto real relativo, utilizando varias fontes recollidas dunha ou
múltiples entidades como persoas, grupos ou organizacións” (Yin 1989).
Non existe unha separación clara entre o fenómeno e o seu contexto e
non hai control nin manipulación experimental das variables (Yin
1989, Benbasat et al. 1987).
Hai unha variedade de técnicas para recoller datos que poden
ser empregado no método de investigación, que inclúe o
observacións directas, revisións de rexistros de arquivo, cuestionarios,
revisión da documentación e entrevistas estruturadas. Ter
diversas técnicas de recolección datos, investigacións
permitir aos investigadores tratar con ambos datos cualitativo que
cantidades ao mesmo tempo (Bonoma 1985, Eisenhardt 1989, Yin
1989, Gable 1994). Como é o caso do método de enquisa, a
investigador investigador actúa como observador ou investigador e non
como participante activo da organización obxecto de estudo.
Benbasat et al (1987) afirman que o método de investigación é
particularmente adecuado para investigación de construcción de teoría, que
comezar cunha pregunta de investigación e continuar coa formación
dunha teoría durante o proceso de recollida datos. Ser
tamén apto para o escenario
da construción da teoría, Franz e Robey (1987) suxiren que
O método de investigación tamén se pode usar para o complexo
fase teórica. Neste caso, en función das probas recollidas, un
dada teoría ou hipótese é verificada ou refutada. Ademais, a investigación é
tamén é adecuado para investigacións que traten preguntas de "como" ou "como".
'por que' (Yin 1989).
En comparación con outros métodos, as enquisas permítenlle ao investigador
capturar información esencial con máis detalle (Galliers
1992, Shanks et al 1993). Ademais, as investigacións permiten
investigador para comprender a natureza e a complexidade dos procesos estudados
(Benbasat et al. 1987).
Hai catro desvantaxes principais asociadas ao método
investigación. O primeiro é a falta de deducións controladas. Alí
a subxectividade do investigador pode alterar os resultados e as conclusións
do estudo (Yin 1989). A segunda desvantaxe é a falta de
observación controlada. A diferenza dos métodos experimentais, o
o investigador investigador non pode controlar os fenómenos estudados
xa que se examinan no seu contexto natural (Gable 1994). O
A terceira desvantaxe é a falta de replicabilidade. Isto débese ao feito
que é improbable que o investigador observe os mesmos acontecementos, e
non pode verificar os resultados dun estudo en particular (Lee 1989).
Finalmente, como consecuencia da non replicabilidade, é difícil
xeneralizar os resultados obtidos dunha ou máis investigacións (Galliers
1992, Shanks et al 1993). Todos estes problemas, con todo, non
son insuperables e poden, de feito, ser minimizados por
investigador aplicando as accións adecuadas (Lee 1989).
3.3. Xustificar a metodoloxía de investigación
adoptado
Dos dous posibles métodos de investigación para este estudo, o método de
a investigación considérase a máis adecuada. O da investigación é
foi descartada tras unha coidadosa consideración das pertinentes
méritos e debilidades. A conveniencia ou inadecuación de cada un
método para este estudo é discutido a continuación.
3.3.1. Inadecuación do método de investigación
de investigación
O método de investigación require un estudo profundo sobre un
situación particular dentro dunha ou máis organizacións para a
período de tempo (Eisenhardt 1989). Neste caso, o período pode
exceder o prazo indicado para este estudo. Outro
motivo para non adoptar o método da enquisa é que os resultados
poden sufrir falta de rigor (Yin 1989). Subxectividade
do investigador pode influír nos resultados e nas conclusións. Outro
razón é que este método é máis axeitado para a investigación sobre preguntas
do tipo "como" ou "por que" (Yin 1989), mentres que a pregunta de investigación
para este estudo é do tipo 'que'. Por último, pero non menos importante
É importante destacar que é difícil xeneralizar os achados a partir dun só ou
poucas investigacións (Galliers 1992, Shanks et al 1993). Na base de
esta explicación racional, o método de investigación de investigación non é
escolleuse porque non era apto para este estudo.
3.3.2. Comodidade do método de busca de
investigación
Cando se realizou esta investigación, a práctica do almacenamento de datos
non fora amplamente adoptado por
organizacións australianas. Entón, non había moita información
respecto da súa implantación dentro do
organizacións australianas. Chegou a información dispoñible
de organizacións que implementaran ou utilizaran datos
almacén. Neste caso, o método de investigación da enquisa é o máis
adecuado porque permite obter información que non o é
dispoñible noutro lugar ou na forma necesaria para a análise (Fowler 1988).
Ademais, o método de investigación da enquisa permítelle ao investigador
obter unha boa visión de prácticas, situacións ou
visto nun momento determinado (Galliers 1992, Denscombe 1998).
Necesítase unha visión xeral para aumentar a
Coñecemento sobre a experiencia australiana de almacenamento de datos.
De novo, Sonquist e Dunkelberg (1977) afirman que os resultados de
As enquisas son máis xerais que outros métodos.
3.4. Deseño de investigación de enquisas
A investigación sobre a práctica de almacenamento de datos levouse a cabo en 1999.

A poboación destinataria estaba formada por organizacións
Os australianos interesados nos estudos de almacenamento de datos, como eran
probablemente xa informado sobre i datos que almacenan e,
polo tanto, podería proporcionar información útil para este estudo. Alí
A poboación obxectivo foi identificada cunha enquisa inicial de
todos os membros australianos de 'The Data Warehousing Institute' (Tdwiaap).
Nesta sección tratarase o deseño da fase de investigación
evidencia empírica deste estudo.
3.4.1. Técnica de recolección datos
A partir das tres técnicas de uso habitual na investigación de enquisas
(é dicir, cuestionario postal, entrevista telefónica e entrevista
persoal) (Nachmias 1976, Fowler 1988, de Vaus 1991), para
este estudo adoptou o cuestionario por correo. O primeiro
motivo para adoptar este último é que pode acadar a
poboación xeográficamente dispersa (Blalock 1970, Nachmias e
Nachmias 1976, Hwang e Lin 1987, de Vaus 1991, Gable 1994).
En segundo lugar, o cuestionario postal é axeitado para os participantes
altamente educado (Fowler 1988). O cuestionario por correo para iso
estudo dirixiuse aos patrocinadores do proxecto de almacenamento de datos,
directores e/ou xestores de proxectos. En terceiro lugar, os cuestionarios de distancia
correo son axeitados cando ten unha lista segura de
enderezos (Salant e Dilman 1994). TDWI, neste caso, un
asociación de almacenamento de datos de confianza proporcionou a lista de enderezos
dos seus membros australianos. Outra vantaxe do cuestionario
vía correo electrónico versus cuestionario telefónico ou entrevistas
persoal é que permite aos inscritos responder máis
precisión, especialmente cando os inscritos necesitan consultar
notas ou discutir preguntas con outras persoas (Fowler
1988).
Unha desvantaxe potencial pode ser o tempo necesario
realizar cuestionarios por correo. Normalmente, un cuestionario de distancia
o correo realízase nesta secuencia: enviar cartas, esperar
respostas e enviar confirmación (Fowler 1988, Bainbridge 1989).
Así, o tempo total pode ser maior que o necesario
entrevistas persoais ou para entrevistas telefónicas. Porén, o
o tempo total pódese coñecer de antemán (Fowler 1988,
Denscombe 1998). O tempo dedicado á realización de entrevistas
os datos persoais non se poden coñecer de antemán xa que varían de
unha entrevista a outra (Fowler 1988). Entrevistas telefónicas
pode ser máis rápido que os cuestionarios postais e
entrevistas persoais pero poden ter un alto índice de faltas
resposta debido á indisponibilidade dalgunhas persoas (Fowler 1988).
Ademais, as entrevistas telefónicas adoitan limitarse a listas de
preguntas relativamente curtas (Bainbridge 1989).
Outra debilidade dun cuestionario de correo é a alta taxa de
falta de resposta (Fowler 1988, Bainbridge 1989, Neuman
1994). Porén, tomáronse contramedidas, asociándose
este estudo cunha institución de confianza no campo dos datos
almacenamento (i.e. TDWI) (Bainbridge 1989, Neuman 1994), o
que envía dúas cartas de recordatorio aos que non contestaron
(Fowler 1988, Neuman 1994) e tamén inclúe unha carta
suplemento que explica o propósito do estudo (Neuman 1994).
3.4.2. Unidade de análise
O obxectivo deste estudo é obter información sobre
a implantación do almacenamento de datos e o seu uso
dentro das organizacións australianas. A poboación obxectivo
está formado por todas as organizacións australianas que teñen
implementado, o está implementando, i data warehouse. En
entón rexístranse as organizacións individuais. O cuestionario
remitiuse por correo postal ás organizacións interesadas na adopción
di data warehouse. Este método garante que a información
recollidos proceden dos recursos máis axeitados de cada organización
participante.
3.4.3. Mostra da enquisa
Obtívose a "lista de correo" dos participantes na enquisa
TDWI. Desta lista, 3000 organizacións australianas
foron seleccionados como base para a mostraxe. A
carta adicional explicando o proxecto e o propósito da investigación,
xunto cunha folla de respostas e un sobre prepago para
devolver o cuestionario cuberto foron enviados á mostra.
Das 3000 organizacións, 198 acordaron participar no
estudar. Esperábase un número tan reducido de respostas datas il
gran número de organizacións australianas que tiñan entón
abrazaron ou estaban adoptando a estratexia da data
almacenamento dentro das súas organizacións. Entón, o
A poboación obxectivo deste estudo é só de 198
organizacións.
3.4.4. Contidos do cuestionario
A estrutura do cuestionario baseouse no modelo de data
Almacén Monash (discutido anteriormente na parte 2.3). O
O contido do cuestionario baseouse na análise de
literatura presentada no capítulo 2. Unha copia do cuestionario
enviados aos participantes da enquisa pódense atopar
no Apéndice B. O cuestionario consta de seis apartados, que
seguen as fases do modelo discutido. Os seguintes seis parágrafos
resumen brevemente os contidos de cada apartado.
Sección A: Información básica sobre a organización
Esta sección contén preguntas relacionadas co perfil de
organizacións participantes. Ademais, algunhas das preguntas son
relativo ao estado do proxecto de almacenamento de datos
participante. Información confidencial como o teu nome
da organización non foron revelados na análise da enquisa.
Sección B: Inicio
As preguntas deste apartado están relacionadas coa actividade inicial
almacenamento de datos. As preguntas foron feitas por canto tempo
afecta aos iniciadores do proxecto, garantes, habilidades e coñecementos
solicitudes, os obxectivos do desenvolvemento do almacenamento de datos e o
expectativas dos usuarios finais.
Sección C: Deseño
Esta sección contén preguntas relacionadas coas actividades de
planificación de data warehouse. En particular, as preguntas son
indicar o alcance da execución, a duración do proxecto, o custo
do proxecto e a análise custo/beneficio.
Sección D: Desenvolvemento
No apartado de desenvolvemento hai preguntas relativas ás actividades de
desenvolvemento de data warehouse: recollida de requisitos dos usuarios
final, as fontes de datos, o modelo lóxico de datos, prototipos, o
planificación de capacidades, arquitecturas técnicas e selección de
ferramentas de desenvolvemento de almacenamento de datos.
Sección E: Funcionamento
Preguntas de operación relacionadas coa operación ed
á extensibilidade de data warehouse, como evoluciona en
seguinte fase de desenvolvemento. Alí calidade dos datos, as estratexias de
refrescar dei datos, a granularidade de datos, escalabilidade de datos
almacén e os problemas de seguridade de data warehouse estaban entre
os tipos de preguntas formuladas.
Sección F: Desenvolvemento
Esta sección contén preguntas relacionadas co uso de datos
almacén por parte dos usuarios finais. O investigador estaba interesado
á finalidade e á utilidade de data warehouse, revisión e estratexias
da formación adoptada e da estratexia de control de datos
almacén adoptado.
3.4.5. Taxa de resposta
Aínda que as enquisas por correo son criticadas por ter unha taxa de
baixa resposta, tomáronse medidas para aumentar a
taxa de retorno (como se comentou anteriormente en parte
3.4.1). O termo "taxa de resposta" refírese á porcentaxe de
persoas nunha mostra da enquisa que responden ao
cuestionario (Denscombe 1998). Utilizouse o seguinte
fórmula para calcular a taxa de resposta deste estudo:
Número de persoas que responderon
Taxa de resposta =
——————————————————————————– X 100
Número total de cuestionarios enviados
3.4.6. Proba piloto
Antes de enviar o cuestionario á mostra, as preguntas son
foi examinado mediante a realización de probas piloto, como suxeriu Luck
e Rubin (1987), Jackson (1988) e de Vaus (1991). O propósito de
probas piloto é revelar todas as expresións incómodas, ambiguas e
preguntas difíciles de interpretar, de aclarar algunha
definicións e termos empregados e para identificar o tempo aproximado
necesario para completar o cuestionario (Warwick e Lininger 1975,
Jackson 1988, Salant e Dilman 1994). As probas piloto foron
realizada seleccionando materias con características similares a aquelas
das materias finais, como suxeriu Davis e Cosenza (1993) En
este estudo, foron seis profesionais do almacén de datos
seleccionados como materias piloto. Despois de cada proba piloto, son
realizáronse as correccións necesarias. Das probas piloto realizadas, i
os participantes axudaron a remodelar e restablecer o
versión final do cuestionario.
3.4.7. Métodos de análise por Dati
I datos de investigación recollidas de cuestionarios pechados son
foron analizados mediante un paquete de software estatístico
chamado SPSS. Moitas das respostas foron analizadas
utilizando estatísticas descritivas. Un certo número de cuestionarios
volveron incompletos. Estes foron tratados con maior
atención para asegurarse de que i datos desaparecidos non eran un
consecuencia dos erros de entrada de datos, pero por que as preguntas non
eran adecuados para o declarante, ou o declarante decidiu non facelo
responder a unha ou varias preguntas específicas. Estas respostas
ignorados durante a análise datos e foron
codificados como "-9" para garantir a súa exclusión do proceso
análises.
Na elaboración do cuestionario pecháronse as preguntas
precodificado asignando un número a cada opción. O número
logo serviuse para preparar i datos durante a análise
(Denscombe 1998, Sapsford e Jupp 1996). Por exemplo, houbo
seis opcións enumeradas na pregunta 1 do apartado B: asesoramento
consello, executivo de alto nivel, departamento de TI, unidade
de empresas, consultores e moito máis. No arquivo de datos de SPSS, é
xerouse unha variable para indicar "o iniciador do proxecto",
con seis etiquetas de valor: "1" para "consello de administración", "2"
para "o executivo de alto nivel", etc. Uso da escala Likertin
nalgunhas das preguntas pechadas tamén permitiu
unha identificación que non require ningún esforzo dado o uso dos valores
números correspondentes introducidos en SPSS. Para preguntas con
respostas non exhaustivas, que non se excluían mutuamente,
cada opción foi tratada como unha única variable con dúas
etiquetas de valor: '1 ' para 'marcado' e '2 ' para 'sen marcar'.
As preguntas abertas foron tratadas de forma diferente ás preguntas
pechado. As respostas a estas preguntas non foron introducidas
SPSS. En cambio, foron analizados a man. O uso deste
tipo de preguntas permítelle obter información sobre ideas
libremente expresadas e as experiencias persoais dos entrevistados
(Bainbridge 1989, Denscombe 1998). Sempre que foi posible, fíxose
unha categorización das respostas.
Para a análise de datos, utilízanse métodos de análise estatística sinxelos,
como a frecuencia de respostas, a media, a desviación típica
media e a mediana (Argyrous 1996, Denscombe 1998).
A proba Gamma foi eficaz para obter medicións cuantitativas
das asociacións entre datos ordinais (Norusis 1983, Argyrous 1996).
Estas probas foron apropiadas porque as escalas ordinais utilizadas non o eran
tiñan moitas categorías e podían mostrarse nunha táboa
(Norusis 1983).
3.5 Resumo
Neste capítulo, a metodoloxía de investigación e a
deseños adoptados para este estudo.
Selección do método de investigación máis axeitado para a
un estudo en particular
consideración dunha serie de regras, incluíndo a natureza e o tipo
de investigación, así como os méritos e debilidades de cada posible
método (Jenkins 1985, Benbasat et al. 1097, Galliers and Land 1987,
en 1989, Hamilton e ives 1992, Galliers 1992, neuman 1994). Ver
a falta de coñecemento e teoría existentes sobre o mesmo
de adopción de data warehousing en Australia, este estudo realizado por
a investigación require un método de investigación interpretativo cunha habilidade
exploratorio para explorar as experiencias das organizacións
australiano. Seleccionouse o método de investigación elixido
recoller información sobre a adopción do concepto de data
almacenamento por organizacións australianas. A
escolleuse o cuestionario postal como técnica de recollida datos. O
xustificacións do método de investigación e da técnica de recollida datos
seleccionados serán proporcionados neste capítulo. Tamén o foi
presentou un debate sobre a unidade de análise, a mostra
utilizado, as porcentaxes de respostas, o contido do cuestionario, o
proba previa do cuestionario e do método de análise da datos.

Deseñar a Almacén de datos:
Combinando a relación de entidades e o modelado dimensional
RESUMO
Almacenamento i datos É un tema de actualidade importante para moitos
organizacións. Un problema clave no desenvolvemento
do almacenamento de datos é o seu deseño.
O deseño debe admitir a detección de conceptos nos datos
almacén ao sistema legado e outras fontes de datos e tamén un
fácil comprensión e eficiencia na implementación de datos
almacén.
Gran parte da literatura de almacenamento de datos recomendado
o uso de modelado de relacións entidades ou modelado dimensional para
representan o deseño de data warehouse.
Neste artigo mostramos como ambos
as representacións pódense combinar nun só enfoque para o
debuxo de data warehouse. O enfoque empregado é sistemático
examinado nun estudo de caso e identifícase nunha serie de
implicacións importantes cos profesionais.
ALMACENAMIENTO DE DATOS
Un data warehouse adoita definirse como "orientado ao tema,
recollida integrada, variable no tempo e non volátil de datos en soporte
das decisións da dirección” (Inmon e Hackathorn, 1994).
Orientado ao tema e integrado indica que o data warehouse è
deseñado para traspasar os límites funcionais dos sistemas legados para
ofrecer unha perspectiva integrada de datos.
A variante temporal afecta a natureza histórica ou de serie temporal do datos in
un data warehouse, que permite analizar tendencias.
Non volátil indica que o data warehouse non é continuamente
actualizado como a base de datos de OLTP. Máis ben está actualizado
periodicamente, con datos procedentes de fontes internas e externas. O
data warehouse está deseñado específicamente para a investigación
en lugar de pola integridade das actualizacións e o rendemento do
operacións.
A idea de almacenar i datos non é novo, era un dos propósitos
de xestión de datos desde os anos sesenta (O Martín, 1982).
I data warehouse ofrecen a infraestrutura datos para a xestión
sistemas de apoio. Os sistemas de apoio á xestión inclúen a decisión
sistemas de soporte (DSS) e sistemas de información executiva (EIS).
Un DSS é un sistema de información baseado en ordenador
deseñado para mellorar o proceso e, en consecuencia, o agarre
decisión humana. Un EIS é normalmente un sistema de entrega de
datos que permite aos directivos comerciais acceder facilmente á vista
de datos.
A arquitectura xeral de a data warehouse destaca o papel de
data warehouse en apoio á xestión. Ademais de ofrecer
a infraestrutura datos para EIS e DSS, al data warehouse é posible
acceder a el directamente mediante consultas. O datos incluído nunha data
almacén baséanse nunha análise dos requisitos de información
xestión e obtéñense de tres fontes: sistemas legados internos,
sistemas de captura de datos para propósitos especiais e fontes de datos externas. O
datos nos sistemas heredados internos son frecuentemente redundantes,
inconsistentes, de baixa calidade e almacenados en varios formatos
polo que deben ser reconciliados e limpos antes de poder cargalos no
data warehouse (Inmon, 1992; McFadden, 1996). O datos dende
de sistemas de almacenamento datos ad hoc e de fontes datos
externos úsanse a miúdo para aumentar (actualizar, substituír) i
datos desde sistemas legados.
Hai moitas razóns convincentes para desenvolver a data warehouse,
que inclúen unha mellor toma de decisións mediante o uso
eficaz máis información (Ives 1995), apoio a un enfoque
sobre o negocio completo (Graham 1996), e a redución de custos de
prestación de datos para EIS e DSS (Graham 1996, McFadden
1996).
Un estudo empírico recente atopou, de media, un retorno de
investimentos para i data warehouse nun 401% despois de tres anos (Graham,
1996). Porén, os outros estudos empíricos de data warehouse ter
atopou problemas significativos incluíndo dificultade para medir ed
asignación de beneficios, falta de propósito claro, subestimalo
finalidade e complexidade do proceso de almacenamento i datos, In
particular no tocante ás fontes e á limpeza da datos.
Almacenamento i datos pode considerarse como solución
ao problema da xestión de datos entre organizacións. Alí
manipulación de datos como recurso social seguiu sendo un dos
cuestións clave na xestión dos sistemas de información en todo o mundo
mundo durante moitos anos (Brancheau et al. 1996, Galliers et al. 1994,
Niederman et al. 1990, Pervan 1993).
Un enfoque popular para xestionar datos nos anos oitenta era
desenvolvendo un modelo datos sociais. Modelo datos social era
deseñado para ofrecer unha base estable para o desenvolvemento de novos sistemas
aplicacións e base de datos e reconstruír e integrar o legado
sistemas (Brancheau et al.
1989, Goodhue et al. 1988:1992, Kim e Everest 1994).
Non obstante, hai moitos problemas con este enfoque, en
particular, a complexidade e custo de cada tarefa, e o longo tempo
necesario para ter resultados tanxibles (Beynon-Davies 1994, Earl
1993, Goodhue et al. 1992, Periasamy 1994, Shanks 1997).
Il data warehouse é unha base de datos separada que coexiste coas legadas
bases de datos en lugar de substituílos. Polo tanto, permíteche
dirixir a xestión de datos e evitar unha reconstrución custosa
de sistemas legados.
ENFOQUES EXISTENTES PARA O DESEÑO DE DATOS
ALMACENAMENTO
O proceso de construción e perfeccionamento a data warehouse
debe entenderse máis como un proceso evolutivo que como un
ciclo de vida de desenvolvemento de sistemas tradicionais (Desexo, 1995, Shanks,
O'Donnell e Arnott 1997a). Hai moitos procesos implicados nun
proxecto de data warehouse como inicialización, planificación;
información adquirida a partir dos requisitos solicitados aos directivos da empresa;
fontes, transformacións, limpeza de datos e sincronización desde o legado
sistemas e outras fontes de datos; sistemas de entrega en desenvolvemento;
seguimento de data warehouse; e insensatez do proceso
evolutivo e construción de a data warehouse (Stinchs, O'Donnell
e Arnott 1997b). Neste xornal centrámonos en como
debuxa i datos almacenados no contexto destes outros procesos.
Hai unha serie de enfoques propostos para a arquitectura de datos
almacén en literatura (Inmon 1994, Ives 1995, Kimball 1994
McFadden 1996). Cada unha destas metodoloxías ten un resumo
revisar cunha análise dos seus puntos fortes e débiles.
Inmon's (1994) Enfoque para Almacén de datos
Proxecto
Inmon (1994) propuxo catro pasos iterativos para elaborar un dato
almacén (ver Figura 2). O primeiro paso é deseñar un modelo
datos social para entender como i datos pode integrarse
en áreas funcionais dentro dunha organización
dividindo i datos almacenar en zonas. Modelo datos está feito para
almacenar datos relativos á toma de decisións, incluíndo datos
historiadores, e incluídos datos deducidos e agregados. O segundo paso é
identificar áreas temáticas para a súa implementación. Estes están baseados
sobre prioridades determinadas por una determinada organización. O terceiro
paso implica debuxar a base de datos para a área temática, poses
prestar especial atención á inclusión dos niveis adecuados de granularidade.
Inmon recomenda utilizar o modelo de entidades e relacións. Cuarto
O paso é identificar os sistemas fonte datos necesario e desenvolver
procesos de transformación para capturar, limpar e formatear i datos.
Os puntos fortes do enfoque de Inmon son que o modelo datos social
ofrece a base para a integración de datos dentro da organización
e apoiar a planificación para o desenvolvemento de datos iterativos
almacén. Os seus defectos son a dificultade e o custo do debuxo
o modelo datos sociais, a dificultade para comprender modelos de entidades e
relacións utilizadas en ambos modelos, que datos social e o de datos
almacenados por área temática, e a idoneidade de datos do
debuxo de data warehouse para a realización de base de datos
relacional pero non para base de datos multidimensional.
Aproximación a Ives (1995). Almacén de datos
Proxecto
Ives (1995) propón un enfoque de catro pasos para deseñar a
sistema de información que considere aplicable ao deseño dun dato
almacén (ver Figura 3). O enfoque está moi baseado
Enxeñaría da Información para o desenvolvemento de sistemas de información
(Martín 1990). O primeiro paso é determinar os obxectivos, os factores
indicadores críticos e de éxito e clave de rendemento. O
procesos de negocio clave e información necesaria son
modelado para levarnos a un modelo datos sociais. O segundo paso
implica o desenvolvemento dunha arquitectura definitoria datos
almacenados por áreas, base de datos di data warehouse, os compoñentes
de tecnoloxía que son necesarias, o conxunto de apoio organizativo
necesarios para implementar e operar data warehouse. O terceiro
O paso inclúe a selección dos paquetes de software e ferramentas necesarios.
O cuarto paso é o deseño detallado e a construción do
data warehouse. Ives sinala que o almacenamento datos é un home vinculado
proceso iterativo.
A fortaleza do enfoque de Ives é o uso de técnicas específicas para
determinar os requisitos de información, o uso dun estruturado
proceso de apoio á integración de data warehouse,
a selección adecuada de hardware e software, e o uso de múltiples
técnicas de representación para o data warehouse. Os seus defectos
son inherentes á complexidade. Outros inclúen dificultade
desenvolver moitos niveis de base de datos dentro do data warehouse in
prazos e custos razoables.
Aproximación de Kimball (1994). Almacén de datos
Proxecto
Kimball (1994) propuxo cinco pasos iterativos para elaborar un dato
almacén (ver Figura 4). O seu enfoque é particularmente
dedicado ao deseño dun só data warehouse e sobre o uso de modelos
dimensional con preferencia aos modelos de entidades e relacións. Kimball
analizar eses modelos dimensionais porque é máis fácil de entender para i
negocios executivos negocios, é máis eficiente cando se trata
consultas complexas, e o deseño de base de datos físico é máis
eficiente (Kimball 1994). Kimball recoñece que o desenvolvemento de a
data warehouse é iterativo, e iso data warehouse separados poden
integrarse mediante a división en táboas de dimensións
común.
O primeiro paso é identificar a área temática en particular
perfeccionado. O segundo e o terceiro pasos son os da formación
dimensional. No segundo paso as medidas identifican cousas de
interese pola área temática e agrupados nunha táboa de feitos.
Por exemplo, nunha área temática de vendas as medidas de interese
podería incluír a cantidade de artigos vendidos e o dólar
como moeda de vendas. O terceiro paso consiste en identificar
dimensións que son as formas en que se poden agrupar i
feitos. Nunha área temática de vendas, dimensións relevantes
podería incluír elemento, lugar e período de tempo. Alí
a táboa de feitos ten unha clave de varias partes para vincular a cada unha
de táboas de dimensións e normalmente contén un gran número
cheo de feitos. Pola contra, as táboas de dimensións conteñen
información descritiva sobre dimensións e outros atributos que
pode utilizarse para agrupar feitos. A táboa de feitos e
dimensións asociadas á proposta forman o que se chama un
patrón de estrelas pola súa forma. O cuarto paso implica
a construción dun base de datos multidimensional para perfeccionala
patrón de estrelas. O paso final é identificar os sistemas fonte datos
necesarios e desenvolver procesos de transformación para adquirir, limpar
e formato i datos.
Os puntos fortes do enfoque de Kimball inclúen o uso de modelos
dimensional para representar i datos almacenados que o fan
fácil de entender e conduce a un deseño físico eficiente. A
modelo dimensional que tamén utiliza facilmente ambos
sistemas de base de datos relacionais poden ser perfeccionados ou sistemas
base de datos multidimensional. Os seus defectos inclúen a falta
dalgunhas técnicas para facilitar a planificación ou integración de
moitos patróns de estrelas nun mesmo data warehouse eo
dificultade para deseñar a partir da estrutura desnormalizada extrema en a
modelo dimensional a datos no sistema legado.
Aproximación aos datos de McFadden (1996).
Deseño de almacén
McFadden (1996) propón un enfoque en cinco pasos
debuxar a data warehouse (ver Figura 5).
O seu enfoque baséase nunha síntese de ideas da literatura
e céntrase no deseño dun só data warehouse. A primeira
paso implica unha análise de requisitos. Aínda que os detalles específicos
técnicas non se prescriben, as notas de McFadden identifican o
entidade datos especificacións e os seus atributos, e refírese aos lectores de Watson
e Frolick (1993) para a captura de requisitos.
No segundo paso, deseñarase un modelo de relacións de entidades
data warehouse e despois validados polos líderes empresariais. O terceiro
O paso inclúe a determinación do mapeo do sistema heredado
e fontes externas de data warehouse. O cuarto paso implica
procesos de desenvolvemento, implantación e sincronización de datos en
data warehouse. No último paso, entrégase o sistema
desenvolvido con especial énfase nunha interface de usuario.
McFadden sinala que o proceso de debuxo é xeralmente
iterativo.
Os puntos fortes do enfoque de McFadden apuntan á participación
polos líderes empresariais na determinación dos requisitos e tamén
a importancia dos recursos datos, a súa limpeza e recollida. Ela
os defectos teñen que ver coa falta dun proceso para dividir a
gran proxecto de data warehouse en moitas etapas integradas, e o
dificultade para comprender os modelos de entidade e relación utilizados no deseño de
data warehouse.

0/5 (0 Comentarios)

Máis información en Online Web Agency

Subscríbete para recibir os últimos artigos por correo electrónico.

administrador CEO

👍Axencia web en liña | Web Agency experta en Marketing Dixital e SEO. Web Agency Online é unha axencia web. Para Agenzia Web Online o éxito na transformación dixital baséase nos fundamentos de Iron SEO versión 3. Especialidades: Integración de sistemas, Integración de aplicacións empresariais, Arquitectura Orientada a Servizos, Cloud Computing, Data warehouse, Business Intelligence, Big Data, portais, intranets, Aplicación web Deseño e xestión de bases de datos relacionais e multidimensionais Deseño de interfaces para medios dixitais: usabilidade e gráficos. Online Web Agency ofrece ás empresas os seguintes servizos: -SEO en Google, Amazon, Bing, Yandex; -Análise web: Google Analytics, Google Tag Manager, Yandex Metrica; -Conversións de usuarios: Google Analytics, Microsoft Clarity, Yandex Metrica; -SEM en Google, Bing, Amazon Ads; -Márketing en redes sociais (Facebook, Linkedin, Youtube, Instagram).

Ver biografía completa

Marketing Dixital Base de datos SGBD Almacén de datos ciencia datos Publicidade en liña Tecnoloxía da Información Axencia Web Axencia de publicidade marketing

compartir:

Gústame:

Máis información en Online Web Agency