https://unimib.academia.edu/stefanofantin

https://unimib.academia.edu/stefanofantin

doi:https://unimib.academia.edu/stefanofantin

Складиране на данни и планиране на корпоративни ресурси | DWH и ERP

АРХИВ DATA ЦЕНТРАЛ: ИСТОРИЯ ИЗД ЕВОЛЮЦИИ

Двете доминиращи теми на корпоративните технологии през 90-те години бяха i склад за данни и ERP. Дълго време тези две мощни течения са били част от корпоративните ИТ, без да имат пресечни точки. Беше почти сякаш те бяха материя и антиматерия. Но разрастването и на двете явления неизбежно доведе до тяхното пресичане. Днешните компании са изправени пред проблема какво да правят с ERP и склад за данни. Тази статия ще очертае какви са проблемите и как се решават от компаниите.

В НАЧАЛОТО…

В началото имаше склад за данни. Склад за данни е създаден, за да противодейства на приложната система за обработка на транзакции. В ранните дни запаметяването на данни той трябваше да бъде просто контрапункт на приложенията за обработка на транзакции. Но в днешно време има много по-сложни визии за това какво човек може да направи склад за данни. В днешния свят склад за данни тя е част от структура, която може да се нарече Фабрика за корпоративна информация.

КОРПОРАТИВНАТА ИНФОРМАЦИОННА ФАБРИКА (CIF)

Фабриката за корпоративна информация има стандартни архитектурни компоненти: слой за трансформация и интегриране на код, който интегрира i данни докато аз данни преминете от средата на приложението към склад за данни на компанията; а склад за данни на компанията, където i данни подробни и интегрирани истории. The склад за данни Компанията служи като основата, върху която могат да бъдат изградени всички други части на околната среда склад за данни; оперативно хранилище на данни (ODS). ODS е хибридна структура, която съдържа някои аспекти на склад за данни и други аспекти на OLTP среда; data marts, където различните отдели могат да имат своя собствена версия на склад за данни; а склад за данни на изследване, където „мислителите“ на компанията могат да представят своите 72-часови запитвания без вредно въздействие върху склад за данни; и близка линейна памет, в която данни стар и данни насипни детайли могат да се съхраняват евтино.

КЪДЕ ERP се комбинира с КОРПОРАТИВНА ИНФОРМАЦИОННА ФАБРИКА

ERP се слива с Corporate Information Factory на две места. Първо като основно приложение (базова линия), което предоставя данни от заявлението до склад за данни. В този случай i данни, генерирани като страничен продукт от процес на транзакция, се интегрират и зареждат в склад за данни на компанията. Втората точка на обединение между ERP и CIF е ODS. Всъщност в много среди ERP се използва като класически ODS.

В случай, че ERP се използва като основно приложение, същото ERP може да се използва и в CIF като ODS. Във всеки случай, ако ERP трябва да се използва и в двете роли, трябва да има ясно разграничение между двете единици. С други думи, когато ERP играе ролята на основно приложение и ODS, двете архитектурни единици трябва да бъдат различни. Ако едно изпълнение на ERP се опитва да изпълнява и двете роли едновременно, неизбежно ще има проблеми при проектирането и внедряването на тази структура.

ОТДЕЛЕНИ ОД и ОСНОВНИ ПРИЛОЖЕНИЯ

Има много причини, които водят до разделянето на архитектурните компоненти. Може би най-показателният проблем при разделянето на различните компоненти на една архитектура е, че всеки компонент на архитектурата има свой собствен изглед. Базовото приложение служи за различна цел от ODS. Опитайте се да се припокриете

изгледът на основното приложение към света на ODS или обратното не е правилният начин за работа.

Следователно, първият проблем на ERP в CIF е да се провери дали има разлика между базовите приложения и ODS.

МОДЕЛИ НА ДАННИ В КОРПОРАТИВАТА ИНФОРМАЦИОНЕН ФАБРИКА

За да се постигне сплотеност между различните компоненти на CIF архитектурата, трябва да има модел на данни. Моделите на данни те служат като връзка между различните компоненти на архитектурата като базовите приложения и ODS. Моделите на данни те се превръщат в „интелектуална пътна карта“, за да се получи правилното значение от различните архитектурни компоненти на CIF.

Вървейки ръка за ръка с тази идея, идеята е, че трябва да има страхотен и уникален модел на данни. Очевидно трябва да има модел на данни за всеки от компонентите и освен това трябва да има разумен път, свързващ различните модели. Всеки компонент на архитектурата - ODS, базови приложения, склад за данни компания, и така нататък .. - се нуждае от собствен модел на данни. И така, трябва да има точно определение за това как тези модели на данни те се свързват помежду си.

ПРЕМЕСТЕТЕ I DATA НА ДАТАТА НА ERP СКЛАД

Ако произходът на данни е базово приложение и/или ODS, когато ERP влезе в i данни в склад за данни, това вмъкване трябва да се извърши на най-ниското ниво на "гранулация". Просто обобщете или обобщете i данни точно както излизат от основното ERP приложение или ERP ODS не е правилното нещо. THE данни подробности са необходими в склад за данни да формират основата на DSS процеса. Такива данни ще бъдат прекроени по много начини от борсите за данни и проучванията на склад за данни.

Изместването на данни от базовата ERP среда на приложения до склад за данни на компанията се извършва по разумно облекчен начин. Такава промяна настъпва приблизително 24 часа след надстройката или създаването в ERP. Фактът, че има "мързеливо" движение на боговете данни в склад за данни на компанията позволява на данни идващи от ЕРП-то за „уреждане“. Веднъж аз данни се депозират в базовото приложение, тогава можете безопасно да преместите i данни на ERP в предприятието. Друга цел, постижима благодарение на „мързеливото“ движение на боговете данни това е ясното разграничение между оперативните процеси и DSS. С "бързо" движение на данни границата между DSS и оперативното остава неясна.

Движението на данни от ODS на ERP до склад за данни на компанията се извършва периодично, обикновено седмично или месечно. В този случай движението на данни то се основава на необходимостта от „почистване“ на старото данни историци. Разбира се, ODS съдържа i данни които са много по-нови от данни историци, открити в склад за данни.

Изместването на данни в склад за данни почти никога не се прави "на едро" (по начин на търговец на едро). Копирайте таблица от ERP средата в склад за данни няма смисъл. Много по-реалистичен подход е да преместите избрани единици от данни. Само данни които са променени след последната актуализация на склад за данни са тези, които трябва да бъдат преместени в склад за данни. Един начин да разберете кои данни са променени след последната актуализация, е да погледнете времевите клейма данни намерени в ERP средата. Дизайнерът избира всички промени, настъпили след последната актуализация. Друг подход е да се използват техники за придобиване на промяна данни. С тези техники се анализират регистрационни файлове и ленти от дневници, за да се определи кои данни трябва да се премести от ERP средата в тази на склад за данни. Тези техники са най-добри, тъй като регистрационните файлове и журналните ленти могат да се четат от ERP файловете без допълнително въздействие върху другите ERP ресурси.

ДРУГИ УСЛОВИЯ

Един от проблемите с ERP в CIF е какво се случва с други източници на приложението или с данни на ОРВ, които трябва да допринесат за склад за данни но те не са част от ERP средата. Предвид затворения характер на ERP, особено на SAP, опитът за интегриране на ключове от външни източници на данни с i данни които идват от ERP в момента на преместване i данни в склад за данни, това е голямо предизвикателство. И колко точно са вероятностите, че i данни на приложения или ODS извън ERP средата ще бъдат интегрирани в склад за данни? Коефициентите всъщност са много високи.

НАМИРАМ DATA ИСТОРИКА ОТ ERP

Друг проблем с данни ERP е това, което произтича от необходимостта да имаш данни исторически в рамките на склад за данни. Обикновено на склад за данни нужди данни историци. И обикновено ERP технологията не ги съхранява данни исторически, поне не до точката, в която е необходимо в склад за данни. Когато голямо количество от данни историята започне да се добавя в ERP средата, тази среда трябва да бъде почистена. Да предположим например a склад за данни трябва да се зареди с пет години данни исторически, докато ERP съхранява максимум шест месеца от тях данни. Докато компанията е доволна да събира различни данни исторически с течение на времето, тогава няма проблем при използването на ERP като източник за склад за данни. Но когато склад за данни той трябва да се върне назад във времето и да вземе богове данни истории, които преди това не са били събрани и запазени от ERP, тогава ERP средата става неефективна.

ERP и метаданни

Друго съображение за ERP и склад за данни е този на съществуващите метаданни в ERP средата. Точно както метаданните преминават от ERP средата към склад за данни, метаданните трябва да бъдат преместени по същия начин. Освен това метаданните трябва да бъдат трансформирани във формата и структурата, изисквани от инфраструктурата на склад за данни. Има голяма разлика между оперативните метаданни и DSS метаданните. Оперативните метаданни са предимно за разработчика и

програмист. DSS метаданните са предимно за крайния потребител. Съществуващите метаданни в ERP приложения или ODS трябва да бъдат преобразувани и това преобразуване не винаги е лесно и ясно.

ИЗТОЧНИК НА ERP ДАННИТЕ

Ако ERP се използва като доставчик на данни за склад за данни трябва да има солиден интерфейс, който движи i данни от ERP средата към околната среда склад за данни. Интерфейсът трябва:

▪ да е лесен за използване
▪ разрешите достъп до данни на ERP
▪ вземете значението на данни които предстои да бъдат преместени в склад за данни
▪ да знаете ограниченията на ERP, които могат да възникнат, когато се направи достъп данни на ERP:
▪ референтна цялост
▪ йерархични връзки
▪ имплицитни логически връзки
▪ конвенция за прилагане
▪ всички структури на данни поддържа се от ERP и така нататък ...
▪ бъдете ефективни при достъпа данни, като предоставя:
▪ директно движение на данни
▪ придобиване на ресто данни
▪ поддържа навременен достъп до данни
▪ разберете формата на данни, и така нататък… ИНТЕРФЕЙС С САП Интерфейсът може да бъде от два вида, домашен или търговски. Някои от основните търговски интерфейси включват:

▪ SAS
▪ Prims Solutions
▪ D2k и така нататък ... МНОЖЕСТВЕНИ ERP ТЕХНОЛОГИИ Третирането на ERP средата като че ли е една единствена технология е голяма грешка. Има много ERP технологии, всяка със своите силни страни. Най-известните доставчици на пазара са:

▪ SAP
▪ Oracle Financials
▪ PeopleSoft
▪ JD Edwards
▪ Baan SAP SAP е най-големият и завършен ERP софтуер. SAP приложенията обхващат много видове приложения в много области. SAP има репутацията на:

▪ много голям
▪ много трудно и скъпо за изпълнение
▪ има нужда от много хора и консултанти, за да бъде изпълнена
▪ има нужда от специализирани хора за изпълнение
▪ отнема много време за внедряване SAP също има репутация за съхранение на собствени данни много внимателно, което затруднява достъпа до тях за някой извън зоната на SAP. Силата на SAP е да може да улавя и съхранява голямо количество данни. SAP наскоро обяви намерението си да разшири своите приложения до склад за данни. Има много предимства и недостатъци при използването на SAP като доставчик на склад за данни. Едно предимство е, че SAP вече е инсталиран и че повечето консултанти вече са запознати със SAP.
Недостатъците на SAP като доставчик на склад за данни са много: SAP няма опит в света на склад за данни Ако SAP е доставчик на склад за данни, е необходимо да се "извади" i данни от SAP ал склад за данни. Dato опитът на SAP в затворена система, е малко вероятно да бъде лесно да вкарате i от SAP в нея (???). Има много наследени среди, които захранват SAP, като IMS, VSAM, ADABAS, ORACLE, DB2 и т.н. SAP настоява за подход „не е изобретен тук“. SAP не иска да работи с други доставчици, за да използва или създава склад за данни. SAP настоява сам да генерира целия си софтуер.

Въпреки че SAP е голяма и мощна компания, тя се опитва да пренапише технологията на ELT, OLAP, системната администрация и дори основния код на dbms това е просто лудост. Вместо да заемат отношение на сътрудничество с доставчиците на склад за данни отдавна, SAP следва подхода, който те „знаят най-добре“. Това отношение спъва успеха, който SAP може да има в областта на склад за данни.
Отказът на SAP да позволи на външни доставчици да имат достъп до техния бърз и изящен данни. Самата същност на използването на a склад за данни е лесен достъп до данни. Цялата история на SAP се основава на затрудняването на достъпа данни.
Липсата на опит на SAP при работа с големи обеми данни; в областта на склад за данни има обеми от данни никога не е виждан от SAP и да обработва тези големи количества данни трябва да имате подходяща технология. SAP очевидно не е наясно с тази технологична бариера, която съществува за навлизане в областта склад за данни.
Корпоративната култура на SAP: SAP създаде бизнес в получаването на i данни от системата. Но за да направите това, трябва да имате различен манталитет. Традиционно софтуерните компании, които са били добри в получаването на данни в среда, не са били добри в насочването на данни в обратната посока. Ако SAP може да направи този тип превключване, това ще бъде първата компания, която ще го направи.

Накратко, под въпрос е дали една компания трябва да избере SAP за свой доставчик на склад за данни. Има много сериозни рискове от една страна и много малко награди от друга. Но има и друга причина, която обезкуражава избора на SAP като доставчик на склад за данни. Защото всяка компания трябва да има същото склад за данни от всички останали компании? The склад за данни това е сърцето на конкурентното предимство. Ако всяка компания приеме едно и също склад за данни би било трудно, ако не и невъзможно, да се постигне конкурентно предимство. SAP изглежда смята, че a склад за данни може да се разглежда като бисквитка и това е допълнителен знак за техния манталитет на приложението „вземи данните“.

Никой друг ERP доставчик не е толкова доминиращ, колкото SAP. Несъмнено ще има компании, които ще следват пътя на SAP за своите склад за данни но вероятно тези склад за данни SAP ще бъдат големи, скъпи и ще отнемат време за създаване.

Тези среди включват такива дейности като обработка на банкови каси, процеси на резервации на самолетни билети, процеси на застрахователни жалби и т.н. Колкото по-мощна беше системата за транзакции, толкова по-очевидна беше необходимостта от разделяне между оперативния процес и DSS (система за подпомагане на вземането на решения). Със системите за човешки и лични ресурси обаче никога не се сблъсквате с големи обеми транзакции. И, разбира се, когато човек е нает или напусне компанията, това е запис на транзакция. Но в сравнение с други системи, системите за човешки и лични ресурси просто нямат много транзакции. Следователно в системите за човешки и лични ресурси не е съвсем очевидно, че е необходим DataWarehouse. В много отношения тези системи представляват пакет от DSS системи.

Но има още един фактор, който трябва да се вземе предвид, когато се работи с datawarehouse и PeopleSoft. В много среди, т.е данни човешките и личните ресурси са второстепенни спрямо основния бизнес на компанията. Повечето компании се занимават с производство, продажба, предоставяне на услуги и т.н. Системите за човешки и лични ресурси обикновено са вторични (или поддържащи) спрямо основната дейност на компанията. Следователно е двусмислено и неудобно a склад за данни отделно за поддръжка на човешки и лични ресурси.

PeopleSoft е много различен от SAP в това отношение. При SAP е задължително да има a склад за данни. С PeopleSoft не всичко е толкова ясно. Складът за данни не е задължителен за PeopleSoft.

Най-доброто нещо, което може да се каже за данни PeopleSoft е това склад за данни може да се използва за архивиране на i данни свързани със стари човешки и лични ресурси. Втора причина, поради която една компания би искала да използва a склад за данни a

в ущърб на средата на PeopleSoft е да се позволи достъп и безплатен достъп до инструменти за анализ, ai данни от PeopleSoft. Но освен тези причини, може да има случаи, в които е за предпочитане да нямате склад за данни данни PeopleSoft.

в обобщение

Има много прозрения за изграждането на a склад за данни вътре в ERP софтуер.
Някои от тях са:

▪ Има смисъл да имате a склад за данни кой изглежда като всеки друг в индустрията?
▪ Колко гъвкав е ERP склад за данни софтуер?
▪ ERP склад за данни софтуерът може да се справи с обем от данни който се намира в "склад за данни арена "?
▪ Какъв е записът на пистата, която доставчикът на ERP прави в лицето на лесна и евтина от гледна точка на време, данни? (какъв е опитът на доставчиците на ERP за доставка на евтини, навременни, лесни за достъп данни?)
▪ Какво е разбирането на ERP доставчика за DSS архитектурата и фабриката за корпоративна информация?
▪ Доставчиците на ERP разбират как да получат данни в околната среда, но също така да разберете как да ги експортирате?
▪ Колко отворен е доставчикът на ERP към инструментите за съхранение на данни?
Всички тези съображения трябва да бъдат взети при определяне къде да се постави склад за данни който ще бъде домакин на i данни ERP и други данни. Като цяло, освен ако няма убедителна причина да се направи друго, изграждането се препоръчва склад за данни извън средата на доставчика на ERP. ГЛАВА 1 Преглед на BI организацията Ключови точки:
Информационните хранилища работят в противоречие с архитектурата на бизнес разузнаването (BI):
Корпоративната култура и ИТ могат да ограничат успеха в изграждането на BI организации.

Технологиите вече не са ограничаващият фактор за BI организациите. Проблемът за архитектите и проектантите не е дали технологията съществува, а дали могат ефективно да внедрят наличната технология.

За много компании a склад за данни това е малко повече от пасивен депозит, който разпределя i данни на потребители, които се нуждаят от него. НА данни те се извличат от изходните системи и се попълват в целеви структури на склад за данни. Аз данни могат и да се почистят с малко късмет. Въпреки това, не се добавя или извлича допълнителна стойност данни по време на този процес.

По същество пасивната DW в най-добрия случай осигурява само i данни чист и работещ за потребителските асоциации. Създаването на информация и аналитичното разбиране зависи изцяло от потребителите. Преценете дали DW (Склад за данни) е успех и субективен. Ако съдим за успеха по способността за ефективно събиране, интегриране и почистване на данни корпоративен на предсказуема основа, тогава да, DW е успех. От друга страна, ако разгледаме събирането на информация, консолидирането и експлоатацията на организацията като цяло, тогава DW е провал. DW предоставя малка или никаква информационна стойност. В резултат на това потребителите са принудени да се справят, като по този начин създават информационни силози. Тази глава представя изчерпателен преглед, за да обобщи архитектурата на бизнес разузнаването (BI) на организацията. Нека започнем с описание на BI и след това да преминем към дискусии за информационен дизайн и разработка, за разлика от простото предоставяне на данни към потребителите. След това дискусиите се фокусират върху изчисляването на стойността на вашите BI усилия. Завършваме, като дефинираме как IBM отговаря на BI архитектурните изисквания на вашата организация.

Описание на архитектурата на организация на BI

Мощните информационни системи, ориентирани към транзакциите, сега са нещо обичайно във всяко голямо предприятие, което ефективно изравнява условията за игра за корпорациите по целия свят.

Оставането на конкурентоспособността обаче сега изисква аналитично ориентирани системи, които могат да революционизират способността на компанията чрез преоткриване и използване на информацията, която вече притежават. Тези аналитични системи произтичат от разбирането за богатството на боговете данни на разположение. BI може да подобри производителността на цялата корпоративна информация. Компаниите могат да подобрят отношенията между клиенти и доставчици, да подобрят рентабилността на продуктите и услугите, да генерират нови и по-добри оферти, да контролират риска и, наред с много други приходи, да намалят драстично разходите. С BI вашата компания най-накрая започва да използва информацията за клиентите като конкурентен актив благодарение на приложения, които имат пазарни цели.

Да имаш правилния бизнес означава да имаш окончателни отговори на ключови въпроси като:

▪ Кой от нашите клиенти карат ли ни да печелим повече или ни пращат на загуба?
▪ Където живеят най-добрите ни клиенти във връзка с магазин/ склад, който посещават?
▪ Кои от нашите продукти и услуги могат да бъдат продадени най-ефективно и на кого?
▪ Кои продукти могат да бъдат продадени най-ефективно и на кого?
▪ Коя търговска кампания беше най-успешна и защо?
▪ Кои канали за продажба са най-ефективни за кои продукти?
▪ Как можем да подобрим взаимоотношенията с най-добрите клиенти? Повечето компании имат данни грубо да отговорите на тези въпроси.
Операционните системи генерират големи количества продукти, клиенти и данни пазар от точки на продажба, резервации, обслужване на клиенти и системи за техническа поддръжка. Предизвикателството е да се извлече и използва тази информация. Много компании се възползват само от малки части от собствените си данни за стратегически анализи.
I данни останали, често съединени с i данни извличането на външни източници като "правителствени доклади" и друга закупена информация са златна мина, която просто чака да бъде проучена, и данни те трябва да бъдат прецизирани само в информационния контекст на вашата организация.

Това знание може да се приложи по няколко начина, вариращи от разработване на цялостна корпоративна стратегия до лична комуникация с доставчици, чрез кол центрове, фактуриране, Интернет и други точки. Днешната бизнес среда диктува DW и свързаните BI решения да се развиват отвъд управлението на традиционните бизнес структури. данни което аз данни нормализиран на атомно ниво и "звездни / кубични ферми".

Това, което е необходимо, за да останем конкурентоспособни, е сливане на традиционни и модерни технологии в опит да се поддържа широка аналитична среда.
В заключение, общата среда трябва да подобри знанията на компанията като цяло, като се увери, че предприетите действия като следствие от извършените анализи са полезни за всички.

Да приемем например, че сте класирали своите клиенти в категориите с висок или нисък риск.
Ако тази информация е генерирана чрез модел за извличане или по друг начин, тя трябва да бъде поставена в DW и да бъде направена достъпна за всеки чрез всеки инструмент за достъп, като например статични отчети, електронни таблици, таблици или онлайн аналитична обработка (OLAP). .

В момента обаче голяма част от този тип информация остава в силозите на данни на лицата или отделите, които генерират анализа. Организацията като цяло има малка или никаква видимост за разбиране. Само чрез смесване на този тип информационно съдържание във вашето корпоративно DW можете да елиминирате информационните силози и да подобрите вашата DW среда.
Има две основни пречки пред развитието на BI организация.
Първо, имаме проблем със самата организация и нейната дисциплина.
Въпреки че не можем да помогнем с промените в организационната политика, можем да помогнем да разберем компонентите на BI на организацията, нейната архитектура и как технологията на IBM улеснява нейното развитие.
Втората бариера за преодоляване е липсата на интегрирана технология и познаването на метод, който извиква цялото BI пространство, а не само малък компонент.

IBM реагира на промените в интеграционните технологии. Ваша отговорност е да осигурите съзнателно планиране. Тази архитектура трябва да бъде разработена с технология, избрана за неограничена интеграция, или най-малкото с технология, която се придържа към отворени стандарти. Освен това, вашият бизнес мениджмънт трябва да гарантира, че бизнесът на BI се извършва по график и да не позволява развитието на информационни силози, които произтичат от самоцелни програми или цели.
Това не означава, че BI средата не е чувствителна да реагира на различните нужди и изисквания на различните потребители; вместо това означава, че прилагането на тези индивидуални нужди и изисквания се извършва в полза на цялата BI организация.
Описание на архитектурата на BI организацията може да се намери на страница 9 на Фигура 1.1.Архитектурата демонстрира богата комбинация от технологии и техники.
От традиционен изглед архитектурата включва следните складови компоненти

Атомен слой.

Това е основата, сърцето на цялата DW и следователно на стратегическото отчитане.
I данни съхраняваните тук ще запазят историческа цялост, доклади от данни и те включват извлечени показатели, както и се почистват, интегрират и съхраняват с помощта на шаблоните за извличане.
Цялото последващо използване на тях данни и свързаната информация се извлича от това съоръжение. Това е отличен източник за извличане на данни и за отчети със структурирани SQL заявки

Оперативен депозит на данни или база данни на данни(Оперативно съхранение на данни (ODS) или отчитане база данни.)

Това е структура на данни специално предназначени за техническа сигнализация.

I данни съхранявани и докладвани по-горе, тези структури могат в крайна сметка да се разпространят в склада през зоната за етапи, където могат да се използват за стратегическо отчитане.

Постановка.

Първата спирка за повечето данни предназначена за складовата среда е организационната зона.
Тук аз данни те се интегрират, почистват и трансформират в данни печалби, които ще запълнят структурата на склада

Дата мартове.

Тази част от архитектурата представлява структурата на данни използвани специално за OLAP. Наличието на бази данни, ако i данни те се съхраняват в припокриващите се звездни диаграми данни многоизмерен в релационна среда или във файловете на данни запазен, използван от специфична OLAP технология, като DB2 OLAP сървър, не е уместен.

Единственото ограничение е, че архитектурата улеснява използването на данни многоизмерна.
Архитектурата също така включва критични технологии и техники на Bi, които се открояват като:

Пространствен анализ

Пространството е неочакван източник на информация за анализатора и е от решаващо значение за пълното разрешаване. Пространството може да представлява информация за хората, живеещи на определено място, както и информация за това къде това местоположение е физически спрямо останалия свят.

За да извършите този анализ, трябва да започнете, като обвържете информацията си с координатите на географската ширина и дължина. Това се нарича "геокодиране" и трябва да бъде част от процеса на извличане, трансформиране и зареждане (ETL) на атомарно ниво на вашия склад.

Извличане на данни.

Извличането на данни позволява на нашите компании да увеличат броя на клиенти, за да предвидите тенденциите в продажбите и да позволите управлението на взаимоотношенията с клиенти (CRM), наред с други BI инициативи.

Извличането на данни следователно той трябва да бъде интегриран със структурите на данни на DWHouse и подкрепени от складови процеси, за да се установи както ефективното, така и ефикасното използване на технологиите и свързаните с тях техники.

Както е посочено в BI архитектурата, атомното ниво на DWHouse, както и базата данни, е отличен източник на данни за извличане. Същите тези съоръжения трябва също така да бъдат получатели на резултатите от екстракцията, за да се осигури наличност за най-широка аудитория.

Агенти.

Има различни агенти, които проверяват клиента за всяка точка, като например операционните системи на компанията и самите dw. Тези агенти могат да бъдат усъвършенствани невронни мрежи, обучени да научават за тенденциите на всяка точка, като бъдещо търсене на продукти въз основа на промоции за продажби, базирани на правила двигатели, които да реагират на Дато набор от обстоятелства или дори обикновени агенти, които съобщават за изключения на "висши ръководители". Тези процеси обикновено се случват в реално време и следователно трябва да бъдат тясно свързани с движението на същото данни. Всички тези структури на данни, технологиите и техниките гарантират, че няма да прекарате нощта в генериране на организация на вашия BI.

Тази дейност ще се развива постепенно, по малки точки.
Всяка стъпка е независим проект и се нарича итерация във вашата dw или BI инициатива. Итерациите могат да включват внедряване на нови технологии, започване с нови техники, добавяне на нови структури на данни , зареждане на i данни допълнително или чрез разширяване на анализа на вашата среда. Този параграф е разгледан по-подробно в глава 3.

В допълнение към традиционните DW структури и BI инструменти има и други функции на вашата BI организация, за които трябва да проектирате, като например:

Клиентски допирни точки (Докосване на клиента точки).

Както при всяка модерна организация, има редица допирни точки с клиентите, които показват как да имате положително преживяване за вашето клиенти. Има традиционни канали като търговци, оператори на централи, директна поща, мултимедия и рекламна преса, както и най-актуалните канали като имейл и уеб, данни продукти с някаква точка на контакт трябва да бъдат придобити, транспортирани, почистени, трансформирани и след това заселени в съоръжения на данни на BI.

Основи на данни оперативни и потребителски асоциации (оперативни

бази данни и потребителски общности).
В края на точките за контакт на клиенти ще намерите основите на данни приложение на фирмените и потребителски общности. НА данни съществуващите са данни традиционни, които трябва да бъдат обединени и обединени с данни протичащи от точките за контакт, за да попълнят необходимата информация.

Анализатори. (Анализатори)

Основният бенефициент на BI средата е анализаторът. Именно той печели от сегашния добив на данни оперативен, интегриран с различни източници на данни , допълнен с функции като географски анализ (геокодиране) и представен в BI технологии, които ви позволяват да извличате, OLAP, разширено SQL отчитане и географски анализ. Основният интерфейс на анализатора към средата за отчитане е BI порталът.

Анализаторът обаче не е единственият, който се възползва от BI архитектурата.
Ръководители, големи асоциации на потребители и дори партньори, доставчици и i клиенти те трябва да намерят предимства в бизнес BI.

Цикъл за обратно подаване.

BI архитектурата е учебна среда. Характерен принцип на развитие е позволяването на устойчиви структури на данни да се актуализира чрез използваната BI технология и чрез действия на потребителя. Пример за това е оценката на клиента (точкуване на клиента).

Ако отделът по продажбите прави модел за копаене на резултатите на клиента, за да използва нова услуга, тогава отделът по продажбите не трябва да бъде единствената група, която се възползва от услугата.

Вместо това моделът за копаене трябва да се изпълнява като естествена част от потока от данни в компанията, а оценките на клиентите трябва да станат интегрирана част от информационния контекст на склада, видим за всички потребители. Пакетът от Bi-bi-centric на IBM, включително DB2 UDB, DB2 OLAP сървър, включва повечето от основните технологични компоненти, дефинирани на фигура 1.1.

Ние използваме архитектурата, както се появява на тази фигура в книгата, за да ни даде ниво на приемственост и да демонстрираме как всеки продукт на IBM се вписва в цялостната BI рамка.

Предоставяне на информационното съдържание (Предоставяне Информационно съдържание)

Проектирането, разработването и внедряването на вашата BI среда е трудна задача. Дизайнът трябва да обхваща както настоящите, така и бъдещите бизнес изисквания. Архитектурният проект трябва да бъде пълен, за да включва всички заключения, направени по време на фазата на проектиране. Изпълнението трябва да остане ангажирано с една-единствена цел: да се разработи BI архитектурата, както е официално представена в проекта и основана на бизнес изискванията.

Особено трудно е да се твърди, че дисциплината ще осигури относителен успех.
Това е просто, защото не разработвате BI среда изведнъж, а го правите на малки стъпки във времето.

Идентифицирането на BI компонентите на вашата архитектура обаче е важно по две причини: Вие ще ръководите всички последващи технически архитектурни решения.
Ще можете съзнателно да проектирате конкретна употреба на технология, въпреки че може да не получите повторение, което се нуждае от технологията в продължение на няколко месеца.

Достатъчното разбиране на вашите бизнес изисквания ще повлияе на вида продукти, които придобивате за вашата архитектура.
Проектирането и разработването на вашата архитектура гарантира, че вашият склад е

не е случайно събитие, а по-скоро "добре обмислена", внимателно изградена реклама опера на изкуството като мозайка от смесени технологии.

Проектирайте информационното съдържание

Целият първоначален дизайн трябва да се съсредоточи върху и да идентифицира основните компоненти на BI, които ще бъдат необходими на общата среда сега и в бъдеще.
Познаването на бизнес изискванията е важно.

Дори преди да започне официалното планиране, проектантът често може да идентифицира компонент или два веднага.
Балансът на компонентите, които може да са необходими за вашата архитектура обаче, не може да бъде намерен лесно. По време на фазата на проектиране основната част от архитектурата свързва сесията за разработка на приложения (JAD) с търсене за идентифициране на бизнес изискванията.

Понякога тези изисквания могат да бъдат поверени на инструменти за заявки и отчети.
Например потребителите заявяват, че ако искат в момента да автоматизират отчет, те трябва да генерират ръчно чрез интегриране на два текущи отчета и добавяне на изчисленията, получени от комбинацията от данни.
Въпреки че това изискване е просто, то определя някои функционалности на функцията, които трябва да включите, когато купувате инструменти за отчитане за вашата организация.

Дизайнерът трябва да преследва и допълнителните изисквания за получаване на цялостно изображение. Искат ли потребителите да се абонират за този отчет?
Подмножествата на отчета генерирани ли са и изпратени по имейл на различните потребители? Искате ли да видите този отчет на фирмения портал? Всички тези изисквания са част от простата необходимост от замяна на ръчен отчет според изискванията на потребителите. Ползата от тези типове изисквания е, че всички, потребители и дизайнери, имат разбиране за концепцията на отчетите.

Има обаче и други видове бизнес, които трябва да планираме. Когато бизнес изискванията са заявени под формата на стратегически бизнес въпроси, за опитния дизайнер е лесно да различи изискванията за мярка/факт и размери.

Ако потребителите на JAD не знаят как да декларират изискванията си под формата на бизнес проблем, дизайнерът често ще предостави примери, за да стартира сесията за събиране на изисквания.
Експертният дизайнер може да помогне на потребителите да разберат не само стратегическата търговия, но и как да я обучават.
Подходът за събиране на изисквания е разгледан в глава 3; засега просто искаме да посочим необходимостта от проектиране за всички видове BI изисквания.

Стратегическият бизнес проблем е не само бизнес изискване, но и ключ към дизайна. Ако трябва да отговорите на многоизмерен въпрос, тогава трябва да запомните, да представите данни размери и ако трябва да съхранявате i данни многоизмерен, трябва да решите какъв вид технология или техника ще използвате.

Прилагате ли схема със запазена кубична звезда или и двете? Както можете да видите, дори обикновен бизнес проблем може значително да повлияе на дизайна. Но този вид бизнес изисквания са обичайни и, разбира се, поне от опитни проектанти и дизайнери.

Има достатъчно дебат относно технологиите и поддръжката на OLAP и има широка гама от решения. Досега споменахме необходимостта от комбиниране на просто отчитане с размерни бизнес изисквания и как тези изисквания влияят върху техническите архитектурни решения.

Но какви са изискванията, които не се разбират лесно от потребителите или екипа на DW? Ще имате ли нужда някога от пространствен анализ?
Моделите за добив на данни ще бъдат ли те необходима част от вашето бъдеще? Кой знае?

Важно е да се отбележи, че тези видове технологии не са добре познати от общите потребителски общности и членовете на екипа на DW, отчасти това може да се дължи на факта, че те обикновено се обработват от някои вътрешни или външни технически експерти. Това е краен случай на проблемите, които генерират тези видове технологии. Ако потребителите не могат да опишат бизнес изискванията или да ги оформят по начин, който предоставя насоки на дизайнерите, те могат да останат незабелязани или, по-лошо, просто игнорирани.

Става по-проблематично, когато дизайнерът и разработчикът не могат да разпознаят приложението на една от тези напреднали, но критични технологии.
Както често сме чували дизайнерите да казват, „добре, защо не го оставим настрана, докато не получим това? „Те наистина ли се интересуват от приоритетите или просто избягват изисквания, които не разбират? Най-вероятно това е последната хипотеза. Да приемем, че вашият екип по продажбите е съобщил бизнес изискване, както е посочено на Фигура 1.3, както можете да видите, изискването е оформено под формата на бизнес проблем. Разликата между този проблем и типичния проблем с размерите е разстоянието. В този случай търговската група иска да знае на месечна база общите продажби от продукти, складове и клиенти които живеят в рамките на 5 мили от склада, където пазаруват.

За съжаление, дизайнерите или архитектите могат просто да пренебрегнат пространствения компонент, като кажат: „Имаме клиента, продукта и данни от депозита. Нека да запазим дистанцията до друга итерация.

"Грешен отговор. Този тип бизнес проблеми са изцяло свързани с BI. Той представлява по-задълбочено разбиране на нашия бизнес и стабилно пространство за анализ за нашите анализатори. BI е отвъд простото запитване или стандартното отчитане или дори OLAP. Това не означава, че тези технологии не са важни за вашия BI, но сами по себе си те не представляват BI средата.

Дизайн за информационния контекст (Проектиране за информационно съдържание)

Сега, след като идентифицирахме бизнес изискванията, които разграничават различни основни компоненти, те трябва да бъдат включени в цялостния архитектурен дизайн. Някои от компонентите на BI са част от нашите първоначални усилия, докато някои няма да бъдат внедрени няколко месеца.

Въпреки това, всички известни изисквания са отразени в дизайна, така че когато трябва да внедрим определена технология, ние сме готови да го направим. Нещо в дизайна ще отразява традиционното мислене.

Този набор от данни се използва за поддръжка на по-късни употреби на данни измерения, ръководени от бизнес проблемите, които идентифицирахме. Тъй като се генерират допълнителни документи, като например разработването на дизайна на данни, ще започнем да формализираме как i данни те се разпространяват в околната среда. Установихме необходимостта да представляваме данни дименсионално, разделяйки ги (според конкретни специфични нужди) в витрини за данни.

Следващият въпрос, на който трябва да се отговори, е: как ще бъдат изградени тези витрини за данни?
Изграждате ли звездите, за да поддържате кубовете, или само кубове, или само звездите? (или десни кубчета, или десни звезди). Генерирайте архитектура за зависими витрини с данни, които изискват атомен слой за всички данни придобити? Позволете на независими данни за събиране на данни данни директно от операционни системи?

Каква куб технология ще се опитате да стандартизирате?

Имате огромни количества богове данни необходими за анализ на размерите или се нуждаете от кубове от вашата национална търговска сила на седмична база или и двете? Създавате ли мощен обект като DB2 OLAP сървър за финанси или Cognos PowerPlay кубове за вашата търговска организация или и двете? Това са големите решения за архитектурен дизайн, които ще повлияят на вашата BI среда оттук нататък. Да, установихте нужда от OLAP. Сега как ще направите този вид техника и технология?

Как някои от по-напредналите технологии влияят върху вашите проекти? Да приемем, че сте установили пространствена нужда във вашата организация. Сега трябва да си припомните изданията за архитектурни чертежи, дори ако не планирате да правите пространствени компоненти няколко месеца. Архитектът трябва да проектира днес въз основа на това, което е необходимо. Прогнозирайте необходимостта от пространствен анализ, който генерира, съхранява, прави и осигурява достъп до данни пространствен. Това от своя страна трябва да служи като ограничение по отношение на вида на софтуерната технология и спецификациите на платформата, които можете да разгледате в момента. Например системата за администриране на база данни Relational Relational (RDBMS), който правите за вашия атомен слой, трябва да има налично стабилно пространствено разширение. Това ще осигури максимална производителност при използване на геометрия и пространствени обекти във вашите аналитични приложения. Ако вашата RDBMS не може да се справи с данни (пространствено-центричен) вътрешно, така че ще трябва да установите a база данни (пространствено-центричен) външен. Това усложнява управлението на изданията и компрометира цялостната ви производителност, да не говорим за допълнителните проблеми, генерирани за вашите DBA, тъй като те вероятно имат минимално разбиране на основите на данни пространство също. От друга страна, ако вашият RDMBS механизъм обработва всички пространствени компоненти и неговият оптимизатор е наясно със специалните нужди (напр. индексиране) на пространствените обекти, тогава вашите DBA могат лесно да се справят с управлението на проблемите и можете да увеличите максимално производителността .

Също така, трябва да настроите зоната на етап (област на сцената) и слоя на атомната среда, за да включите почистване на адрес (a

ключов елемент за пространствения анализ), както и последващото запазване на пространствени обекти. Последователността на дизайнерските издания продължава сега, след като въведохме понятието чистота на адреса. От една страна, това приложение ще диктува типа софтуер, необходим за вашите ETL усилия.

Имате ли нужда от продукти като Trillium, които да ви осигурят чист адрес, или ETL доставчик по ваш избор, който да предостави тази функционалност?
Засега е важно да оцените нивото на дизайна, който трябва да бъде завършен, преди да започнете да изграждате вашата среда (склад). Горните примери трябва да демонстрират множеството дизайнерски решения, които трябва да следват идентифицирането на всяко конкретно бизнес изискване. Когато се правят правилно, тези дизайнерски решения насърчават взаимозависимостта между физическите структури на вашата среда, избора на използваната технология и потока от разпространение на информационно съдържание. Без тази конвенционална BI архитектура вашата организация ще бъде обект на хаотична смесица от съществуващи технологии, в най-добрия случай слабо комбинирани, за да осигурят привидна стабилност.

Поддържайте информационно съдържание

Пренасянето на стойността на информацията във вашата организация е много трудна задача. Без достатъчно разбиране и опит, или правилно планиране и чертане, дори най-добрите отбори биха се провалили. От друга страна, ако имате страхотна интуиция и подробно планиране, но нямате дисциплина за изпълнение, току-що сте пропилели парите и времето си, защото начинанието ви е обречено на провал. Посланието трябва да е ясно: Ако ви липсва едно или повече от тези умения, разбиране/опит или дизайн/дизайн или дисциплина за изпълнение, това ще осакати или унищожи сградата на BI организацията.

Вашият екип достатъчно подготвен ли е? Има ли някой във вашия BI екип, който разбира обширната аналитична среда, налична в BI среди, техниките и технологиите, необходими за прилагането на тази среда? Има ли някой от екипа ви, който може да разпознае разликата между приложението за напреднали

статично отчитане и OLAP или разликите между ROLAP и OLAP? Дали някой от членовете на вашия екип ясно разпознава как копаенето и как то може да повлияе на склада или как складът може да поддържа ефективността на копаене? Член на екипа разбира стойността на данни космическа или базирана на агенти технология? Имате ли някой, който оценява уникалното приложение на ETL инструменти срещу технологията за брокер на съобщения? Ако го нямате, вземете го. BI е много по-голям от нормализиран атомен слой, OLAP, звездни модели и ODS.

Наличието на разбиране и опит за разпознаване на BI изискванията и техните решения е от съществено значение за способността ви да формализирате правилно нуждите на потребителите и да проектирате и прилагате техните решения. Ако общността ви от потребители се затруднява да опише изискванията, екипът на склада трябва да осигури това разбиране. Но ако екипът на склада

не разпознава конкретното приложение на BI - например извличане на данни - тогава не е най-доброто нещо, че BI среди често са ограничени до това да бъдат пасивни хранилища. Пренебрегването на тези технологии обаче не намалява тяхното значение и ефекта, който имат върху появата на възможностите за бизнес разузнаване на вашата организация, както и върху информационните активи, които планирате да рекламирате.

Дизайнът трябва да включва понятието дизайн и и двете изискват компетентен индивид. Освен това проектирането изисква екипна философия и спазване на стандартите. Например, ако вашата компания е създала стандартна платформа или е идентифицирала конкретна RDBMS, която иска да стандартизира в цялата платформа, всички в екипа са длъжни да се придържат към тези стандарти. Обикновено екипът излага нуждата от нормализиране (на потребителските общности), но самият екип не желае да се придържа към стандартите, установени в други области на компанията или може би дори в подобни компании. Това не само е лицемерно, но и установява, че фирмата не е в състояние да използва съществуващите ресурси и инвестиции. Това не означава, че няма ситуации, които гарантират нестандартизирана платформа или технология; въпреки това усилията на склада

те трябва ревниво да защитават стандартите на фирмата, докато бизнес изискванията не налагат друго.

Третият ключов компонент, необходим за изграждането на BI организация, е дисциплината.
Зависи като цяло, както от индивидите, така и от средата. Проектантите, спонсорите, архитектите и потребителите трябва да оценят дисциплината, необходима за изграждане на информационната структура на компанията. Дизайнерите трябва да насочват своите проектни усилия по такъв начин, че да допълват други необходими усилия в обществото.

Да предположим например, че вашата компания създава ERP приложение, което има складов компонент.
Ето защо е отговорност на дизайнерите на ERP да си сътрудничат с екипа за складова среда, за да не се конкурират или дублират вече започнатата работа.

Дисциплината също е тема, която трябва да бъде заета от цялата организация и обикновено се установява и поверява на изпълнително ниво.
Желаят ли ръководителите да се придържат към проектиран подход? Подход, който обещава да създаде информационно съдържание, което в крайна сметка ще донесе стойност на всички области на бизнеса, но може би ще компрометира отделни лица или програми на отдели? Спомнете си поговорката „Да мислиш за всичко е по-важно от това да мислиш за едно нещо“. Тази поговорка е вярна за BI организациите.

За съжаление, много складове съсредоточават усилията си, опитвайки се да насочат и донесат стойност на конкретен отдел или конкретни потребители, без да обръщат особено внимание на организацията като цяло. Да предположим, че изпълнителният директор поиска помощ от екипа на бойната къща. Екипът отговаря с 90-дневна работа, която включва не само предоставяне на дефинирани от изпълнителните директори изисквания за уведомяване, но и гарантиране, че всички данни база се смесват на атомно ниво, преди да бъдат въведени в предложената кубична технология.
Това инженерно допълнение гарантира, че фирмата ще се възползва от данни необходимо за мениджъра.
Изпълнителният директор обаче разговаря с външни консултанти, които предложиха подобно приложение с доставка за по-малко от 4 седмици.

Ако приемем, че вътрешният екип на бойната къща е компетентен, изпълнителният директор има избор. Тези, които могат да поддържат допълнителната инженерна дисциплина, необходима за поддържане на корпоративния информационен актив, или могат да изберат да внедрят свое собствено решение бързо. Последният изглежда се избира твърде често и се използва само за създаване на контейнери с информация, от които само малцина или единични се възползват.

Краткосрочни и дългосрочни цели

Архитектите и дизайнерите на проекти трябва да формализират дългосрочен поглед върху общата архитектура и планове за растеж в BI организация. Тази комбинация от краткосрочна печалба и дългосрочно планиране представлява двете лица на BI начинанията. Краткосрочната печалба е BI аспектът, който е свързан с повторенията на вашия склад.

Това е мястото, където дизайнерите, архитектите и спонсорите се фокусират върху задоволяването на конкретни търговски изисквания. Именно на това ниво се изграждат физическите структури, закупуват се технологии и се прилагат техники. Те по никакъв начин не са създадени да отговарят на специфични изисквания, определени от конкретни потребителски общности. Всичко се прави, за да се отговори на конкретни изисквания, определени от конкретна общност.
Дългосрочното планиране обаче е другият аспект на BI. Това е мястото, където плановете и проектите гарантират, че всяка физическа структура е изградена, избраните технологии и внедрените техники са направени с поглед към предприятието. Именно дългосрочното планиране осигурява необходимото сближаване, за да се гарантира, че ползите за бизнеса произтичат от всички установени краткосрочни печалби.

Обосновете усилията си за BI

Un склад за данни сам по себе си той няма присъща стойност. С други думи, няма присъща стойност между складовите технологии и техниките за внедряване.

Стойността на всяко складово усилие се намира в действията, извършени в резултат на складовата среда и информационното съдържание, нарастващо с времето. Това е критична точка, която трябва да разберете, преди да опитате да оцените стойността на която и да е инициатива на wherehouse.

Твърде често архитекти и дизайнери се опитват да приложат стойност към физически и технически складови компоненти, когато стойността се основава на бизнес процеси, които са положително повлияни от склада и добре придобитата информация.

Тук се крие предизвикателството да създадете BI: Как оправдавате инвестицията? Ако самият wherehouse няма присъща стойност, дизайнерите на проекта трябва да проучат, дефинират и формализират ползите, постигнати от тези лица, които ще използват склада за подобряване на конкретни бизнес процеси или стойността на защитената информация, или и двете.

За да се усложнят нещата, всеки търговски процес, засегнат от напрежението в склада, може да осигури „значителни“ или „леки“ ползи. Значителни ползи осигуряват осезаема метрика за измерване на възвръщаемостта на инвестицията (ROI) - например обръщане на инвентара допълнително време през определен период или за по-ниски разходи за транспорт на пратка. Малките ползи, като подобрения достъп до информация, са по-трудни за определяне от гледна точка на осезаема стойност.

Свържете вашия проект, за да знаете Бизнес заявки

Твърде често дизайнерите на проекти се опитват да свържат стойността на склада с аморфните цели на фирмата. Като заявяваме, че "стойността на един склад се основава на способността ни да задоволим стратегическите искания", ние отваряме дискусията по приятен начин. Но само това не е достатъчно, за да се определи дали инвестирането в инвентар има смисъл. Най-добре е да свържете складовите повторения с конкретни и известни бизнес заявки.

Измерване на възвръщаемостта на инвестициите

Изчисляването на възвръщаемостта на инвестициите при настройка на склад може да бъде особено трудно. Особено трудно е, ако предимството

принципът на конкретно повторение е нещо нематериално или лесно за измерване. Едно проучване установи, че потребителите възприемат двете основни предимства на BI инициативите:

▪ Създайте способност за вземане на решения
▪ Създайте достъп до информация
Тези предимства са меки (или леки) предимства. Лесно е да разберем как можем да изчислим ROI въз основа на по-трудно (или по-голямо) предимство като намаляване на транспортните разходи, но как да измерим способността да вземаме по-добри решения?
Това със сигурност е предизвикателство за дизайнерите на проекти, когато се опитват да накарат компанията да инвестира в определени складови усилия. Нарастващите продажби или спадащите разходи вече не са централните теми, движещи BI средата.
Вместо това вие търсите по-добър достъп до информация в бизнес запитванията, така че даден отдел да може да взема по-бързи решения. Това са стратегически двигатели, които са еднакво важни за бизнеса, но са по-двусмислени и по-трудни за характеризиране в осезаема метрика. В този случай изчисляването на ROI може да бъде измамно, ако не и без значение.
Дизайнерите на проекти трябва да могат да демонстрират осезаема стойност за ръководителите, за да решат дали инвестицията в конкретно повторение си струва. Ние обаче няма да предложим нов метод за изчисляване на възвръщаемостта на инвестициите, нито ще дадем аргументи за или против него.
Има много налични статии и книги, които обсъждат основите на изчисляването на ROI. Има специални ценностни предложения като стойност на инвестицията (ВИЕ), предлагани от групи като Gartner, които можете да проучите. Вместо това ще се съсредоточим върху основните аспекти на всяка ROI или други предложения за стойност, които трябва да вземете предвид. Прилагане на ROI В допълнение към аргумента за „твърдите“ ползи спрямо „леките“ ползи, свързани с BI усилията, има и други въпроси, които трябва да се имат предвид при прилагането на ROI. Например:

Приписвайте твърде много спестявания на усилията на DW, които така или иначе биха дошли
Да приемем, че вашата компания е преминала от мейнфрейм архитектура към разпределена UNIX среда. Така че всички спестявания, които могат (или не могат) да бъдат направени от това усилие, не трябва да се приписват единствено, ако изобщо (?), на склада.

Без отчитане на всички разходи. И има много неща, които трябва да се вземат предвид. Разгледайте следния списък:

▪ Разходи за стартиране, включително осъществимост.
▪ Цената на специализиран хардуер със свързано съхранение и комуникации
▪ Разходи за софтуер, включително управление на данни и разширения за клиент/сървър, ETL софтуер, DSS технологии, инструменти за визуализация, приложения за програмиране и работни процеси и софтуер за мониторинг.
▪ Разходи за проектиране на конструкцията данни, с реализацията и оптимизацията на
▪ Разходи за разработка на софтуер, пряко свързани с BI усилията
▪ Разходи за домашна поддръжка, включително оптимизиране на производителността, включително контрол на версията на софтуера и помощни операции Приложете възвръщаемост на инвестициите “Big-Bang”. Изграждането на склада като едно единствено гигантско усилие е обречено на провал, така също изчислява възвръщаемостта на инвестициите за голяма корпоративна инициатива Предложението е изненадващо и че дизайнерите продължават да правят слаби опити да оценят стойността на цялото усилие. Защо планиращите се опитват да дадат парична стойност на бизнес инициативата, ако е широко известно и прието, че оценяването на конкретни повторения е трудно? Как е възможно? Не е възможно с малки изключения. не го правете Сега, след като установихме какво да не правим, когато изчисляваме ROI, ето няколко точки, които ще ни помогнат да дефинираме надежден процес за оценка на стойността на вашите BI усилия.

Получаване на съгласие за ROI. Независимо от вашия избор на техника за оценка на стойността на вашите BI усилия, тя трябва да бъде съгласувана от всички страни, включително плановици на проекти, спонсори и бизнес ръководители.

Намалете ROI до разпознаваеми части. Необходима стъпка към разумно изчисляване на ROI е фокусирането на това изчисление върху конкретен проект. След това това ви позволява да оцените стойност въз основа на изпълнените специфични бизнес изисквания

Определете разходите. Както споменахме, трябва да се вземат предвид многобройни разходи. Освен това, разходите трябва да включват не само тези, свързани с единичната итерация, но и разходите, свързани с осигуряването на съответствие с корпоративните стандарти.

Определете ползите. Чрез ясно свързване на възвръщаемостта на инвестициите с конкретни бизнес изисквания, трябва да можем да идентифицираме ползите, които ще доведат до изпълнение на изискванията.

Намалете разходите и ползите в предстоящите приходи. Това е най-добрият начин да базирате оценките си на нетна настояща стойност (NPV), вместо да се опитвате да предвидите бъдеща стойност в бъдещи печалби.

Сведете до минимум времето за разделяне на ROI. Той е добре документиран в дългосрочен план и е бил използван във вашата ROI.

Използвайте повече от една формула за ROI. Има множество методи за прогнозиране на възвръщаемостта на инвестициите и трябва да планирате дали да използвате един или повече, включително нетна настояща стойност, вътрешна норма на възвръщаемост (IRR) и изплащане.

Дефинирайте повтарящия се процес. Това е от решаващо значение при изчисляването на всяка дългосрочна стойност. Един повторяем процес трябва да бъде документиран за всички следващи проектни последователности.

Изброените проблеми са най-често срещаните, дефинирани от експертите на бойни къщи. Настояването на ръководството за предоставяне на възвръщаемост на инвестициите от „Голям взрив“ е много объркващо. Ако започнете всичките си изчисления на възвръщаемостта на инвестициите, като ги разбиете на разпознаваеми и осезаеми части, имате добър шанс да оцените точна оценка на възвръщаемостта на инвестициите.

Въпроси относно предимствата на възвръщаемостта на инвестициите

Каквито и да са вашите предимства, меки или твърди, можете да използвате някои фундаментални въпроси, за да определите тяхната стойност. Например, като използвате проста мащабна система от 1 до 10, можете да измерите въздействието на всяко усилие, като използвате следните въпроси:

Как бихте оценили разбирането на данни в резултат на този проект на вашата компания?
Как бихте оценили подобренията на процеса след този проект?
Как бихте измерили въздействието на новите прозрения и заключения, които вече са достъпни чрез тази итерация
Какво е въздействието на новите, високопроизводителни компютърни среди в резултат на наученото? Ако отговорите на тези въпроси са малко, е възможно компанията да не си заслужава инвестицията. Въпросите с висок резултат сочат значителни печалби в стойността и трябва да служат като насоки за по-нататъшно проучване. Например, висок резултат за подобряване на процеса трябва да накара дизайнерите да проучат как процесите са били подобрени. Може да откриете, че някои или всички от постигнатите печалби са осезаеми и следователно може лесно да се приложи парична стойност. Извличане на максимума от първата итерация на склад Най-големият резултат от вашите корпоративни усилия често е в първите няколко итерации. Тези ранни усилия традиционно създават най-полезното информационно съдържание за обществеността и създават помощ за технологичната основа за последващи BI приложения. Обикновено всяка следваща подпоследователност от данни Складовите проекти носят все по-малко допълнителна стойност за бизнеса като цяло. Това е особено вярно, ако итерацията не добавя нови теми или не отговаря на нуждите на нова потребителска общност.

Тази функция за съхранение се отнася и за нарастващи стекове от данни историци. Тъй като последващите усилия изискват повече данни и още как данни се изсипват в склада с течение на времето, по-голямата част от данни става по-малко подходящо за използвания анализ. Тези данни те често се наричат данни спящи и винаги е скъпо да ги поддържате, защото почти не се използват.

Какво означава това за спонсорите на проекта? По същество първите спонсори споделят повече от инвестиционните разходи. Това е първостепенно, защото те са импулсът за създаване на широка технологична среда и ресурсен слой на склада, включително органичен.

Но тези първи стъпки носят най-висока стойност и затова проектантите често трябва да оправдаят инвестицията.
Проектите, направени след вашата BI инициатива, може да имат по-ниски разходи (в сравнение с първия) и директни, но да носят по-малка стойност за бизнеса.

И собствениците на организации трябва да започнат да обмислят хвърлянето на натрупването данни и по-малко подходящи технологии.

Копаене на данни: Копаене Давам

Многобройни архитектурни компоненти изискват вариации в технологиите и техниките за извличане на данни -
например различните "агенти" за разглеждане на интересните точки на клиенти, операционните системи на компанията и за същата dw. Тези агенти могат да бъдат усъвършенствани невронни мрежи, обучени в POT тенденции, като бъдещо търсене на продукти въз основа на промоции за продажби; двигатели, базирани на правила, за да реагират на набор Дато обстоятелства, например медицинска диагноза и препоръки за лечение; или дори прости агенти с ролята на докладване на изключения на висшите ръководители. Като цяло тези процеси на екстракция данни si

проверка в реално време; следователно те трябва да бъдат обединени напълно с движението на данни стеси.

Онлайн обработка на аналитична обработка

Онлайн анализ

Възможност за нарязване, нарязване, навиване, пробиване и анализиране
какво-ако е в обхвата на целта на технологичния пакет на IBM. Например съществуват функции за онлайн аналитична обработка (OLAP) за DB2, които въвеждат анализ на размерите в двигателя на база данни същото.

Функциите добавят дименсионална полезност към SQL, като същевременно се възползват напълно от това, че са естествена част от DB2. Друг пример за OLAP интеграция е инструментът за извличане, DB2 OLAP сървър анализатор. Тази технология позволява кубовете на DB2 OLAP сървъра да бъдат бързо и автоматично сканирани за намиране и отчитане на стойностите на данните данни необичайни или неочаквани в целия куб за търговския анализатор. И накрая, характеристиките на DW Center предоставят средства за архитектите да контролират, наред с други неща, профила на DB2 OLAP сървърен куб като естествена част от ETL процесите.

Пространствен анализ Пространствен анализ

Пространството представлява половината от аналитичните котви (проводимост), необходими за една панорама
широк аналитичен (времето представлява другата половина). Атомното ниво на склада, представено на фигура 1.1, включва основите на времето и пространството. Time записва анализ на котва по време и анализ на информация за адрес по пространство. Времевите марки извършват анализа по време, а адресната информация извършва анализа по пространство. Диаграмата показва геокодиране - процес на преобразуване на адреси в точки на карта или точки в пространството, така че понятия като разстояние и интериор/външност да могат да се използват в анализа - провежда се на атомно ниво и пространственият анализ, който се предоставя на анализатор. IBM предоставя пространствени разширения, разработени с Института за изследване на околната среда (ESRI), al база данни DB2, така че пространствените обекти да могат да се съхраняват като нормална част от база данни релационна. DB2

Spatial Extenders, те също предоставят всички SQL разширения, за да се възползват от пространствения анализ. Например SQL разширенията за заявка към
разстоянието между адресите или ако дадена точка е вътре или извън определена полигонална област, са аналитичен стандарт с Spatial Extender. Вижте глава 16 за повече информация.

База данни-Resident Tools Tools База данни-Жител

DB2 има много SQL BI-резидентни функции, които подпомагат действието за анализ. Те включват:

Функции за рекурсия за извършване на анализ, като например „намиране на всички възможни траектории на полета от Сан Франциско a Ню Йорк".
Аналитичните функции за класиране, кумулативни функции, куб и събиране за улесняване на задачите, които обикновено се случват само с OLAP технологията, сега са естествена част от двигателя на база данни
Възможност за създаване на таблици, които съдържат резултати
Продавачи на база данни лидерите смесват повече от BI способностите в база данни същото.
Основните доставчици на база данни смесват повече BI възможности в база данни същото.
Това осигурява най-добрата производителност и повечето опции за изпълнение за BI решения.
Характеристиките и функциите на DB2 V8 се обсъждат подробно в следващите глави:
Техническа архитектура и основи за управление на данни (глава 5)

DB2 BI Основи (Глава 6)
DB2 Материализирани таблици на заявки (Глава 7)
DB2 OLAP функции (Глава 13)
DB2 Подобрени BI характеристики и функции (Глава 15) Опростена система за доставка на данни Система за доставка на данни опростена

Архитектурата, изобразена на фигура 1.1, включва множество структури данни физически. Единият е складът на данни опериращ. Като цяло, ODS е предметно ориентиран, интегриран и актуален. Бихте изградили ODS, за да поддържате, например, офиса за продажби. Продажбите на ODS ще се интегрират данни идващи от множество различни системи, но биха запазили само днешните транзакции. ODS също може да се актуализира няколко пъти на ден. В същото време процесите тласкат данни интегрирани в други приложения. Тази структура е специално проектирана да интегрира данни текущ и динамичен и би бил вероятен кандидат да бъде подложен на анализи в реално време, като например предоставяне на агенти за услуги клиенти текущата информация за продажбите на клиента чрез извличане на информация за тенденциите в продажбите от самия инвентар. Друга структура, показана на фигура 1.1, е формално състояние за dw. Не само това е мястото за извършване на необходимата интеграция, на качеството на данни, и трансформацията на данни на входящ склад, но също така е надеждна и временна складова зона за данни реплики, които могат да се използват в анализ в реално време. Ако решите да използвате ODS или зона за спиране, един от най-добрите инструменти за попълване на тези структури данни използването на различни операционни източници е разнородната разпределена заявка на DB2. Тази способност се доставя от незадължителната DB2 характеристика, наречена DB2 Relational Connect (само заявка) и чрез DB2 DataJoiner (отделен продукт, който доставя възможност за приложение, вмъкване, актуализиране и изтриване на хетерогенни разпределени RDBMS).

Тази технология позволява на архитектите да данни di legare данни на производство с аналитични процеси. Не само, че технологията може да се адаптира към почти всички изисквания за репликация, които могат да възникнат с анализи в реално време, тя може също да се свърже с голямо разнообразие от бази на данни най-популярни, включително DB2, Oracle, Sybase, SQL Server, Informix и други. DB2 DataJoiner може да се използва за попълване на структура данни формално като ODS или дори постоянна маса, представена в склада, предназначена за бързо възстановяване на незабавни актуализации или за продажба. Разбира се, същите тези структури данни може да се попълни с помощта на

друга основна технология, предназначена за репликация на данни, IBM DataPropagator Relational. (DataPropagator е отделен продукт за централни системи. DB2 UNIX, Linux, Windows и OS / 2 включват услуги за репликация данни като стандартна функция).
Друг метод за преместване на данни работещ в предприятието е интегратор на корпоративни приложения, известен още като брокер на съобщения. Тази уникална технология позволява несравним контрол за насочване и преместване данни около компанията. IBM има най-широко използвания брокер на съобщения, MQSeries, или вариант на продукта, който включва изискванията на електронна търговия, IBM WebSphere MQ.
Per più discussione su come sfruttare MQ per sostenere un magazzino e un ambiente BI, visitare уеб сайт del libro. Per ora, è sufficiente dire che questa tecnologia è un mezzo eccellente per catturare e trasformare (utilizzando MQSeries Integrator) данни целеви оператори, наети за BI решения. MQ технологията е интегрирана и пакетирана в UDB V8, което означава, че опашките от съобщения вече могат да се управляват, сякаш са DB2 таблици. Концепцията за заваряване на съобщения в опашка и вселената на база данни релационни води до мощна среда за доставка данни.

Нулева латентност Нулева латентност

Крайната стратегическа цел за IBM е анализ с нулево забавяне. Както е определено от
Gartner, една BI система трябва да може да извежда, асимилира и предоставя информация на анализаторите при поискване. Предизвикателството, разбира се, е в това как да се смесват данни текущо и в реално време с необходимата историческа информация, като i данни свързан модел/тенденция или извлечено разбиране, като профилиране на клиенти.

Такава информация включва например идентификацията на клиенти висок или нисък риск или кои продукти i клиенти те най-вероятно ще купят, ако вече имат сирене в пазарските си колички.

Постигането на нулева латентност на практика зависи от два основни механизма:

Пълен съюз на данни които се анализират с установените техники и с инструментите, създадени от BI
Система за доставка на данни ефективни, за да се гарантира, че анализите в реално време са наистина налични. Тези предпоставки за нулева латентност не се различават от двете цели, поставени от IBM и описани по-горе. Тясното свързване на данни това е част от програмата за безпроблемна интеграция на IBM. И създайте система за доставка на данни ефективността зависи изцяло от наличната технология, която опростява процеса на доставка данни. Следователно две от трите цели на IBM са критични за постигането на третата. IBM съзнателно развива своята технология, за да гарантира, че нулевата латентност е реалност за складовите усилия. Резюме / Синтез BI организацията предоставя пътна карта за реализиране на вашата среда
итеративно. Трябва да се коригира, за да отразява нуждите на вашия бизнес, както сега, така и в бъдеще. Без широка архитектурна визия повторенията на склада са малко повече от произволни внедрявания на централен склад, които правят малко за създаването на голямо, информативно предприятие. Първото препятствие пред ръководителите на проекти е как да оправдаят инвестициите, необходими за развитието на BI организацията. Въпреки че изчисляването на възвръщаемостта на инвестициите остава основна опора за постиженията на инвентара, става все по-трудно да се предвиди точно. Това доведе до други методи за определяне дали си струват парите. Стойността на инвестицията2 (ВИЕ), например, се обявява като решение. Тя е надвиснала над архитектите на данни и на проектантите умишлено генерират и предоставят информация на потребителските асоциации, а не просто предоставят услуга данни. Има огромна разлика между двете. Информацията е нещо, което има значение при вземането на решения и ефективността; относително, т.е данни те са градивни елементи за извличане на тази информация.

Макар и критично към източника данни за да стимулира бизнес запитванията, BI средата трябва да играе по-голяма роля в създаването на информационно съдържание. Трябва да предприемем допълнителни стъпки, за да изчистим, интегрираме, трансформираме или създадем по друг начин информационно съдържание, което потребителите да могат да предприемат, и след това трябва да се уверим, че тези действия и решения, когато са разумни, са отразени в BI средата. Ако преместим склада да обслужва само на данни, се гарантира, че потребителските асоциации ще създадат съдържанието на информацията, необходима за предприемане на действия. Това гарантира, че тяхната общност ще може да взема по-добри решения, но компанията страда от липсата на знания, които са използвали. Dato че архитектите и проектантите инициират конкретни проекти в BI средата, те остават отговорни пред предприятието като цяло. Прост пример за тази двустранна характеристика на BI итерациите се намира в източника данни. Всички данни получени за конкретни търговски заявки трябва да бъдат попълнени в първия атомен слой. Това гарантира развитието на корпоративния информационен актив, както и управлението, адресиране на конкретни потребителски заявки, дефинирани в итерацията.

WhatisaDataWarehouse?

Склад за данни е сърцето на архитектурата на информационните системи от 1990 г. и поддържа информационни процеси, като предлага солидна интегрирана платформа данни историци взети като основа за последващи анализи. THE склад за данни те предлагат лесна интеграция в свят на несъвместими системи за приложения. Склад за данни еволюира, за да се превърне в мода. Склад за данни организира и съхранява i данни необходими за информационни и аналитични процеси на базата на дълга историческа времева перспектива. Всичко това включва значителен и постоянен ангажимент в изграждането и поддръжката на склад за данни.

И така, какво е a склад за данни? A склад за данни и:

▪ ориентирани към предмети
▪ интегрирана система
▪ вариантно време
▪ енергонезависим (не отменя)

колекция от данни използвани за подпомагане на управленски решения при изпълнението на процесите.
I данни вмъкнати в склад за данни в повечето случаи те произтичат от оперативна среда. The склад за данни реализира се от складова единица, физически отделена от останалата система, която съдържа данни преди това трансформирани от приложения, които оперират с информация, извлечена от операционната среда.

Буквалната дефиниция на a склад за данни заслужава задълбочено обяснение, тъй като има важни основни причини и значения, които описват характеристиките на склада.

ПРЕДМЕТ ОРИЕНТАЦИЯ ОРИЕНТАЦИЯ ТЕМАТИЧНИ

Първата характеристика на a склад за данни е, че е ориентиран към основните играчи на една компания. Съдийството на изпитанията чрез i данни той е в контраст с по-класическия метод, който предвижда ориентацията на приложенията към процеси и функции, метод в по-голямата си част споделян от повечето по-стари системи за управление.

Операционният свят е проектиран около приложения и функции като заеми, спестявания, банкови карти и доверие за финансова институция. Светът на dw е организиран около основни субекти като клиент, продавач, продукт и бизнес. Подравняването около темите засяга дизайна и изпълнението на данни намерени в dw. По-важното е, че основният аргумент засяга най-важната част от ключовата структура.

Светът на приложението се влияе както от дизайна на базата данни, така и от дизайна на процеса. Светът на dw е фокусиран изключително върху моделирането данни и на чертежа на база данни. Дизайнът на процеса (в класическата му форма) не е част от dw средата.

Разликите между избора на приложение на процес/функция и избора по предмет също се разкриват като разлики в съдържанието на данни на подробно ниво. НА данни del dw не включват i данни които няма да се използват за DSS процеса, докато приложенията

оперативно ориентиран към данни съдържат i данни незабавно да отговори на изискванията за функционалност/обработка, които могат или не могат да имат никаква полза за DSS анализатора.
Друг важен начин, по който данни различавам се от данни на dw е в докладите на данни. Аз данни Операторите поддържат непрекъсната връзка между две или повече таблици въз основа на бизнес правило, което е активно. THE данни на dw обхваща спектър от време и съотношенията, намерени в dw, са много. Много правила за търговия (и съответно много данни ) са представени в склада на данни между две или повече маси.

(За подробно обяснение как взаимоотношенията между данни се управляват в DW, препращаме към техническата тема по този въпрос.)
От никоя друга гледна точка освен тази на фундаменталната разлика между избор на функционално/процесно приложение и избор на обект, има ли по-голяма разлика между операционните системи и данни и DW.

ИНТЕГРАЦИЯ ИНТЕГРАЦИЯ

Най-важният аспект на средата на dw е, че i данни намерени в рамките на dw са лесно интегрирани. ВИНАГИ. БЕЗ ИЗКЛЮЧЕНИЯ. Самата същност на dw средата е, че i данни съдържащи се в границите на склада са интегрирани.

Интеграцията се разкрива по много различни начини - в идентифицираните последователни конвенции, в степента на последователни променливи, в последователните кодирани структури, във физическите атрибути на данни последователни и т.н.

През годините дизайнерите на различни приложения са взели много решения за това как трябва да се разработи дадено приложение. Стилът и индивидуализираните дизайнерски решения на приложенията на дизайнерите се разкриват по стотици начини: в разликите в кодирането, ключовата структура, физическите характеристики, конвенциите за идентификация и т.н. Колективната способност на много дизайнери на приложения да създават непоследователни приложения е легендарна. Фигура 3 разкрива някои от най-важните разлики в начините, по които са проектирани приложенията.

Кодиране: Кодиране:

Дизайнерите на приложения са избрали кодиране на полето - пол - по няколко начина. Дизайнерът представя секса като "м" и "ж". Друг дизайнер представя секса като "1" и "0". Друг дизайнер представя секса като "x" и "y". Друг дизайнер представя пола като "мъжки" и "женски". Всъщност няма значение как сексът идва в DW. "M" и "F" вероятно са толкова добри, колкото и цялото представяне.

Важното е, че от какъвто и произход да произлиза сексуалното поле, това поле пристига в DW в последователно интегрирано състояние. Следователно, когато полето се зареди в DW от приложение, където е представено във формат "M" и "F", данни трябва да се преобразува във формат DW.

Измерване на атрибути: Измерване на Атрибути:

Дизайнерите на приложения са избрали да измерват тръбопровода по различни начини през годините. Дизайнерски магазини i данни на тръбопровода в сантиметри. Друг дизайнер на приложения съхранява i данни на тръбопровода по отношение на инчове. Друг дизайнер на приложения съхранява i данни от тръбопровода в милиони кубични фута в секунда. И друг дизайнер съхранява информация за тръбопровода по отношение на ярдове. Какъвто и да е източникът, когато информацията за тръбопровода пристигне в DW, тя трябва да бъде измерена по същия начин.

Според показанията на Фигура 3 проблемите на интеграцията засягат почти всеки аспект на проекта - физическите характеристики на данни, дилемата да има повече от един източник на данни, въпросът за непоследователни идентифицирани проби, формати на данни непоследователни и т.н.

Какъвто и да е аргументът на дизайна, резултатът е един и същ - т.е данни те трябва да се съхраняват в DW по единствен и глобално приемлив начин, дори когато основните операционни системи съхраняват i по различен начин данни.

Когато DSS анализаторът разглежда DW, целта на анализатора трябва да бъде използването на данни които са в склада,

вместо да се чудите за достоверността или последователността на данни.

ВАРИАНТНОСТ НА ВРЕМЕТО

Всички аз данни в DW те са точни в даден момент. Тази основна характеристика на данни в DW е много различно от данни намерени в операционната среда. НА данни на работната среда са толкова точни, колкото и в момента на достъпа. С други думи, в работната среда при достъп до устройство данни, се очаква, че ще отразява стойности толкова точни, колкото и към момента на влизане. Защо аз данни в DW са точни като в някакъв момент във времето (т.е. не „точно сега“), т.е данни открити в DW са "времеви отклонения".
Разликата във времето на данни DW се споменава по много начини.
Най-простият начин е, че i данни на DW представляват данни в дълъг период от време - пет до десет години. Времевият хоризонт, представен за работната среда, е много по-кратък от днешните текущи стойности от до шестдесет и деветдесет
Приложенията, които трябва да функционират добре и трябва да са достъпни за обработка на транзакции, трябва да носят минималното количество от данни ако допускат някаква степен на гъвкавост. Така че оперативните приложения имат кратък времеви хоризонт, като тема за дизайн на аудио приложение.
Вторият начин, по който „времевата вариация“ се появява в DW, е в ключовата структура. Всяка ключова структура в DW съдържа, имплицитно или изрично, времеви елемент, като ден, седмица, месец и т.н. Времевият елемент е почти винаги в долната част на свързания ключ, намиращ се в DW. В тези случаи елементът време ще съществува имплицитно, като например случая, когато цял файл се дублира в края на месеца или тримесечието.
Третият начин за показване на вариацията във времето е, че i данни на DW, веднага след като са правилно регистрирани, не могат да бъдат актуализирани. THE данни на DW са, за всички практически цели, дълга поредица от моментни снимки (моментни снимки). Разбира се, ако моментните снимки са направени неправилно, тогава снимките могат да бъдат редактирани. Но ако приемем, че моментните снимки са направени правилно, те не се променят веднага след като са направени. В някои

случаи може да е неетично или дори невалидно моментните снимки в DW да бъдат модифицирани. THE данни оперативни, като са точни в момента на достъп, те могат да бъдат актуализирани, когато възникне необходимост.

НЕ ЛЕТКИ

Четвъртата важна характеристика на DW е, че тя не е летлива.
Актуализациите, вмъкванията, изтриванията и промените се правят редовно за оперативни среди на база запис по запис. Но основната манипулация на данни възникващи в DW е много по-просто. Има само два вида операции, които се случват в DW - първоначалното зареждане на данни и достъп до данни. Няма актуализация на данни (в общия смисъл на актуализиране) в DW като нормална операция по обработка. Има някои много мощни последици от тази основна разлика между оперативната обработка и DW обработката. На ниво проектиране необходимостта да бъдете предпазливи относно необичайно актуализиране не е фактор в DW, тъй като актуализирането на данни не се извършва. Това означава, че на физическото ниво на проектиране могат да се вземат свободи за оптимизиране на достъпа данни, по-специално при справяне с проблемите на нормализацията и физическата денормализация. Друго следствие от простотата на DW операциите е в основната технология, използвана за изпълнение на DW средата. Необходимостта да поддържа онлайн актуализации запис по запис (както често се случва с оперативната обработка) изисква технологията да има много сложна основа под очевидна простота.
Технологията, която поддържа архивиране и копия за възстановяване, транзакции и целостта на данни и откриването и отстраняването на състояние на блокиране е доста сложно и не е необходимо за DW обработка. Характеристиките на DW, ориентация на дизайна, интеграция на данни в рамките на DW, времевата вариация и простотата на управление данни, като всичко това води до среда, която е много, много различна от класическата работна среда. Източникът на почти всички данни на DW са работната среда. Изкушаващо е да се мисли, че има огромно излишък на данни между двете среди.
Всъщност първото впечатление, което много хора имат, е, че има голяма излишност на данни между операционната среда и

DW. Подобна интерпретация е повърхностна и демонстрира липса на разбиране какво се случва в DW.
Всъщност има минимум съкращения от данни между работната среда и i данни на DW. Нека разгледаме следното: данни се филтрират Дато които преминавате от операционната среда към DW средата. Много данни те никога не излизат от работната среда. Освен че аз данни които са необходими за обработката на DSS, намират своята посока в околната среда

▪ времевият хоризонт на данни тя е много различна от една среда в друга. THE данни в работната среда те са много свежи. НА данни в DW са много по-стари. Само от гледна точка на времевия хоризонт има много малко припокриване между работната среда и DW.

▪ DW съдържа данни резюме, които никога не се намират в околната среда

▪ аз данни претърпяват фундаментална трансформация, докато преминават към Фигура 3 илюстрира, че повечето от данни те са значително модифицирани, стига да бъдат избрани и преместени в DW. Казано по друг начин, повечето от данни се променя физически и радикално, докато се премества в DW. От гледна точка на интеграцията те не са еднакви данни пребиваващи в работната среда. В светлината на тези фактори излишъкът на данни между двете среди е рядко събитие, което води до по-малко от 1% излишък между двете среди. СТРУКТУРА НА СКЛАДА DW имат различна структура. Има различни нива на обобщение и подробности, които разграничават DW.
Различните компоненти на DW са:

Metadata
Давам актуални подробности
Давам от стари детайли
Давам леко обобщено
Давам силно обобщено

Несъмнено основната грижа е за i данни текущи подробности. Това е основната грижа, защото:

I данни текущите подробности отразяват най-новите събития, които винаги са от голям интерес и
i данни текущите подробности са обемисти, защото се съхраняват на най-ниското ниво на детайлност e
i данни текущите подробности почти винаги се съхраняват в дисковата памет, която е бърза за достъп, но скъпа и сложна от I. данни по-стари подробности са данни които се съхраняват в някаква памет на Маса. Достъпът до него е спорадичен и се съхранява на ниво на детайлност, съвместимо с данни текущи подробности. Въпреки че не е задължително да се съхранява на алтернативен носител за съхранение, поради големия обем на данни обединени със спорадичния достъп на данни, носителят на паметта за данни по-старите детайли обикновено не се съхраняват на диск. THE данни обобщени с лека ръка са данни които са дестилирани от намереното ниско ниво на детайлност до текущото ниво на детайлност. Това ниво на DW почти винаги се съхранява в дисковата памет. Проблемите на дизайна, които се поставят пред архитекта на данни при изграждането на това ниво на DW са:

Коя единица време е обобщението, направено по-горе
Кое съдържание, атрибутите ще обобщят леко съдържанието на данни Следващото ниво на данни намерен в DW е този на данни силно обобщено. THE данни силно обобщени са компактни и лесно достъпни. THE данни силно обобщени понякога се срещат в средата на DW, а в други случаи i данни силно обобщени се намират извън непосредствените стени на технологията, хостваща DW. (във всеки случай, т данни силно обобщени са част от DW, независимо къде i данни са физически настанени). Последният компонент на DW е този на метаданните. В много отношения метаданните се намират в различно измерение от другите данни на DW, тъй като метаданните не съдържат никакви Дато взети директно от операционната среда. Метаданните играят специална и много важна роля в DW. Метаданните се използват като:

директория, която да помогне на DSS анализатора да намери съдържанието на DW,
ръководство за картографиране на данни на това как аз данни са трансформирани от операционната среда в DW среда,
ръководство за алгоритмите, използвани за обобщаване между данни текущи подробности и i данни малко обобщено, т.е. данни високо обобщено, метаданните играят много по-важна роля в DW средата, отколкото някога са имали в оперативната среда СРЕДНА СЪХРАНЕНИЕ НА СТАРИ ДЕТАЙЛИ Магнитна лента може да се използва за съхраняване на този тип данни. Всъщност има голямо разнообразие от носители за съхранение, които трябва да се вземат предвид за запазването на стари данни на детайлите. В зависимост от обема на данни, честотата на достъп, цената на инструментите и вида на достъпа, е напълно вероятно други инструменти да се нуждаят от старото ниво на детайлност в DW. ПОТОК НА ДАННИ Има нормален и предсказуем поток от богове данни в рамките на DW.
I данни въведете DW от операционната среда. (ЗАБЕЛЕЖКА: Има някои много интересни изключения от това правило. Въпреки това, почти всички данни въведете DW от работната среда). Dato че аз данни въведете DW от операционната среда, той се трансформира, както е описано по-горе. При условие, че въведете DW, т.е данни въведете текущото ниво на детайлност, както е показано. Той се намира там и се използва, докато настъпи едно от трите събития:

се пречиства,
е обобщен и/или ▪ е остарял процес в движение на DW i данни актуални подробности а данни на стари детайли, според възрастта на данни. Процеса

обобщението използва детайлите на данни да се изчисли i данни леко обобщени и силно обобщени нива на данни. Има някои изключения от показания поток (ще бъдат обсъдени по-късно). Въпреки това, обикновено, за по-голямата част от данни намерени в рамките на DW, потокът от данни е както е на снимката.

ИЗПОЛЗВАНЕ НА СКЛАДА ЗА ДАННИ

Не е изненадващо, че различните нива на данни в DW те не получават различни нива на използване. Като правило, колкото по-високо е нивото на обобщаване, толкова повече данни те се използват.
Много приложения се случват в данни силно обобщени, докато старите данни детайлите почти не се използват. Има добра причина организацията да премине към парадигмата за използване на ресурсите. По-обобщено i данни, колкото по-бързо и по-ефективно е да стигнете до данни. Ако магазин установи, че извършва много процеси на детайлно ниво на DW, тогава се изразходва съответно голямо количество машинни ресурси. В най-добрия интерес на всички е да се обработи възможно най-скоро на високо ниво на обобщение.

За много магазини използва DSS анализатор в DW преди средата данни на ниво детайлност. В много отношения пристигането a данни подробен изглежда като одеяло за сигурност, дори когато са налични други нива на обобщаване. Една от дейностите на арх данни е да отвикне потребителят на DSS от постоянна употреба на данни на най-ниското ниво на детайлност. Има две причини, с които разполага архитектът данни:

чрез инсталиране на система за обратно плащане, при която крайният потребител плаща за изразходваните ресурси e
които показват, че може да се получи много добро време за реакция, когато поведението с i данни той е на високо ниво на обобщаване, докато лошото време за реакция идва от поведението на данни при ниско ниво на ДРУГИ СЪОБРАЖЕНИЯ Има някои други съображения за изграждане и управление на DW.
Първото съображение е това на индексите. НА данни при по-високи нива на обобщаване те могат да бъдат свободно индексирани, докато i данни

на по-ниските нива на детайлност те са толкова обемни, че могат да бъдат индексирани пестеливо. От същата лексема, т.е данни при високи нива на детайлност те могат да бъдат относително лесно преструктурирани, докато обемът на данни на по-ниските нива е толкова голям, че i данни те не могат лесно да бъдат преструктурирани. Следователно моделът на данни и формалната работа, извършена от дизайна, полага основата за DW, приложен почти изключително към текущото ниво на детайлност. С други думи, дейностите по моделиране на данни те не се прилагат за нивата на обобщаване в почти всеки случай. Друго структурно съображение е това на подразделението на данни от DW.

Разделянето може да се извърши на две нива - на ниво dbms и на ниво приложение. В дивизията на ниво dbms, The dbms той е информиран за подразделенията и ги следи съответно. В случай на разделяне на ниво приложение, само програмистът е информиран за разделенията и отговорността за тяхното администриране е оставена на него.

Под нивото dbms, много работа се извършва автоматично. Има много негъвкавост, свързана с автоматичното администриране на подразделенията. В случай на разделяне на ниво приложение на данни дел склад за данни, много работа тежи на програмиста, но крайният резултат е гъвкавост в администрирането на данни в склад за данни

ДРУГИ АНОМАЛИИ

Докато компонентите на склад за данни работят както е описано за почти всички данни, има някои полезни изключения, които трябва да бъдат обсъдени. Изключение прави това на данни публични обобщени данни. Това са данни обобщения, които са изчислени от склад за данни но те се използват от обществото. НА данни публичните резюмета се съхраняват и управляват в склад за данни, въпреки че както беше споменато по-горе, те са измислени. Счетоводителите работят, за да изготвят такива на тримесечие данни като приходи, тримесечни разходи, тримесечна печалба и т.н. Работата, извършена от счетоводителите, е външна за склад за данни. Въпреки това, т.е. данни се използват „вътрешно“ в рамките на компанията – от маркетинг, продажби и др. Друга аномалия, която няма да бъде обсъждана, е тази на данни външен.

Друг страхотен вид данни които могат да бъдат намерени в a склад за данни е тази на постоянни подробни данни. Това води до необходимостта от постоянно съхраняване на i данни на подробно ниво по етични или правни причини. Ако една компания излага работниците си на опасни вещества, има нужда от това данни подробен и постоянен. Ако една компания произвежда продукт, който включва обществена безопасност, като например части от самолет, има нужда от данни постоянни подробности, както и дали фирмата сключва опасни договори.

Компанията не може да си позволи да пренебрегне подробностите, тъй като през следващите няколко години, в случай на съдебен процес, изземване, спорен строителен дефект и т.н. експозицията на компанията може да бъде голяма. Следователно има уникален тип данни известни като постоянни подробни данни.

РЕЗЮМЕ

Un склад за данни е обектно ориентиран, интегриран, времеви вариант, колекция от данни енергонезависима в подкрепа на нуждите на администрацията при вземане на решения. Всяка от основните функции на a склад за данни има своите последици. Освен това има четири нива на данни дел склад за данни:

Стар детайл
Актуална подробност
Давам леко обобщено
Давам силно обобщените метаданни също са важна част от склад за данни. РЕЗЮМЕ Концепцията за съхранението на данни напоследък получи много внимание и се превърна в тенденция на 90-те. Това се дължи на способността на склад за данни за преодоляване на ограниченията на системите за подпомагане на управлението като системи за подпомагане на вземането на решения (DSS) и информационни системи за изпълнителен директор (EIS). Въпреки че концепцията за склад за данни изглежда обещаващо, прилагайки i склад за данни може да бъде проблематично поради мащабни процеси на съхранение. Въпреки сложността на данни, много доставчици и консултанти, които складират данни твърдят, че съхранението на данни ток не включва проблеми. Въпреки това, в началото на този изследователски проект почти не бяха проведени независими, стриктни и систематични изследвания. Следователно е трудно да се каже какво всъщност се случва в индустрията, когато те се изграждат склад за данни. Това проучване изследва практиката за съхранение на данни съвременници, целящи да развият по-богато разбиране на австралийската практика. Анализът на литературата предостави контекста и основата за емпиричното изследване. Има редица резултати от това търсене. Първо, това проучване разкри дейностите, извършени по време на разработването на склад за данни. В много области, т.е. данни събраните потвърдиха практиката, докладвана в литературата. Второ, въпросите и проблемите, които могат да повлияят на развитието на склад за данни бяха идентифицирани от това проучване. И накрая, ползите, получени от австралийски организации, свързани с използването на склад за данни са разкрити.

Глава 1

Изследователски контекст

Концепцията за складиране на данни получи широко разпространение и се превърна в нововъзникваща тенденция през 90-те години (McFadden 1996, TDWI 1996, Shah and Milstein 1997, Shanks et al. 1997, Eckerson 1998, Adelman and Oates 2000). Това може да се види от нарастващия брой статии за съхранение на данни в търговски публикации (Little and Gibson 1999). Много статии (вижте например Fisher 1995, Hackathorn 1995, Morris 1995a, Bramblett and re 1996, Graham et al. 1996, Sakaguchi and Frolick 1996, Alvarez 1997, Brousell 1997, Clarke 1997, McCarthy 1997, O'Donnell 1997, Edwards 1998, TDWI 1999) съобщават за значителни ползи за организациите, прилагащи i склад за данни. Те подкрепиха своята теория с анекдотични доказателства за успешни внедрявания, висока възвръщаемост на инвестициите (ROI) и също така, като предоставиха насоки или методологии за разработване на склад за данни

(Shanks et al. 1997, Seddon и Benjamin 1998, Little и Gibson 1999). В краен случай Graham et al. (1996) съобщават за средна възвръщаемост на тригодишна инвестиция от 401%.

Голяма част от настоящата литература обаче пренебрегва сложността, свързана с предприемането на такива проекти. Проектите на склад за данни те обикновено са сложни и широкомащабни и следователно предполагат голяма вероятност от провал, ако не бъдат внимателно контролирани (Shah and Milstein 1997, Eckerson 1997, Foley 1997b, Zimmer 1997, Bort 1998, Gibbs and Clymer 1998, Rao 1998). Те изискват огромни количества човешки и финансови ресурси, както и време и усилия за изграждането им (Hill 1998, Crofts 1998). Типично необходимото време и финансови средства са приблизително две години и съответно два или три милиона долара (Braly 1995, Foley 1997b, Bort 1998, Humphries et al. 1999). Това време и финансови средства са необходими за контролиране и консолидиране на много различни аспекти на съхранението на данни (Cafasso 1995, Hill 1998). Освен съображенията за хардуер и софтуер, други функции, които варират от извличането на данни към процесите на зареждане на данни, от капацитета на паметта за управление на актуализации и от мета данни за обучение на потребители те трябва да бъдат взети предвид.

По време на този изследователски проект имаше много малко академични изследвания, проведени в областта на съхранението на данни, особено в Австралия. Това беше очевидно от недостига на статии, публикувани за съхранение на данни от вестници или други академични писания от онова време. Много от наличните академични трудове описват опита на САЩ. Липсата на академични изследвания в областта на съхранението на данни е причинила търсенето на строги изследвания и емпирични изследвания (McFadden 1996, Shanks et al. 1997, Little and Gibson 1999). По-специално, изследвания върху процеса на прилагане на склад за данни трябва да се направи, за да се разширят общите познания за прилагането на склад за данни и ще послужи като основа за бъдещо изследване (Shanks et al. 1997, Little and Gibson 1999).

Следователно целта на това проучване е да проучи какво всъщност се случва, когато организациите прилагат и използват i склад за данни в Австралия. По-конкретно, това проучване ще включва анализ на целия процес на развитие на a склад за данни, започвайки с иницииране и планиране през проектиране и внедряване и последващо използване в австралийските организации. В допълнение, проучването ще допринесе и за настоящата практика чрез идентифициране на области, в които практиката може да бъде допълнително подобрена и неефективността и рисковете могат да бъдат сведени до минимум или избегнати. В допълнение, той ще послужи като основа за други изследвания на склад за данни в Австралия и ще запълни празнината, която в момента съществува в литературата.

Изследователски въпроси

Целта на това изследване е да се проучат дейностите, свързани с изпълнението на склад за данни и използването им от австралийски организации. По-специално се изучават елементите, свързани с планирането на проекта, разработването, експлоатацията, използването и свързаните рискове. Така че въпросът на това изследване е:

„Как е настоящата практика на склад за данни в Австралия?"

За да се отговори ефективно на този въпрос, са необходими редица допълнителни изследователски въпроси. По-специално, три подвъпроса са идентифицирани от литературата, която е представена в глава 2, за насочване на този изследователски проект: Как са склад за данни от австралийски организации? Какви са възникналите проблеми?

Какви са предимствата?
В отговор на тези въпроси беше използван проучвателен изследователски дизайн, използващ запитване. Като проучвателно проучване, отговорите на горните въпроси не са пълни (Shanks et al. 1993, Denscombe 1998). В този случай е необходима триангулация, за да се подобрят отговорите на тези въпроси. Разследването обаче ще осигури солидна основа за бъдеща работа по разглеждане на тези въпроси. Подробно обсъждане на обосновката на изследователския метод и дизайн е представено в глава 3.

Структура на изследователския проект

Този изследователски проект е разделен на две части: контекстуално изследване на концепцията за съхранение на данни и емпирично изследване (вижте фигура 1.1), всяко от които е обсъдено по-долу.

Част I: Контекстуално проучване

Първата част от изследването се състоеше в преглед на текущата литература за различни видове складиране на данни, включително системи за подпомагане на вземането на решения (DSS), изпълнителни информационни системи (EIS), казуси от склад за данни и понятията за склад за данни. Освен това резултатите от foum sui склад за данни и групи за срещи за експерти и практици, ръководени от изследователската група на Monash DSS, допринесоха за тази фаза на проучването, която имаше за цел да получи информация за практиката на склад за данни и да се идентифицират рисковете, свързани с тяхното приемане. По време на този контекстуален период на изследване беше установено разбирането на проблемната област, за да се осигурят основни знания за последващи емпирични изследвания. Въпреки това, това е продължаващ процес по време на провеждането на изследването.

Част II: Емпирични изследвания

Сравнително новата концепция за съхранение на данни, особено в Австралия, създаде необходимостта от разследване, за да се получи широка картина на потребителското изживяване. Тази част беше направена, след като домейнът на проблема беше установен чрез обширен преглед на литературата. Концепцията за съхранение на данни, формирана по време на фазата на контекстуалното проучване, беше използвана като вход за първоначалния въпросник на това проучване. След това въпросникът беше прегледан. Вие сте експерти по склад за данни взе участие в теста. Целта на първоначалния тест на въпросника беше да се провери пълнотата и точността на въпросите. Въз основа на резултатите от теста, въпросникът беше модифициран и модифицираната версия беше изпратена на участниците в проучването. След това върнатите въпросници бяха анализирани за i данни в таблици, диаграми и други формати. НА

резултати от анализ на данни формират моментна снимка на практиката за съхранение на данни в Австралия.

ПРЕГЛЕД НА СЪХРАНЕНИЕТО НА ДАННИ

Концепцията за съхранение на данни се разви с подобренията в компютърните технологии.
Тя е насочена към преодоляване на проблемите, пред които са изправени групите за поддръжка на приложения като Система за подпомагане на вземането на решения (DSS) и Изпълнителна информационна система (EIS).

В миналото най-голямата пречка пред тези приложения беше неспособността им да предоставят a база данни необходими за анализ.
Това се дължи основно на естеството на работата на ръководството. Интересите на ръководството на фирмата варират постоянно в зависимост от обхвата на дейност. Следователно аз данни Основните за тези приложения трябва да могат да се променят бързо в зависимост от частта, която ще се третира.
Това означава, че i данни те трябва да са налични в подходящата форма за необходимите анализи. Всъщност групите за поддръжка на приложения срещнаха много трудности в миналото при събирането и интегрирането данни от сложни и разнообразни източници.

Останалата част от този раздел представя общ преглед на концепцията за съхранение на данни и обсъжда как склад за данни може да преодолее проблемите на групите за поддръжка на приложения.
Терминът „Склад за данниИздаден е от Уилям Инмон през 1990 г. Неговата често цитирана дефиниция е Склад за данни като колекция от данни субектно ориентирани, интегрирани, енергонезависими и променливи във времето, за подпомагане на управленските решения.

Използвайки тази дефиниция, Inmon посочва, че i данни живеещ в а склад за данни те трябва да притежават следните 4 характеристики:

▪ Ориентиран към предмета
▪ Интегриран
▪ Енергонезависим
▪ Променлив във времето По предметно ориентиран Inmon означава, че i данни в склад за данни в най-големите организационни области, които са били

дефинирани в модела данни. Например всички данни относно клиенти се съдържат в предметната област КЛИЕНТИ. По същия начин всички данни свързани с продуктите, се съдържат в предметната област ПРОДУКТИ.

Под Integrati Inmon означава, че i данни от различни платформи, системи и местоположения се комбинират и съхраняват на едно място. Вследствие на това данни подобни формати трябва да бъдат трансформирани в последователни формати, за да могат лесно да се добавят и сравняват.
Например, мъжкият и женският пол са представени с буквите M и F в една система и с 1 и 0 в друга. За да ги интегрирате правилно, единият или двата формата трябва да бъдат трансформирани, така че двата формата да са еднакви. В този случай можем да променим M на 1 и F на 0 или обратно. Предметно ориентирани и интегрирани показват, че склад за данни е проектиран да осигури функционален и напречен изглед на данни от компанията.

Нелетливи означава, че i данни в склад за данни останете последователни и актуализирайте данни не е необходимо. Вместо това всяка промяна в данни оригиналите се добавя към база данни дел склад за данни. Това означава, че историкът на данни се съдържа в склад за данни.

За променливи във времето Inmon показва, че i данни в склад за данни винаги съдържат маркери за време и i данни те обикновено пресичат определен времеви хоризонт. Например a
склад за данни може да съдържа 5 години исторически ценности на клиенти от 1993 до 1997 г. Наличието на историк и времева поредица от данни ви позволява да анализирате тенденциите.

Un склад за данни той може да събере своите данни от OLTP системи; от произхода данни външни за организацията и/или други специални проекти за система за улавяне данни.
I данни екстрактите могат да преминат през процес на почистване, в този случай i данни те се трансформират и интегрират, преди да бъдат съхранени в база данни дел склад за данни. Тогава аз данни

пребиваващи в база данни дел склад за данни са предоставени за достъп на крайния потребител и инструменти за възстановяване. Използвайки тези инструменти, крайният потребител може да получи достъп до интегрирания изглед на организацията на данни.

I данни пребиваващи в база данни дел склад за данни те се съхраняват както в подробен, така и в обобщен формат.
Нивото на обобщението може да зависи от естеството на данни. Аз данни подробно може да се състои от данни ток и данни историци
I данни реални не са включени в склад за данни докато аз данни в склад за данни са освежени.
В допълнение към съхранението на i данни себе си, а склад за данни може също да съхранява различен тип Дато наречени МЕТАДАННИ, описващи i данни пребиваващи в неговия база данни.
Има два типа метаданни: метаданни за разработка и метаданни за анализ.
Метаданните за разработка се използват за управление и автоматизиране на процесите на извличане, почистване, картографиране и зареждане на данни в склад за данни.
Информацията, съдържаща се в метаданните за разработка, може да съдържа подробности за операционните системи, подробности за елементите, които трябва да бъдат извлечени, модела данни дел склад за данни и бизнес правила за преобразуване на данни.

Вторият тип метаданни, известни като анализиращи метаданни, позволяват на крайния потребител да изследва съдържанието на склад за данни за да намерите данни налични и тяхното значение в ясни и нетехнически термини.

Следователно аналитичните метаданни функционират като мост между склад за данни и приложения за крайни потребители. Тези метаданни могат да съдържат бизнес модел, описания на данни съответстващи на бизнес модела, предварително дефинирани заявки и отчети, информация за потребителски достъп и индекс.

Метаданните за анализ и разработка трябва да бъдат комбинирани в единични интегрирани метаданни за ограничаване, за да функционират правилно.

За съжаление много от съществуващите инструменти имат свои собствени метаданни и в момента няма съществуващи стандарти за това

позволяват на инструментите за съхранение на данни да интегрират тези метаданни. За да поправят тази ситуация, много търговци на основните инструменти за съхранение на данни са създали Съвета за мета данни, който по-късно се превърна в Коалиция за мета данни.

Целта на тази коалиция е да изгради стандартен набор от метаданни, който позволява на различни инструменти за съхранение на данни да конвертират метаданните.
Техните усилия доведоха до раждането на спецификацията за обмен на мета данни (MDIS), която ще позволи обмена на информация между архивите на Microsoft и свързаните MDIS файлове.

Съществуването на данни както обобщени/индексирани, така и подробни дават на потребителя възможността да изпълни DRILL DROWN от данни индексирани към подробни и обратно. Съществуването на данни подробните истории позволяват реализирането на анализ на тенденциите във времето. В допълнение метаданните за анализиране могат да се използват като директория на база данни дел склад за данни за да помогне на крайните потребители да намерят i данни необходимо.

В сравнение с OLTP системите, с тяхната способност да поддържат анализ на данни и докладване, склад за данни тя се разглежда като по-подходяща система за информационни процеси като правене и отговаряне на запитвания и изготвяне на отчети. Следващият раздел ще подчертае подробно разликите между двете системи.

СКЛАД ЗА ДАННИ СРЕЩУ OLTP СИСТЕМИТЕ

Много от информационните системи в организациите са предназначени да поддържат ежедневните операции. Тези системи, известни като OLTP SYSTEMS, улавят непрекъснато актуализирани ежедневни транзакции.

I данни в тези системи те често се променят, добавят или изтриват. Например, адресът на клиент се променя, докато той се мести от едно място на друго. В този случай новият адрес ще бъде регистриран чрез промяна на адресното поле на база данни. Основната цел на тези системи е да намалят транзакционните разходи и в същото време да намалят времето за обработка. Примерите за OLTP системи включват критични действия като книги с поръчки, заплати, фактури, производство, AI услуги клиенти.

За разлика от OLTP системите, които са създадени за процеси, базирани на транзакции и събития, т.е склад за данни са създадени, за да поддържат базираните на анализ процеси на данни и върху процесите на вземане на решения.

Това обикновено се постига чрез интегриране на i данни от различни OLTP и външни системи в един „контейнер“ на данни, както беше обсъдено в предишния раздел.

Модел на процеса на съхранение на данни Monash

Моделът на процеса за склад за данни Monash е разработен от изследователи от Monash DSS Research Group и се основава на литературата на склад за данни, за опит в подкрепа на разработването на системни полета, за дискусии с доставчици на приложения за използване на склад за данни, на група експерти по използването на склад за данни.

Фазите са: Иницииране, Планиране, Развитие, Операции и Обяснения. Диаграмата обяснява итеративния или еволюционен характер на развитието на a склад за данни процес с помощта на двупосочни стрелки, поставени между различните фази. В този „итеративен“ и „еволюционен“ контекст те означават, че на всяка стъпка от процеса дейностите по внедряване винаги могат да се разпространяват назад към предходната фаза. Това се дължи на естеството на дизайна склад за данни в който допълнителни заявки от крайния потребител поемат по всяко време. Например, по време на фазата на развитие на a склад за данни, ново измерение или предметна област е поискано от крайния потребител, което не е било част от първоначалния план, това трябва да се добави към системата. Това води до промяна в дизайна. Резултатът е, че дизайнерският екип трябва да промени изискванията на документите, създадени до момента, по време на фазата на проектиране. В много случаи текущото състояние на проекта трябва да се върне към етапа на проектиране, където новата заявка трябва да бъде добавена и документирана. Крайният потребител трябва да може да види ревизираната конкретна документация и промените, направени във фазата на разработка. В края на този цикъл на разработка проектът трябва да получи отлична обратна връзка както от разработчиците, така и от потребителските екипи. След това обратната връзка се използва повторно за подобряване на бъдещ проект.

Планиране на капацитета
DW са склонни да бъдат много големи по размер и да растат много бързо (Best 1995, Rudin 1997a) поради количеството на данни историци, които запазват от живота си. Растежът може да бъде причинен и от данни добавки, поискани от потребителите за увеличаване на стойността данни че вече имат. Следователно изискванията за съхранение на данни могат да бъдат значително подобрени (Eckerson 1997). По този начин е от съществено значение да се гарантира, чрез планиране на капацитета, че системата, която ще бъде изградена, може да расте с нарастването на нуждите (Best 1995, LaPlante 1996, Lang 1997, Eckerson 1997, Rudin 1997a, Foley 1997a).
При планирането на мащабируемостта на dw трябва да се знае очакваното нарастване на размера на склада, видовете въпроси, които вероятно ще бъдат зададени, и броя на поддържаните крайни потребители (Best 1995, Rudin 1997b, Foley 1997a). Изграждането на мащабируеми приложения изисква комбинация от мащабируеми сървърни технологии и техники за проектиране на мащабируеми приложения (Best 1995, Rudin 1997b. И двете са необходими при изграждането на силно мащабируемо приложение. Мащабируемите сървърни технологии могат да направят лесно и рентабилно добавянето на памет, памет и процесор без влошаване на производителността (Lang 1997, Telephony 1997).

Има две основни мащабируеми сървърни технологии: симетрична множествена обработка (SMP) и масивна паралелна обработка (MPP)) (IDC 1997, Humphries et al. 1999). Един SMP сървър обикновено има множество процесори, които споделят памет, системна шина и други ресурси (IDC 1997, Humphries et al. 1999). Могат да се добавят допълнителни процесори, за да се увеличи мощност изчислителна. Друг метод за увеличаване на мощност изчисленията на SMP сървъра, е да комбинира множество SMP машини. Тази техника е известна като групиране (Humphries et al. 1999). Един MPP сървър, от друга страна, има множество процесори, всеки със собствена памет, шинна система и други ресурси (IDC 1997, Humphries et al. 1999). Всеки процесор се нарича възел. Увеличаване на мощност може да се постигне изчислително

добавяне на допълнителни възли към MPP сървъри (Humphries et al. 1999).

Слабост на SMP сървърите е, че твърде много входно-изходни (I/O) операции могат да претоварят шинната система (IDC 1997). Този проблем не възниква в MPP сървърите, тъй като всеки процесор има своя собствена шинна система. Взаимните връзки между всеки възел обаче обикновено са много по-бавни от SMP шинната система. В допълнение, MPP сървърите могат да добавят допълнително ниво на сложност към разработчиците на приложения (IDC 1997). По този начин изборът между SMP и MPP сървъри може да бъде повлиян от много фактори, включително сложността на приложенията, съотношението цена/производителност, необходимия капацитет за обработка, предотвратените приложения dw и увеличаването на размера на база данни на dw и в броя на крайните потребители.

При планирането на капацитета могат да се използват множество техники за проектиране на мащабируеми приложения. Човек използва различни периоди за уведомяване като дни, седмици, месеци и години. Имайки различни периоди на уведомяване, база данни тя може да бъде разделена на удобно групирани части (Inmon et al. 1997). Друга техника е използването на обобщени таблици, които са изградени чрез обобщаване данни da данни подробно. По този начин, т.е. данни резюметата са по-компактни, отколкото подробни, което изисква по-малко място в паметта. Така че данни детайлите могат да се съхраняват на по-евтино устройство за съхранение, което спестява още повече място за съхранение. Докато използването на обобщени таблици може да спести място в паметта, те изискват много усилия, за да ги поддържате актуални и в съответствие с търговските нужди. Въпреки това, тази техника е широко използвана и често се използва във връзка с предишната техника (Best 1995, Inmon 1996a, Chauduri and Dayal
1997).

Определяне Склад за данни Технически архитектури Дефиниция на техники за dw архитектура

Първоначалните привърженици на складирането на данни основно замислиха централизирано внедряване на dw, в което всички данни, включително i данни външни, бяха интегрирани в един,
физическо хранилище (Inmon 1996a, Bresnahan 1996, Peacock 1998).

Основното предимство на този подход е, че крайните потребители имат достъп до изгледа за цялото предприятие данни организационен (Ovum 1998). Друго предимство е, че предлага стандартизация на данни чрез организацията, което означава, че има само една версия или дефиниция за всяка терминология, използвана в метаданните за dw reposity (Flanagan and Safdie 1997, Ovum 1998). Недостатъкът на този подход, от друга страна, е, че е скъп и труден за конструиране (Flanagan and Safdie 1997, Ovum 1998, Inmon et al. 1998). Не след дълго архитектурата за съхранение данни централизираният стана популярен, концепцията за извличане на най-малките подмножества от богове се разви данни за поддържане на нуждите на специфични приложения (Varney 1996, IDC 1997, Berson and Smith 1997, peacock 1998). Тези малки системи произлизат от по-големите склад за данни централизиран. Те са наименувани склад за данни служители на отдел или зависими бордове за данни. Архитектурата на зависимия център за данни е известна като тристепенна архитектура, в която първият ред се състои от склад за данни централизиран, вторият се състои от депозитите на данни ведомствен и третият се състои от достъп до данни и инструменти за анализ (Demarest 1994, Inmon et al. 1997).

Мартите за данни обикновено се изграждат след склад за данни централизирана е изградена, за да отговори на нуждите на конкретни единици (White 1995, Varney 1996).
Маркери за данни съхраняват i данни свързани с определени единици (Inmon et al. 1997, Inmon et al. 1998, IA 1998).

Предимството на този метод е, че няма да има такъв Дато не е интегриран и че i данни ще бъдат по-малко излишни в рамките на витрините за данни, тъй като всички данни идват от депозит от данни интегриран. Друго предимство е, че ще има малко връзки между всяка база данни и нейните източници данни защото всеки витрина за данни има само един източник на данни. Плюс това, с тази архитектура на място, крайните потребители все още имат достъп до прегледа на данни

корпоративна организация. Този метод е известен като метод отгоре надолу, при който витрините с данни се изграждат след склад за данни (паун 1998, Гоф 1998).
Увеличавайки необходимостта от ранно показване на резултати, някои организации започнаха да изграждат независими борси за данни (Flanagan and Safdie 1997, White 2000). В този случай борсите за данни вземат своето данни директно от основите на данни OLTP, а не централизирано и интегрирано хранилище, като по този начин елиминира необходимостта от централно хранилище на място.

Всяка витрина за данни изисква поне една връзка към своите източници на данни. Недостатък на наличието на множество връзки за всяка витрина за данни е, че в сравнение с двете предишни архитектури, изобилието от данни се увеличава значително.

Всеки март с данни трябва да съхранява всички данни изисква се локално, за да няма ефект върху OLTP системите. Това причинява данни те се съхраняват в различни витрини за данни (Inmon et al. 1997). Друг недостатък на тази архитектура е, че тя води до създаването на сложни взаимовръзки между витрините за данни и техните източници на данни които са трудни за провеждане и контрол (Inmon et al. 1997).

Друг недостатък е, че крайните потребители нямат достъп до прегледа на корпоративната информация, тъй като i данни от различните данни не са интегрирани (Ovum 1998).
Още един недостатък е, че може да има повече от една дефиниция за всяка терминология, използвана в борсите за данни, което генерира несъответствия на данни в организацията (Ovum 1998).
Въпреки обсъдените по-горе недостатъци, независимите борси за данни все още привличат интереса на много организации (IDC 1997). Един фактор, който ги прави привлекателни е, че те се развиват по-бързо и изискват по-малко време и ресурси (Bresnahan 1996, Berson and Smith 1997, Ovum 1998). Следователно те служат главно като дизайни за доказателство на концепцията, които могат да се използват за бързо идентифициране на предимствата и/или недостатъците в дизайна (Parsaye 1995, Braly 1995, Newing 1996). В този случай частта, която трябва да бъде внедрена в пилотния проект, трябва да бъде малка, но важна за организацията (Newing 1996, Mansell-Lewis 1996).

Чрез изследване на прототипа крайните потребители и администрацията могат да решат дали да продължат или спрат проекта (Flanagan and Safdie 1997).
Ако решението е да продължи, витрините за данни за други сектори трябва да се изграждат един по един. Има две възможности за крайните потребители въз основа на техните нужди при изграждане на независими матрици за данни: интегрирани / обединени и неинтегрирани (Ovum 1998)

При първия метод всички нови витрини с данни трябва да бъдат изградени въз основа на текущите витрини с данни и модела данни използвани от фирмата (Varney 1996, Berson and Smith 1997, Peacock 1998). Необходимостта от използване на модела данни на фирмата се уверява, че има само една дефиниция за всяка терминология, използвана чрез витрини с данни, също така за да се увери, че различни витрини с данни могат да бъдат обединени, за да се даде преглед на корпоративната информация (Бреснахан 1996). Този метод се нарича отдолу нагоре и е най-добър, когато има ограничение на финансовите средства и времето (Flanagan and Safdie 1997, Ovum 1998, peacock 1998, Goff 1998). При втория метод изградените витрини за данни могат да задоволят нуждите само на конкретно звено. Вариант на обединения магазин за данни е склад за данни разпределени в които на база данни междинният софтуер на хъб сървъра се използва за обединяване на много витрини с данни в едно хранилище на данни разпространени (White 1995). В този случай, т.е данни компаниите са разпределени в няколко информационни бази. Заявките на крайните потребители се препращат към база данни сървър хъб мидълуер, който извлича всички данни изисква се от витрините за данни и връща резултатите на приложенията на крайния потребител. Този метод предоставя бизнес информация на крайните потребители. Проблемите на независимите борси за данни обаче все още не са елиминирани. Има друга архитектура, която може да се използва, която се нарича склад за данни виртуален (White 1995). Въпреки това, тази архитектура, която е описана на фигура 2.9, не е архитектура за съхранение на данни реален, тъй като не измества натоварването от OLTP системи към склад за данни (Демарест 1994).

Всъщност исканията за данни крайните потребители се предават на OLTP системи, които връщат резултати след обработка на потребителски заявки. Въпреки че тази архитектура позволява на крайните потребители да генерират отчети и да формулират заявки, тя не може да предостави

данни история и преглед на фирмената информация от i данни от различните OLTP системи не са интегрирани. Следователно тази архитектура не може да задоволи анализа на данни сложни като прогнози.

Избор на приложения за достъп и възстановяване данни

Целта на изграждането на a склад за данни е да предаде информация на крайните потребители (Inmon et al 1997, Poe 1996, McFadden 1996, Shanks et al 1997, Hammergren 1998); едно или повече приложения за достъп и възстановяване данни трябва да бъдат предоставени. Към днешна дата има голямо разнообразие от тези приложения, от които потребителят може да избира (Hammergren 1998, Humphries et al 1999). Избраните приложения определят успеха на усилията за съхранение данни в една организация, защото приложенията са най-видимата част от склад за данни до крайния потребител (Inmon et al 1997, Poe 1996). За да бъдете успешни а склад за данни, трябва да може да поддържа дейностите по анализ на данни краен потребител (Poe 1996, Seddon and Benjamin 1998, Eckerson 1999). По този начин трябва да се определи "нивото" на това, което крайният потребител иска (Poe 1996, Mattison 1996, Inmon et al 1997, Humphries et al 1999).

Като цяло, крайните потребители могат да бъдат групирани в три категории: изпълнителни потребители, бизнес анализатори и опитни потребители (Poe 1996, Humphries et al. 1999). Изпълнителните потребители се нуждаят от лесен достъп до предварително дефинирани набори от отчети (Humphries et al 1999). Тези отчети могат лесно да бъдат достигнати чрез навигация в менютата (Poe 1996). В допълнение, отчетите трябва да представят информация, използвайки графично представяне като таблици и шаблони, за да предадат информация бързо (Humphries et al 1999). Бизнес анализаторите, които може да нямат техническите възможности да развиват взаимоотношения от нулата сами, трябва да могат да променят съществуващите взаимоотношения, за да отговорят на техните специфични нужди (Poe 1996, Humphries et al. 1999). Опитните потребители, от друга страна, са типът крайни потребители, които имат способността да генерират и пишат заявки и отчети от нулата (Poe 1996, Humphries et al. 1999). Те са тези, които

разработване на отчети за други видове потребители (Poe 1996, Humphries et al 1999).

След като бъдат определени изискванията на крайния потребител, трябва да се направи избор на приложенията за достъп и извличане данни сред всички налични (Poe 1996, Inmon et al 1997).
Достъп до данни и инструментите за извличане могат да бъдат класифицирани в 4 типа: OLAP инструмент, EIS / DSS инструмент, инструмент за заявки и отчети и инструмент за извличане на данни.

OLAP инструментите позволяват на потребителите да създават ad hoc заявки, както и такива, направени на база данни дел склад за данни. Освен това тези продукти позволяват на потребителите да се ориентират от данни общи към подробни.

EIS / DSS инструментите предоставят изпълнителни доклади, като анализ „какво ако“ и достъп до доклади, базирани на менюта. Отчетите трябва да бъдат предварително дефинирани и обединени с менюта за по-лесна навигация.
Инструментите за заявки и отчети позволяват на потребителите да създават предварително дефинирани и специфични отчети.

Инструментите за извличане на данни се използват за идентифициране на връзки, които биха могли да хвърлят нова светлина върху забравени операции в данни на хранилището за данни.

Наред с оптимизирането на изискванията на всеки тип потребител, избраните инструменти трябва да бъдат интуитивни, ефективни и лесни за използване. Те също така трябва да са съвместими с други части на архитектурата и да могат да работят със съществуващи системи. Препоръчва се също да изберете инструменти за достъп и извличане на данни с разумни цени и характеристики. Други критерии, които трябва да се вземат предвид, включват ангажимента на доставчика на инструмента да поддържа техния продукт и развитието, което ще има в бъдещи версии. За да гарантира ангажираността на потребителите при използването на хранилището на данни, екипът за разработка включва потребителите в процеса на избор на инструмент. В този случай трябва да се извърши практическа оценка на потребителя.

За да повиши стойността на хранилището на данни, екипът за разработка може също да осигури уеб достъп до тяхното хранилище на данни. Уеб хранилище на данни позволява на потребителите достъп данни от отдалечени места или по време на пътуване. Също така информацията може

да се предоставят на по-ниски разходи чрез намаляване на разходите за обучение.

2.4.3 Склад за данни Фаза на експлоатация

Тази фаза се състои от три дейности: дефиниране на стратегии за опресняване на данни, контрол на дейностите в хранилището на данни и управление на сигурността на хранилището на данни.

Определяне на стратегии за опресняване на данни

След първоначалното качване, т.е. данни в база данни на хранилището за данни трябва периодично да се обновява, за да се възпроизведат промените, направени в данни оригинали. Следователно е необходимо да се реши кога да се опреснява, колко често трябва да се планира опресняването и как да се опреснява данни. Препоръчва се опресняване на данни когато системата може да бъде изведена офлайн. Честотата на опресняване се определя от екипа за разработка въз основа на изискванията на потребителя. Има два подхода за обновяване на хранилището на данни: пълно опресняване и непрекъснато зареждане на промените.

Първият подход, пълното опресняване, изисква презареждане на всички данни от нулата. Това означава, че всички данни необходимите трябва да бъдат извлечени, почистени, трансформирани и интегрирани във всяко опресняване. Този подход трябва да се избягва, доколкото е възможно, тъй като изисква много време и ресурси.

Алтернативен подход е непрекъснатото качване на промените. Това добавя i данни които са променени след последния цикъл на опресняване на хранилището на данни. Идентифицирането на нови или променени записи значително намалява количеството на данни които трябва да се разпространяват в хранилището на данни при всяка актуализация, тъй като само тези данни ще бъде добавен към база данни на хранилището за данни.

Има поне 5 подхода, които могат да се използват за изтегляне i данни нов или модифициран. За да получите ефективна стратегия за опресняване на данни комбинация от тези подходи, която улавя всички промени в системата, може да бъде полезна.

Първият подход, който използва времеви отпечатъци, предполага, че е присвоен на всички данни модифициран и актуализиран времеви печат, за да можете лесно да идентифицирате всички данни модифицирани и нови. Този подход обаче не е широко използван в повечето операционни системи днес.
Вторият подход е да се използва делта файл, генериран от приложение, което съдържа само промените, направени в данни. Използването на този файл също така усилва цикъла на актуализиране. Въпреки това, дори този метод не е бил използван в много приложения.
Третият подход е да се сканира лог файл, който основно съдържа информация, подобна на делта файла. Единствената разлика е, че се създава лог файл за процеса на възстановяване и може да бъде труден за разбиране.
Четвъртият подход е да се промени кодът на приложението. По-голямата част от кода на приложението обаче е стар и крехък; следователно тази техника трябва да се избягва.
Последният подход е да се сравни данни източници с основния файл на данни.

Контрол на дейностите по съхранение на данни

След като хранилището на данни бъде пуснато на потребителите, то трябва да бъде наблюдавано във времето. В този случай администраторът на хранилището на данни може да използва един или повече инструменти за управление и контрол, за да наблюдава използването на хранилището на данни. По-специално може да се събира информация за хората и времето, през което имат достъп до хранилището на данни. Хайде данни събрани, може да се създаде профил на извършената работа, който може да се използва като вход при изпълнението на сторнирането на плащане на потребителя. Обратното плащане позволява на потребителите да бъдат информирани за разходите за обработка на хранилището на данни.

Освен това контролът на хранилището на данни може също да се използва за идентифициране на типовете заявки, техния размер, брой заявки на ден, времена за реакция на заявките, достигнати сектори и количеството данни обработени. Друга цел на проверката на хранилището за данни е да се идентифицира данни които не се използват. Тези данни те могат да бъдат премахнати от хранилището за данни, за да се подобри времето

отговор на изпълнение на заявка и контролиране на растежа на данни които се намират в рамките на база данни на хранилището за данни.

Управление на сигурността на хранилището на данни

Хранилището за данни съдържа данни интегриран, критичен, чувствителен, който може да бъде достигнат лесно. Поради тази причина той трябва да бъде защитен от неоторизирани потребители. Един от начините за внедряване на сигурност е използването на функцията del СУБД за присвояване на различни привилегии на различни типове потребители. По този начин трябва да се поддържа профил за достъп за всеки тип потребител. Друг начин да защитите хранилището на данни е да го шифровате, както е написано в база данни на хранилището за данни. Достъп до данни и инструментите за извличане трябва да дешифрират данни преди да представи резултатите на потребителите.

2.4.4 Склад за данни Фаза на внедряване

Това е последната фаза от цикъла на внедряване на хранилище за данни. Дейностите, които трябва да бъдат извършени в тази фаза, включват обучение на потребителите да използват хранилището на данни и извършване на прегледи на хранилището на данни.

Обучение на потребителите

Обучението на потребителите трябва да се извърши преди достъп до данни на хранилището за данни и използването на инструменти за извличане. Като цяло сесиите трябва да започват с въведение в концепцията за съхранение на данни, към съдържанието на хранилището на данни, към мета данни и основните характеристики на инструментите. Тогава по-напредналите потребители биха могли също да изучават физическите таблици и характеристиките на потребителите на инструменти за достъп и извличане на данни.

Има много подходи за обучение на потребителите. Едно от тях включва подбор на много потребители или анализатори, избрани от група потребители въз основа на техните лидерски и комуникационни умения. Те се обучават в лично качество на всичко, което трябва да знаят, за да се запознаят със системата. След като обучението приключи, те се връщат към работата си и започват да учат другите потребители как да използват системата. На

въз основа на това, което са научили, другите потребители могат да започнат да изследват хранилището на данни.
Друг подход е да се обучават много потребители едновременно, сякаш се провежда курс в класната стая. Този метод е подходящ, когато има много потребители, които трябва да бъдат обучени едновременно. Още един метод е да обучавате всеки потребител поотделно, един по един. Този метод е подходящ, когато има малко потребители.

Целта на обучението на потребителите е да се запознаят с достъпа данни и инструментите за извличане, както и съдържанието на хранилището на данни. Въпреки това, някои потребители може да бъдат претоварени от количеството информация, предоставена по време на тренировъчната сесия. След това трябва да се направят редица опреснителни сесии за текущата поддръжка и да се отговори на конкретни въпроси. В някои случаи се създава група от потребители, които да предоставят този вид поддръжка.

Събиране на обратна връзка

След като складът за данни бъде пуснат, потребителите могат да използват i данни пребиваващи в хранилището на данни за различни цели. Главно анализаторите или потребителите използват данни в хранилището на данни за:

1 Идентифицирайте фирмените тенденции
2 Анализирайте профилите на покупки на клиенти
3 Разделете i клиенти и аз
4 Осигурете най-добрите услуги на клиенти - персонализирате услуги
5 Формулирайте стратегии маркетинг
6 Направете конкурентни оценки за анализ на разходите и помогнете за контрол
7 Подкрепете вземането на стратегически решения
8 Идентифицирайте възможностите, които да се появят
9 Подобрете качеството на текущите бизнес процеси
10 Проверете печалбата

Следвайки посоката на развитие на хранилището на данни, може да се извърши серия от ревизии на системата, за да се получи обратна връзка

както от екипа за разработка, така и от общността на крайните потребители.
Получените резултати могат да бъдат взети предвид за следващия цикъл на разработка.

Тъй като складът на данни използва постепенно нарастващ подход, от съществено значение е да се поучим от успехите и грешките на предишните разработки.

2.5 Резюме

В тази глава са обсъдени подходи, открити в литературата. Раздел 1 обсъди концепцията за хранилище на данни и неговата роля в науката за вземане на решения. Раздел 2 описва основните разлики между системите за съхранение на данни и OLTP. В раздел 3 обсъдихме модела на хранилище за данни на Monash, който беше използван в раздел 4, за да опишем дейностите, включени в процеса на разработка на хранилище за данни, тези тези не се основават на щателно изследване. Това, което се случва в действителност, може да бъде много различно от това, което се съобщава в литературата, но тези резултати могат да се използват за създаване на фон, който подчертава концепцията за хранилище на данни за това изследване.

Глава 3

Методи за изследване и проектиране

Тази глава се занимава с методите за изследване и дизайн за това изследване. Първата част показва общ изглед на наличните методи за търсене за извличане на информация и се обсъждат критериите за избор на най-добрия метод за конкретно изследване. В раздел 2 след това се обсъждат два метода, избрани с посочените по-горе критерии; един от тях ще бъде избран и приет с причините, посочени в раздел 3, където са изложени и причините за изключването на другия критерий. Раздел 4 представя изследователския проект, а раздел 5 заключенията.

3.1 Изследвания в информационните системи

Изследванията в областта на информационните системи не се ограничават само до технологията, но трябва да бъдат разширени, за да включат поведенчески и организационни цели.
Дължим това на тезите на различни дисциплини, вариращи от социалните до естествените науки; това води до необходимостта от определен спектър от изследователски методи, включващи количествени и качествени методи, които да се използват за информационните системи.
Всички налични изследователски методи са важни, всъщност няколко изследователи като Jenkins (1985), Nunamaker et al. (1991) и Galliers (1992) твърдят, че няма универсален специфичен метод за провеждане на изследвания в различните области на информационните системи; всъщност даден метод може да е подходящ за определено изследване, но не и за други. Това ни води до необходимостта да изберем метод, който е подходящ за нашия конкретен изследователски проект: за този избор Benbasat et al. (1987) заявяват, че естеството и целта на изследването трябва да се вземат предвид.

3.1.1 Същност на изследването

Различните базирани на природата методи на изследване могат да бъдат класифицирани в три широко известни традиции в информационните науки: позитивистки, интерпретативни и критични изследвания.

3.1.1.1 Позитивистки изследвания

Позитивисткото изследване е известно още като научно или емпирично изследване. Той се стреми да: „обясни и предвиди какво ще се случи в социалния свят, като разгледа закономерностите и причинно-следствените връзки между елементите, които го съставят“ (Shanks et al 1993).

Позитивистките изследвания също се характеризират с повторяемост, опростявания и опровержения. Освен това позитивистките изследвания допускат съществуването на априорни връзки между изследваните явления.
Според Galliers (1992) таксономията е изследователски метод, включен в позитивистката парадигма, която обаче не се ограничава до нея, всъщност има лабораторни експерименти, полеви експерименти, казуси, доказателства на теореми, прогнози и симулации. Използвайки тези методи, изследователите признават, че изследваните явления могат да бъдат наблюдавани обективно и стриктно.

3.1.1.2 Интерпретативни изследвания

Интерпретативното изследване, което често се нарича феноменология или антипозитивизъм, е описано от Нойман (1994) като „систематичен анализ на социалното значение на действието чрез пряко и подробно наблюдение на хора в естествени ситуации, за да се стигне до разбиране и тълкуването на това как хората създават и поддържат своя социален свят”. Интерпретативните изследвания отхвърлят предположението, че наблюдаваните явления могат да бъдат обективно наблюдавани. Всъщност те се основават на субективни интерпретации. Освен това интерпретативните изследователи не налагат априорни значения на феномените, които изучават.

Този метод включва субективни/аргументативни изследвания, изследователски действия, описателни/интерпретативни изследвания, бъдещи изследвания и ролеви игри. В допълнение към тези разследвания и казуси те могат да бъдат включени в този подход, тъй като се отнасят до проучванията на лица или организации в сложни ситуации от реалния свят.

3.1.1.3 Критично изследване

Критичните изследвания са най-малко познатият подход в социалните науки, но наскоро привлече вниманието на изследователи в областта на информационните системи. Философското предположение, че социалната реалност е исторически произведена и възпроизведена от хората, както и социалните системи с техните действия и взаимодействия. Тяхната способност обаче е опосредствана от редица социални, културни и политически съображения.

Освен интерпретативното изследване, критичното изследване твърди, че позитивисткото изследване няма нищо общо със социалния контекст и пренебрегва влиянието му върху човешките действия.
Критичните изследвания, от друга страна, критикуват интерпретативните изследвания, че са твърде субективни и защото нямат за цел да помогнат на хората да подобрят живота си. Най-голямата разлика между критичното изследване и другите два подхода е неговото оценъчно измерение. Докато обективността на позитивистките и интерпретативните традиции е да предскажат или обяснят статуквото или социалната реалност, критичното изследване има за цел критично да оцени и трансформира изследваната социална реалност.

Критичните изследователи обикновено се противопоставят на статуквото, за да премахнат социалните различия и да подобрят социалните условия. Критичните изследвания имат ангажимент към процесния поглед върху интересуващите ни явления и следователно обикновено са надлъжни. Примери за изследователски методи са дългосрочни исторически изследвания и етнографски изследвания. Критичните изследвания обаче не са били широко използвани в изследванията на информационните системи

3.1.2 Цел на изследването

Заедно с естеството на изследването, неговата цел може да се използва за насочване на изследователя при избора на конкретен изследователски метод. Целта на изследователския проект е тясно свързана с позицията на изследването по отношение на изследователския цикъл, който се състои от три фази: изграждане на теорията, проверка на теорията и усъвършенстване на теорията. По този начин, въз основа на момента по отношение на изследователския цикъл, изследователският проект може да има обяснителна, описателна, проучвателна или прогнозна цел.

3.1.2.1 Изследователски изследвания

Проучвателното изследване е насочено към изследване на напълно нова тема и формулиране на въпроси и хипотези за бъдещи изследвания. Този вид изследване се използва при изграждането на теорията за получаване на първоначални препратки в нова област. Обикновено се използват качествени изследователски методи, като казуси или феноменологични изследвания.

Въпреки това е възможно също да се използват количествени техники като проучвателни изследвания или експерименти.

3.1.3.3 Описателни изследвания

Описателното изследване е насочено към анализиране и описание в много подробности на конкретна ситуация или организационна практика. Това е подходящо за изграждане на теории и може да се използва и за потвърждаване или оспорване на хипотези. Описателното изследване обикновено включва използването на измервания и проби. Най-подходящите методи за изследване включват изследване и анализ на предшестващи събития.

3.1.2.3 Обяснителни изследвания

Обяснителните изследвания се опитват да обяснят защо нещата се случват. Тя се основава на вече проучени факти и се опитва да открие причините за тези факти.
Следователно обяснителните изследвания обикновено се изграждат върху проучвателни или описателни изследвания и са спомагателни, за да се тестват и усъвършенстват теориите. Обяснителните изследвания обикновено използват казуси или изследователски методи, базирани на запитване.

3.1.2.4 Превантивни изследвания

Превантивните изследвания имат за цел да предскажат наблюдаваните събития и поведения, които се изучават (Marshall and Rossman 1995). Прогнозата е стандартният научен тест за истина. Този тип изследване обикновено включва изследване или анализ на данни историци. (Ин 1989)

Горната дискусия показва, че има редица възможни изследователски методи, които могат да бъдат използвани в конкретно изследване. Трябва обаче да има един конкретен метод, който е по-подходящ от останалите за определен тип изследователски проект. (Galliers 1987, Yin 1989, De Vaus 1991). Следователно всеки изследовател трябва внимателно да оцени силните и слабите страни на различните методи, за да приеме най-подходящия и съвместим изследователски метод с изследователския проект. (Jenkins 1985, Pervan и Klass 1992, Bonomia 1985, Yin 1989, Himilton и Ives 1992).

3.2. Възможни методи за изследване

Целта на този проект беше да се проучи опитът в австралийските организации с i данни съхранявани с развитие на склад за данни. Dato че в момента липсват изследвания в областта на съхранението на данни в Австралия, този изследователски проект все още е в теоретичната фаза на изследователския цикъл и има проучвателна цел. Проучването на опита в австралийските организации, които приемат складиране на данни, изисква интерпретация на реалното общество. Следователно философското предположение, залегнало в изследователския проект, следва традиционното тълкуване.

След стриктно изследване на наличните методи бяха идентифицирани два възможни изследователски метода: анкети и казуси, които могат да се използват за проучвателни изследвания (Shanks et al. 1993). Galliers (1992) твърди, че пригодността на тези два метода за това конкретно изследване в неговата преработена таксономия казва, че те са подходящи за теоретична конструкция. Следващите два подраздела разглеждат подробно всеки метод.

3.2.1 Метод за изследване на разследването

Изследователският метод на проучване идва от древния метод на преброяване. Преброяването е за събиране на информация от цялото население. Този метод е скъп и непрактичен, особено ако населението е голямо. По този начин, в сравнение с преброяването, проучването обикновено се фокусира върху събирането на информация за малък брой или извадка от представители на населението (Fowler 1988, Neuman 1994). Извадката отразява съвкупността, от която е съставена, с различни нива на точност, според структурата на извадката, размера и използвания метод за подбор (Fowler 1988, Babbie 1982, Neuman 1994).

Методът на изследването се дефинира като „моментни снимки на практики, ситуации или възгледи в определен момент от време, направени с помощта на въпросници или интервюта, от които могат да се направят изводи.
направено ”(Galliers 1992: 153) [моментна снимка на практики, ситуации или възгледи в определен момент от време, направена с помощта на въпросници или интервюта, от които могат да се направят изводи]. Проучванията се занимават със събиране на информация за определени аспекти на изследването от определен брой участници чрез задаване на въпроси (Fowler 1988). Тези въпросници и интервюта, които включват телефонни интервюта лице в лице и структурирани интервюта, също са техниките за събиране на данни най-често използвани в разследвания (Blalock 1970, Nachmias and Nachmias 1976, Fowler 1988), могат да се използват наблюдения и анализи (Gable 1994). От всички тези методи за събиране на данни, използването на въпросника е най-популярната техника, тъй като гарантира, че i данни

събраните са структурирани и форматирани и следователно улесняват класифицирането на информация (Hwang 1987, de Vaus 1991).

При анализа на данни, стратегията за проучване често използва количествени техники, като например статистически анализ, но могат да се използват и качествени техники (Galliers 1992, Pervan

и Klass 1992, Gable 1994). Обикновено, т.е. данни събраните се използват за анализ на разпределенията и моделите на асоциациите (Fowler 1988).

Въпреки че анкетите обикновено са подходящи за изследване, занимаващо се с въпроса „какво?“ (какво) или произтичащи от него, като например „колко“ (колко) и „квант“ (колко), те могат да бъдат зададени чрез въпроса „защо“ (Sonquist and Dunkelberg 1977, Yin 1989). Според Sonquist и Dunkelberg (1977), изследването насочва към трудни хипотези, програми за оценка, описващи населението и разработване на модели на човешко поведение. Освен това, проучванията могат да се използват за изследване на определено мнение на населението, условия, мнения, характеристики, очаквания и дори минали или настоящи поведения (Neuman 1994).

Изследванията позволяват на изследователя да открие връзките между населението и резултатите обикновено са по-общи от други методи (Sonquist and Dunkelberg 1977, Gable 1994). Проучванията позволяват на изследователите да обхванат по-широк географски район и да достигнат до голям брой респонденти (Blalock 1970, Sonquist и Dunkelberg 1977, Hwang и Lin 1987, Gable 1994, Neuman 1994). И накрая, проучванията могат да предоставят информация, която не е достъпна другаде или във формата, необходима за анализ (Fowler 1988).

Съществуват обаче някои ограничения при провеждането на разследване. Недостатък е, че изследователят не може да получи много информация за обекта, който се изучава. Това се дължи на факта, че проучванията се извършват само в определено време и следователно има ограничен брой променливи и хора, които изследователят може

да учат (Yin 1989, de Vaus 1991, Gable 1994, Denscombe 1998). Друг недостатък е, че провеждането на разследване може да бъде много скъпо от гледна точка на време и ресурси, особено ако включва интервюта лице в лице (Fowler 1988).

3.2.2. Метод за изследване на разследването

Методът на проучване включва задълбочено изследване на конкретна ситуация в нейния реален контекст за определен период от време, без намеса от страна на изследователя (Shanks & C. 1993, Eisenhardt 1989, Jenkins 1985). Основно този метод се използва за описание на връзките между променливите, които се изучават в конкретна ситуация (Galliers 1992). Разследванията могат да включват единични или множество случаи, в зависимост от анализирания феномен (Franz and Robey 1987, Eisenhardt 1989, Yin 1989).

Методът на проучването се дефинира като „емпирично проучване, което изучава съвременен феномен в неговия реален контекст, използвайки множество източници, събрани от един или повече обекти като хора, групи или организации“ (Yin 1989). Няма ясно разделение между феномена и неговия контекст и няма експериментален контрол или манипулиране на променливите (Yin 1989, Benbasat et al 1987).

Съществуват разнообразни техники за събиране на данни които могат да се използват в метода на анкетата, който включва преки наблюдения, прегледи на досиетата, въпросници, преглед на документацията и структурирани интервюта. Разполага с разнообразна гама от техники за събиране данни, разследванията позволяват на изследователите да се справят и с двете данни качествен и количествен едновременно (Bonoma 1985, Eisenhardt 1989, Yin 1989, Gable 1994). Както е в случая с метода на проучването, разследващият изследовател действа като наблюдател или изследовател, а не като активен участник в организацията, която се изследва.

Бенбасат и др. (1987) твърдят, че методът на проучване е особено подходящ за изграждане на изследователска теория, която започва с изследователски въпрос и продължава с обучение.

на теория по време на процеса на събиране данни. Подходящ и за сцената

на изграждането на теория, Франц и Роби (1987) предполагат, че методът на проучването може да се използва и за етапа на сложната теория. В този случай въз основа на събраните доказателства се проверява или опровергава дадена теория или хипотеза. В допълнение, запитването е подходящо и за изследвания, които се занимават с въпросите „как“ или „защо“ (Yin 1989).

В сравнение с други методи, проучванията позволяват на изследователя да улови съществена информация по-подробно (Galliers 1992, Shanks et al. 1993). Освен това, изследванията позволяват на изследователя да разбере природата и сложността на изследваните процеси (Benbasat et al 1987).

Има четири основни недостатъка, свързани с метода на изследване. Първият е липсата на контролирани удръжки. Субективността на изследователя може да промени резултатите и заключенията от изследването (Yin 1989). Вторият недостатък е липсата на контролирано наблюдение. За разлика от експерименталните методи, изследователят не може да контролира изследваните явления, тъй като те се изследват в техния естествен контекст (Gable 1994). Третият недостатък е липсата на възпроизводимост. Това се дължи на факта, че е малко вероятно изследователят да наблюдава едни и същи събития и не може да провери резултатите от конкретно изследване (Lee 1989). И накрая, като следствие от невъзможността за повторение, е трудно да се обобщят резултатите, получени от едно или повече проучвания (Galliers 1992, Shanks et al. 1993). Всички тези проблеми обаче не са непреодолими и всъщност могат да бъдат минимизирани от изследователя чрез прилагане на подходящи действия (Lee 1989).

3.3. Обосновете методологията на изследването приета

От двата възможни метода на изследване за това изследване, методът на проучването се счита за най-подходящ. Изследователският беше отхвърлен след внимателно разглеждане на относителните

достойнства и слабости. Удобството или неподходящостта на всеки метод за това изследване е обсъдено по-долу.

3.3.1. Неподходящ метод за изследване на запитване

Методът на проучването изисква задълбочено проучване на конкретна ситуация в една или повече организации за определен период от време (Eisenhardt 1989). В този случай периодът може да надхвърли времевата рамка, дадена за това изследване. Друга причина да не се възприеме методът на проучване е, че резултатите могат да страдат от липса на строгост (Yin 1989). Субективността на изследователя може да повлияе на резултатите и заключенията. Друга причина е, че този метод е по-подходящ за изследване на въпроси от типа „как“ или „защо“ (Yin 1989), докато изследователският въпрос за това изследване е от типа „какво“. Не на последно място, трудно е да се обобщят резултатите само от едно или няколко проучвания (Galliers 1992, Shanks et al 1993). Въз основа на тази обосновка, методът на проучването не беше избран, тъй като беше неподходящ за това проучване.

3.3.2. Удобство на метода на изследване разследване

По времето, когато е проведено това изследване, практиката за съхранение на данни не е била широко възприета от австралийските организации. По този начин нямаше много информация относно тяхното прилагане в австралийските организации. Наличната информация идва от организации, които са внедрили или използвали a склад за данни. В този случай методът на търсене на разследване е най-подходящ, тъй като позволява да се получи информация, която не е достъпна другаде или във формата, необходима за анализ (Fowler 1988). В допълнение, изследователският метод на запитване позволява на изследователя да получи добра представа за практиките, ситуациите или възгледите в даден момент (Galliers 1992, Denscombe 1998). Необходим е преглед, за да се повишат знанията за австралийския опит със складиране на данни.

Освен това, Sonquist и Dunkelberg (1977) заявяват, че резултатите от проучването са по-общи от другите методи.

3.4. Проучване проучване дизайн

Проучването относно практиката за съхранение на данни е проведено през 1999 г. Целевата група се състои от австралийски организации, които се интересуват от проучвания за съхранение на данни, тъй като те вероятно вече са били информирани за данни които съхраняват и следователно биха могли да предоставят полезна информация за това изследване. Целевата популация беше идентифицирана с първоначално проучване на всички австралийски членове на „Института за съхранение на данни“ (Tdwi-aap). Този раздел обсъжда дизайна на фазата на емпирично изследване на това изследване.

3.4.1. Техника на събиране на данни

От трите техники, които обикновено се използват в проучването (т.е. въпросник по пощата, телефонно интервю и лично интервю) (Nachmias 1976, Fowler 1988, de Vaus 1991), въпросникът по пощата беше приет за това проучване. Първата причина за приемането на последното е, че може да достигне до географски разпръснато население (Blalock 1970, Nachmias и Nachmias 1976, Hwang и Lin 1987, de Vaus 1991, Gable 1994). Второ, въпросникът за изпращане по пощата е подходящ за високообразовани участници (Fowler 1988). Въпросникът за изпращане по пощата за това проучване беше адресиран до спонсорите, директорите и/или ръководителите на проекта за съхранение на данни. Трето, въпросниците за изпращане по пощата са подходящи, когато е наличен сигурен списък с адреси (Salant and Dilman 1994). TDWI, в този случай, доверена асоциация за съхранение на данни предостави пощенския списък на своите австралийски членове. Друго предимство на въпросника по пощата пред въпросника по телефона или личните интервюта е, че той позволява на регистрантите да отговарят по-точно, особено когато регистрантите трябва да се консултират с записи или да обсъдят въпроси с други хора (Fowler 1988).

Потенциален недостатък може да бъде времето, необходимо за изпращане на въпросници по пощата. Обикновено въпросникът по пощата се провежда в следната последователност: изпращане на писма, чакане на отговори и изпращане на потвърждение (Fowler 1988, Bainbridge 1989). Следователно общото време може да бъде по-дълго от времето, необходимо за лични или телефонни интервюта. Общото време обаче може да бъде известно предварително (Fowler 1988, Denscombe 1998). Времето, прекарано в провеждане на лични интервюта, не може да бъде известно предварително, тъй като варира от интервю до интервю (Fowler 1988). Телефонните интервюта могат да бъдат по-бързи от изпращането на въпросници по пощата и личните интервюта, но могат да имат висок процент на липса на отговор поради недостъпността на някои хора (Fowler 1988). В допълнение, телефонните интервюта обикновено са ограничени до относително кратък списък с въпроси (Bainbridge 1989).

Друга слабост на въпросника по пощата е високият процент на липса на отговор (Fowler 1988, Bainbridge 1989, Neuman 1994). Въпреки това са предприети контрамерки чрез свързване на това проучване с доверена институция в областта на съхранението на данни (т.е. TDWI) (Bainbridge 1989, Neuman 1994), която изпраща две напомнящи писма на неотговорилите (Fowler 1988, Neuman 1994) и също включва допълнително писмо, обясняващо целта на изследването (Neuman 1994).

3.4.2. Единица за анализ

Целта на това проучване е да получи информация за внедряването на съхранение на данни и използването му в австралийски организации. Целевата група се състои от всички австралийски организации, които са внедрили или прилагат, т.е склад за данни. Впоследствие се регистрират отделните организации. Въпросникът беше изпратен по пощата до организации, които се интересуват от осиновяване склад за данни. Този метод гарантира, че събраната информация идва от най-подходящите ресурси на всяка участваща организация.

3.4.3. Проба от анкетата

Пощенският списък на респондентите в проучването е получен от TDWI. От този списък 3000 австралийски организации бяха избрани като основа за извадка. До извадката бяха изпратени допълнително писмо, обясняващо дизайна и целта на проучването, заедно с лист с отговори и предварително платен плик за връщане на попълнения въпросник. От 3000 организации 198 се съгласиха да участват в проучването. Такъв малък брой отговори се очакваше Дато големият брой австралийски организации, които тогава са възприели или възприемат стратегия за съхранение на данни в своите организации. По този начин целевата група за това проучване се състои само от 198 организации.

3.4.4. Съдържание на въпросника

Структурата на въпросника се основава на модела за съхранение на данни на Monash (обсъден по-рано в част 2.3). Съдържанието на въпросника се основава на прегледа на литературата, представен в Глава 2. Копие от въпросника, изпратен до участниците в проучването, може да се намери в Приложение Б. Въпросникът се състои от шест раздела, които следват стъпките на модела, който се третира. Следващите шест параграфа накратко обобщават съдържанието на всеки раздел.

Раздел А: Основна информация за организацията
Този раздел съдържа въпроси, свързани с профила на участващите организации. Освен това някои от въпросите са свързани със състоянието на проекта за съхранение на данни на участника. Поверителна информация като името на организацията не беше разкрита в анализа на проучването.

Раздел Б: Старт
Въпросите в този раздел са свързани със стартиращия бизнес за съхранение на данни. Бяха зададени въпроси относно инициаторите на проекта, спонсорите, необходимите умения и знания, целите на разработването на хранилища за данни и очакванията на крайния потребител.

Раздел В: Дизайн
Този раздел съдържа въпроси, свързани с дейностите по планиране на склад за данни. По-специално, въпросите бяха относно обхвата на изпълнение, продължителността на проекта, цената на проекта и анализа на разходите и ползите.

Раздел Г: Развитие
В раздела за разработка има въпроси, свързани с развойната дейност на склад за данни: колекция от изисквания на крайния потребител, източници на данни, логическият модел на данни, прототипи, планиране на капацитета, технически архитектури и избор на инструменти за разработка на хранилище на данни.

Раздел Д: Операция
Операционни въпроси, свързани с работата и разширяемостта на склад за данни, тъй като се развива в следващия етап на развитие. Там качество на данните, стратегиите за опресняване на данни, детайлността на данни, мащабируемост на склад за данни и проблемите със сигурността на склад за данни бяха сред видовете зададени въпроси.

Раздел Е: Развитие
Този раздел съдържа въпроси, свързани с използването на склад за данни от крайни потребители. Изследователят се интересува от целта и полезността на склад за данни, приетите стратегии за преглед и обучение и стратегията за контрол на склад за данни приета.

3.4.5. Степен на отговор

Въпреки че пощенските запитвания са критикувани за нисък процент на отговор, са предприети стъпки за увеличаване на процента на възвръщаемост (както беше обсъдено по-рано в раздел 3.4.1). Терминът „степен на отговор“ се отнася до процента на хората в конкретна извадка от проучването, които отговарят на въпросника (Denscombe 1998). Следната формула беше използвана за изчисляване на степента на отговор за това проучване:

Брой хора, които са отговорили
Процент на отговори = ——————————————————————————— X 100 Общ брой изпратени въпросници

3.4.6. Пилотен тест

Преди въпросникът да бъде изпратен на извадката, въпросите бяха изследвани чрез провеждане на пилотни тестове, както беше предложено от Luck и Rubin (1987), Jackson (1988) и de Vaus (1991). Целта на пилотните тестове е да разкрият всички неудобни, двусмислени изрази и трудни за тълкуване въпроси, да изяснят всички използвани дефиниции и термини и да идентифицират приблизителното време, необходимо за попълване на въпросника (Warwick и Lininger 1975, Jackson 1988, Salant и Дилман 1994). Пилотните тестове бяха проведени чрез избиране на субекти с характеристики, подобни на тези на крайните субекти, както беше предложено от Davis e Козенца (1993). В това проучване шест специалисти по съхранение на данни бяха избрани като пилотни субекти. След всеки пилотен тест бяха направени необходимите корекции. От проведените пилотни тестове участниците допринесоха за преработването и нулирането на окончателната версия на въпросника.

3.4.7. Методи за анализ Di Давам

I данни Проучванията, събрани от въпросници със затворен въпрос, бяха анализирани с помощта на статистически програмен пакет, наречен SPSS. Много от отговорите бяха анализирани с помощта на описателна статистика. Редица въпросници се върнаха непълни. Те са третирани по-внимателно, за да се гарантира, че i данни липсващите не са следствие от грешки при въвеждане на данни, а защото въпросите не са подходящи за регистранта или регистрантът е решил да не отговори на един или повече конкретни въпроси. Тези липсващи отговори бяха игнорирани по време на анализа на данни и са кодирани като „- 9“, за да се гарантира тяхното изключване от процеса на анализ.

При изготвянето на въпросника затворените въпроси бяха предварително кодирани чрез присвояване на номер на всяка опция. След това числото беше използвано за подготовка на данни по време на анализа (Denscombe 1998, Sapsford and Jupp 1996). Например имаше шест опции, изброени във въпрос 1 на раздел Б: борд на директорите, висш изпълнителен директор, ИТ отдел, бизнес звено, консултанти и др. В досието на данни на SPSS, беше генерирана променлива, за да посочи „инициатор на проект“ с шест етикета на стойност: „1“ за „борд на директорите“, „2“ за „изпълнител на високо ниво“ и така нататък Street. Използването на скалата на Likertin в някои от затворените въпроси също позволи лесно идентифициране, предвид използването на съответните цифрови стойности, въведени в SPSS. За въпроси с неизчерпателни отговори, които не са взаимно изключващи се, всяка опция се третира като отделна променлива с два етикета на стойност: „1“ за „маркирано“ и „2“ за „немаркирано“.

Отворените въпроси бяха третирани по различен начин от затворените. Отговорите на тези въпроси не са въведени в SPSS. Напротив, анализирани са на ръка. Използването на този тип въпроси позволява да се получи информация за свободно изразените идеи и личния опит на регистрантите (Bainbridge 1989, Denscombe 1998). Където беше възможно, беше направена категоризация на отговорите.

За анализ на данни, се използват методи за прост статистически анализ, като честотата на отговорите, средната стойност, стандартното отклонение и медианата (Argyrous 1996, Denscombe 1998).
Гама тестът е ефективен за получаване на количествени мерки за асоциациите между данни ординали (Norusis 1983, Argyrous 1996). Тези тестове бяха подходящи, тъй като използваните ординални скали нямаха много категории и можеха да бъдат показани в таблица (Norusis 1983).

3.5 Резюме

В тази глава бяха обсъдени изследователската методология и дизайн, приети за това проучване.

Изборът на най-подходящия изследователски метод за конкретно изследване изисква
разглеждане на редица правила, включително естеството и вида на изследването, както и предимствата и слабостите на всеки възможен метод (Jenkins 1985, Benbasat et al. 1097, Galliers and Land 1987, yin 1989, Hamilton and ives 1992, Galliers 1992, Нойман 1994). Като се има предвид липсата на съществуващи знания и теория относно приемането на съхранение на данни в Австралия, това изследване изисква интерпретативен изследователски метод с проучвателна способност за изследване на опита на австралийските организации. Избраният метод на изследване беше избран за събиране на информация относно възприемането на концепцията за съхранение на данни от австралийски организации. Като техника за събиране беше избран пощенски въпросник данни. Обосновките на метода на изследване и техниката на събиране данни избраните ще бъдат предоставени в тази глава. Освен това беше представена дискусия относно единицата за анализ, използваната извадка, процентите на отговорите, съдържанието на въпросника, предварителния тест на въпросника и метода на анализ на данни.

Проектиране на a Склад за данни:

Комбиниране на взаимоотношения между субекти и моделиране на измерения

Резюме
Съхранявайте i данни това е основен настоящ проблем за много организации. Ключов проблем в развитието на съхранението на данни това е неговият дизайн.
Дизайнът трябва да поддържа откриването на концепции в склад за данни наследена система и други източници на данни както и лесно разбиране и ефективност при прилагането на склад за данни.
Голяма част от литературата за съхранение данни препоръчва използването на моделиране на взаимоотношения между обекти или моделиране на измерения за представяне на дизайна на склад за данни.
В това списание ние показваме как и двете представяния могат да бъдат комбинирани в един дизайнерски подход склад за данни. Използваният подход е систематичен

разгледан в казус и е идентифициран в редица важни последици с професионалисти.

СЪХРАНЕНИЕ НА ДАННИ

Un склад за данни обикновено се определя като "предметно ориентирано, интегрирано, променящо се във времето и енергонезависимо събиране на данни в подкрепа на решенията на ръководството" (Inmon and Hackathorn, 1994). Предметно ориентиран и интегриран показва, че склад за данни е проектиран да пресича функционалните граници на legaci системите, за да предложи интегрирана перспектива за данни.
Вариантът на времето засяга историческия или времевия ред на данни в ун склад за данни, което позволява да се анализират тенденциите. Енергонезависим показва, че склад за данни не се актуализира непрекъснато като a база данни на OLTP. По-скоро се актуализира периодично, с данни от вътрешни и външни източници. The склад за данни той е специално проектиран за търсене, а не за актуализиране на целостта и ефективността на операциите.
Идеята за съхранение на i данни не е ново, това е една от целите на управлението на данни от 1982-те години (Il Martin, XNUMX).
I склад за данни те предлагат инфраструктурата данни за системи за поддръжка на управлението. Системите за подпомагане на управлението включват системи за подпомагане на вземането на решения (DSS) и изпълнителни информационни системи (EIS). DSS е компютърно базирана информационна система, която е предназначена да подобри процеса на вземане на решения от човека. EIS обикновено е система за доставка на данни което позволява на бизнес ръководителите да имат лесен достъп до изгледа на данни.
Общата архитектура на a склад за данни подчертава ролята на склад за данни в подкрепа на управлението. В допълнение към предлагането на инфраструктурата данни за EIS и DSS, ал склад за данни може да бъде достъпен директно чрез заявки. THE данни включен в a склад за данни се основават на анализ на изискванията за информация за управление и се получават от три източника: вътрешни наследени системи, системи за събиране на данни със специално предназначение и външни източници на данни. THE данни във вътрешни наследени системи те често са излишни, непоследователни, с ниско качество и се съхраняват в различни формати, така че трябва да бъдат съгласувани и изчистени, преди да могат да бъдат заредени в

склад за данни (Inmon, 1992; McFadden, 1996). НА данни идващи от системи за съхранение данни ad hoc и от източници данни външните се изразходват, използвани за увеличаване (актуализиране, замяна) i данни от наследени системи.

Има много убедителни причини да се развие a склад за данни, които включват подобрено вземане на решения чрез ефективно използване на повече информация (Ives 1995), подкрепа за фокусиране върху цели сделки (Graham 1996) и намаляване на данни за EIS и DSS (Graham 1996, McFadden 1996).

Скорошно емпирично проучване установи средна възвръщаемост на инвестицията за склад за данни с 401% след три години (Graham, 1996). Въпреки това, другите емпирични изследвания на склад за данни откри значителни проблеми, включително трудности при измерване и присвояване на ползите, липса на ясна цел, подценяване на целта и сложността на процеса на съхраняване на ползите данни, по-специално по отношение на източниците и чистотата на данни. Съхраняване на i данни може да се разглежда като решение на управленския проблем данни между организациите. Манипулацията на данни като социален ресурс той остава един от ключовите проблеми при управлението на информационните системи по света в продължение на много години (Brancheau et al. 1996, Galliers et al. 1994, Niederman et al. 1990, Pervan 1993).

Популярен подход за управление данни през осемдесетте години беше разработването на модел данни социална. Модел данни social е проектиран да предложи стабилна основа за разработването на нови системи за приложения и база данни и реконструкция и интеграция на наследени системи (Brancheau et al.

1989, Goodhue et al. 1988:1992, Ким и Еверест 1994). Въпреки това има много проблеми с този подход, по-специално сложността и цената на всяка задача и дългото време, необходимо за получаване на осезаеми резултати (Beynon-Davies 1994, Earl 1993, Goodhue et al. 1992, Periasamy 1994, Shanks 1997 ).

Il склад за данни това е отделна база данни, която съществува успоредно с наследените бази данни, вместо да ги замества. Следователно ви позволява да насочвате управлението на данни и избягване на скъпоструваща реконструкция на наследени системи.

СЪЩЕСТВУВАЩИ ПОДХОДИ ЗА ЧЕРТЕЖ НА ДАТАТА

СКЛАД

Процесът на изграждане и усъвършенстване a склад за данни трябва да се разбира повече като еволюционен процес, а не като жизнен цикъл на развитие на традиционните системи (Дезио, 1995, Shanks, O'Donnell и Arnott 1997a ). Има много процеси, включени в един проект склад за данни като инициализация, планиране; информация, получена от изискванията, поставени от мениджърите на компанията; източници, трансформации, почистване на данни и синхронизация от наследени системи и други източници данни; системи за доставка в процес на разработка; мониторинг на склад за данни; и безсмисленост на еволюционния процес и изграждане на а склад за данни (Стинчи, О'Донъл и Арнот 1997b). В това списание се фокусираме върху това как да нарисувате данни съхранявани в контекста на тези други процеси. Има редица предложени подходи към архитектурата склад за данни в литературата (Inmon 1994, Ives 1995, Kimball 1994 McFadden 1996). Всяка от тези методики има кратък преглед с анализ на техните силни и слаби страни.

Подходът на Inmon (1994) за Склад за данни Дизайн

Inmon (1994) предлага четири итеративни стъпки за проектиране на a склад за данни (вижте Фигура 2). Първата стъпка е да проектирате шаблон данни социални, за да разберем как аз данни могат да бъдат интегрирани във функционални области в рамките на една организация чрез разделяне на данни съхранявайте в зони. Модел данни направен е за съхранение данни свързани с вземането на решения, включително данни исторически и включени данни изведени и обобщени. Втората стъпка е да се идентифицират предметните области за изпълнение. Те се основават на приоритети, определени от конкретна организация. Третата стъпка включва рисуване на a база данни за предметната област обърнете особено внимание на включването на подходящи нива на детайлност. Inmon препоръчва използването на модела на обекти и взаимоотношения. Четвъртата стъпка е да се идентифицират изходните системи данни необходими и разработване на процеси на трансформация за улавяне, почистване и форматиране i данни.

Силните страни на подхода на Inmon са в това, че моделът данни социални предлага основа за интеграция на данни в рамките на организацията и планирането на подкрепа за итеративното развитие на склад за данни. Недостатъците му са трудността и цената при проектирането на модела данни социални, трудността при разбирането на модели на обекти и връзки, използвани в двата модела, това данни социална и тази на данни съхранявани по предметната област и целесъобразността на данни на чертежа на склад за данни за реализацията на база данни релационни, но не и за база данни многоизмерна.

Подходът на Айвс (1995) към Склад за данни Дизайн

Ives (1995) предлага подход в четири стъпки за проектиране на информационна система, който според него е приложим за проектирането на склад за данни (вижте Фигура 3). Подходът се основава до голяма степен на информационното инженерство за разработване на информационни системи (Мартин 1990). Първата стъпка е да се определят целите, критичните фактори и факторите за успех и ключовите показатели за ефективност. Ключовите бизнес процеси и необходимата информация се моделират, за да ни доведат до модел данни социални. Втората стъпка включва разработване на дефинираща архитектура данни съхранявани по области, база данни di склад за данни, технологичните компоненти, които са необходими, наборът от организационна подкрепа, необходима за внедряване и работа с тях склад за данни. Третата стъпка включва избор на необходимите софтуерни пакети и инструменти. Четвъртата стъпка е детайлното проектиране и изграждане на склад за данни. Айвс отбелязва, че за съхранение данни това е ограничен итеративен процес.

Силата на подхода на Ives е използването на специфични техники за определяне на информационните изисквания, използването на структуриран процес за подпомагане на интегрирането на склад за данни, подходящ избор на хардуер и софтуер и използване на множество техники за представяне за склад за данни. Недостатъците му са присъщи на сложността. Други включват трудности при разработването на много нива на база данни all'interno del склад за данни в разумни срокове и разходи.

Подходът на Kimball (1994) към Склад за данни Дизайн

Кимбъл (1994) предлага пет итеративни стъпки за проектиране на a склад за данни (вижте фигури 4). Неговият подход е особено посветен на дизайна на соло склад за данни и върху използването на размерни модели за предпочитане пред модели на обекти и връзки. Кимбъл анализира тези размерни модели, защото е по-лесно за бизнес лидерите да разберат бизнеса, по-ефективно е, когато се занимават със сложни консултации и дизайна на база данни физическото е по-ефективно (Kimball 1994). Кимбъл признава, че развитието на a склад за данни е итеративно и това склад за данни отделни таблици могат да бъдат интегрирани чрез разделянето им на таблици с общи размери.

Първата стъпка е да се определи конкретната предметна област, която трябва да бъде усъвършенствана. Втората и третата стъпка се отнасят до моделирането на размерите. Във втората стъпка измерванията идентифицират интересни неща в предметната област и ги групират в таблица с факти. Например в предметна област на продажбите мерките за интерес могат да включват количеството продадени артикули и долара като валута на продажбите. Третата стъпка включва идентифициране на измерения, които са начините, по които фактите могат да бъдат групирани. В предметна област на продажбите съответните измерения могат да включват артикул, местоположение и период от време. Фактическата таблица има ключ от много части, който я свързва с всяка от таблиците с измерения и обикновено съдържа много голям брой факти. За разлика от това, таблиците с измерения съдържат описателна информация за измеренията и други атрибути, които могат да се използват за групиране на факти. Свързаната предложена таблица с факти и размери образува това, което се нарича звездна схема поради формата си. Четвъртата стъпка включва изграждане на a база данни многоизмерен за усъвършенстване на звездния модел. Последната стъпка е да се идентифицират изходните системи данни необходими и разработване на процеси на трансформация за улавяне, почистване и форматиране i данни.

Силните страни на подхода на Кимбъл включват използването на размерни модели за представяне на данни съхраняват, което го прави лесен за разбиране и води до ефективен физически дизайн. Модел с размери, който също лесно използва и двете системи на база данни релационните системи могат да бъдат усъвършенствани или системи база данни многоизмерен. Неговите недостатъци включват липсата на някои техники за улесняване на планирането или интегрирането на много звездни модели в рамките на a склад за данни и трудността при проектиране от крайна денормализирана структура в размерен модел данни в наследствена система.

Подходът на McFadden (1996) към данните Складски дизайн

McFadden (1996) предлага подход от пет стъпки за проектиране на a склад за данни (вижте фигура 5).
Неговият подход се основава на синтез на идеи от литературата и е фокусиран върху дизайна на сингъл склад за данни. Първата стъпка включва анализ на изискванията. Въпреки че техническите спецификации не са предписани, бележките на McFadden идентифицират субектите данни спецификации и техните атрибути и препраща към читателите на Watson и Frolick (1993) за улавяне на изискванията.
Във втората стъпка се изчертава модел на обект на връзка склад за данни и след това валидирани от ръководителите на компанията. Третата стъпка включва определяне на картографирането от наследени системи и външни източници склад за данни. Четвъртата стъпка включва процеси в разработката, внедряването и синхронизирането данни в склад за данни. В последната стъпка, доставката на системата се разработва със специален акцент върху потребителския интерфейс. McFadden отбелязва, че процесът на рисуване обикновено е итеративен.

Силните страни на подхода на McFadden сочат участието на бизнес лидерите в определянето на изискванията, както и важността на ресурсите данни, тяхното почистване и събиране. Неговите недостатъци включват липсата на процес за разбиване на голям проект склад за данни в много интегрирани етапи и

трудности при разбирането на модела на обекта и взаимоотношенията, използвани при проектирането на склад за данни.

Не само тези, които са близо до нас, ни избират.

0/5 (0 мнения)

Научете повече от Online Web Agency

Абонирайте се, за да получавате най-новите статии по имейл.

администратор Изпълнителен Директор

👍Онлайн уеб агенция | Уеб агенция експерт по дигитален маркетинг и SEO. Web Agency Online е уеб агенция. За Agenzia Web Online успехът в дигиталната трансформация се основава на основите на Iron SEO версия 3. Специалности: системна интеграция, интеграция на корпоративни приложения, ориентирана към услуги архитектура, облачни изчисления, хранилище на данни, бизнес разузнаване, големи данни, портали, интранет, уеб приложение Проектиране и управление на релационни и многомерни бази данни Проектиране на интерфейси за цифрови медии: използваемост и графики. Онлайн Уеб агенцията предлага на компаниите следните услуги: -SEO в Google, Amazon, Bing, Yandex; -Уеб анализи: Google Analytics, Google Tag Manager, Yandex Metrica; -Потребителски реализации: Google Analytics, Microsoft Clarity, Yandex Metrica; -SEM в Google, Bing, Amazon Ads; -Маркетинг в социалните медии (Facebook, Linkedin, Youtube, Instagram).

Вижте пълната биография

Дигитален Маркетинг База данни СУБД Склад за данни Science Data Онлайн реклама Информационни технологии Уеб агенция Рекламна агенция маркетинг

Сподели:

Харесва ми:

Научете повече от Online Web Agency