fbpx

數據倉庫和ERP | 中央數據檔案:歷史和演變

檔案 DATA 中央:歷史和演變


90 年代企業技術的兩大主導主題是
狀態我 數據倉庫 和 ERP。 長期以來這兩個強大的
電流已成為企業 IT 的一部分,但從未有過
交叉路口。 就好像它們是物質和反物質一樣。 但
這兩種現象的增長不可避免地導致了一種
他們的交集。 如今,企業面臨著以下問題:
如何使用 ERP e 數據倉庫. 這篇文章將說明
存在哪些問題以及公司如何解決這些問題。
在開始時…
一開始有 數據倉庫. 數據倉庫
櫃檯交易處理應用系統。
在早期的記憶中 數據 這是命中註定的
只是處理申請的對立面
交易。 但是現在有更複雜的願景
比什麼 數據倉庫. 在當今世界上
數據倉庫 它被插入一個結構中,可以
稱為企業信息工廠。
企業信息工廠
(到岸價)
企業信息工廠具有架構組件
標準:代碼轉換和集成的級別
它集成了我 數據 當我 數據 他們從環境中移動
環境應用 數據倉庫 該公司的; 一種
數據倉庫 我所在的公司 數據
詳細和綜合的歷史記錄。 這 數據倉庫 公司作為
可以建造所有其他部分的基礎
的環境的 數據倉庫; 操作數據存儲 (ODS)。
ODS 是一種混合結構,包含數據的某些方面
OLTP 環境的倉庫和其他方面; 數據集市,其中我
不同部門可能有自己的數據版本
倉庫; 一種 數據倉庫 探索其中我
公司“思想家”可以提出他們的疑問
72小時無有害影響 數據倉庫; 和一段記憶
近線,其中 數據 舊的和 數據 批量細節可以是
便宜地儲存。
ERP 與
企業信息工廠
ERP 在兩個地方與企業信息工廠合併。
首先作為一個基本應用程序(基線),提供
數據 申請的 數據倉庫. 在這種情況下我 數據,
作為交易過程的副產品產生,
被集成並加載到 數據倉庫 該公司的。 這
ERP 和 CIF 以及 ODS 之間的第二個結合點。 的確,許多
在環境中,ERP 用作經典的 ODS。
如果 ERP 用作基本應用程序,它
相同的 ERP 也可以在 CIF 中用作 ODS。 在
然而,如果 ERP 被同時用於這兩種角色,則有
這兩個實體之間必須有明確的區別。 換句話說,
當ERP扮演核心應用和ODS的角色時,
兩個架構實體必須是不同的。 如果單
實施 ERP 試圖同時扮演兩個角色
同時難免會出現問題
這種結構的設計和實現。
單獨的 ODS 和基本應用程序
導致組件分裂的原因有很多
建築。 也許是最有說服力的問題來區分
架構的不同組件是每個組件
建築學有自己的看法。 需要基線應用程序
用於與 ODS 不同的目的。 嘗試重疊
ODS 世界的基線應用程序視圖,反之亦然
這不是正確的工作方式。
因此,CIF 中 ERP 的第一個問題是
檢查基線應用程序和
ODS。
企業數據模型
信息工廠
實現不同組件之間的內聚
CIF 的架構,必須有一個模型 數據。 我
的型號 數據 作為各種組件之間的鏈接
架構,例如基線應用程序和 ODS。 這
的型號 數據 成為“智力路線圖”
CIF 的不同架構組件的正確含義。
與這個概念齊頭並進,這個想法是應該有
成為偉大而獨特的榜樣 數據. 顯然他必須
成為榜樣 數據 對於每個組件,此外還有
它必須是連接不同模型的合理路徑。
架構的每個組件 - ODS、基線應用程序、
數據倉庫 公司,等等.. - 需要自己的
的模型 數據. 所以必須有一個精確的定義
像這些模型 數據 它們相互連接。
移動我 DATA ERP 日期
倉庫
如果起源於 數據 是基線應用程序和/或 ODS,當
ERP 插入 i 數據數據倉庫,這樣的插入必須
發生在“粒度”的最低水平。 回顧或
簡單地聚合 i 數據 當他們出來時
來自 ERP 的基線應用程序或來自 ERP 的 ODS 不是
正確的做法。 這 數據 日期中需要詳細信息
倉庫形成 DSS 流程的基礎。 這樣的 數據
它們將被數據集市和探索以多種方式重塑
德爾 數據倉庫.
的位移 數據 從基線應用環境
ERP對環境的影響 數據倉庫 該公司是在一個
合理放鬆。 在那之後發生這種轉變
在 ERP 中更新或創建後大約 24 小時。 的事實
有神的“懶”動 數據數據倉庫
公司允許 數據 來自 ERP 的“結算”。
有一次,我 數據 存放在基線應用程序中,
然後你可以安全地移動我 數據 ERP的
在公司裡。 由於運動而可以實現的另一個目標
“懶”神 數據 是操作流程和
數據安全系統。 隨著“快速”運動 數據 分界線
DSS 和操作之間仍然含糊不清。
伊爾·莫維門托·德伊 數據 從 ERP 的 ODS 到 數據倉庫
公司定期進行,通常
每週或每月。 在這種情況下,運動
數據 它是基於需要“清理”舊的 數據 歷史學家。
當然,ODS 包含 i 數據 哪些是最近的
尊重 數據 歷史學家發現 數據倉庫.
的位移 數據數據倉庫 它幾乎從未完成
“批發”(以批發商的方式)。 複製表格
從 ERP 環境到 數據倉庫 它沒有任何意義。 一種方法
更現實的是選定單位的位移 數據.
只有 數據 自上次更新日期以來發生了變化
倉庫是應該在數據中移動的那些
倉庫。 知道哪些的一種方法 數據 他們已被修改
因為上次更新是查看時間戳 數據
在 ERP 環境中找到。 設計器選擇所有更改
自上次更新以來發生的情況。 另一種方法
是使用變更獲取技術 數據。 用
這些技術被分析日誌和日誌磁帶,以便
確定哪些 數據 必須從 ERP 環境轉移到
那個 數據倉庫. 這些技術最擅長
可以從 ERP 文件中讀取多少日誌和日誌磁帶
不會對 ERP 的其他資源產生進一步影響。
其他並發症
CIF 中 ERP 的問題之一是其他人會發生什麼
應用程序源或 AI 數據 的消耗臭氧層物質必須有助於
數據倉庫 但它們不是 ERP 環境的一部分。 鑑於
ERP 的封閉性,尤其是 SAP,試圖整合
來自外部資源的密鑰 數據 和我在一起 數據 從 ERP 到
是時候移動我了 數據數據倉庫,這是一個很大的挑戰。
我的概率到底有多少 數據 應用程序或
ERP 環境之外的 ODS 將被整合到數據中
倉庫? 機率實際上非常高。
尋找 DATA 來自 ERP 的歷史
另一個問題 數據 ERP 的結果是
從需要擁有 數據 歷史學家在 數據倉庫.
通常情況下 數據倉庫 需求 數據 歷史學家。 和
通常 ERP 技術不會存儲這些 數據
歷史性的,至少沒有達到日期需要的程度
倉庫。 當大量 數據 歷史學家開始
添加到ERP環境中,這樣的環境必須
清理乾淨。 例如,假設一個 數據倉庫 必須
裝載了五年的 數據 歷史,而 ERP 持有
其中最多六個月 數據. 只要公司滿意
收集各種 數據 歷史隨著時間的推移,
那麼使用 ERP 作為資源的來源就沒有問題
數據倉庫. 但是當 數據倉庫 一定要去
回到過去,帶上神 數據 沒有經歷過的歷史學家
以前由ERP收集保存,然後是ERP環境
變得低效。
ERP 和元數據
關於 ERP 和 數據倉庫 就是它
ERP 環境中的現有元數據。 以及元數據
它們從 ERP 環境傳遞到 數據倉庫中,
元數據必須以相同的方式移動。 此外,我
元數據必須在格式和結構上進行轉換
基礎設施的要求 數據倉庫. 有一個大
操作元數據和 DSS 元數據之間的區別。 元數據
可操作的主要面向開發商和
程序員。 DSS 元數據主要面向用戶
決賽。 ERP 應用程序或 ODS 中的現有元數據
它們必須被轉換,這種轉換並不總是那麼容易
和直接。
採購 ERP 數據
如果將 ERP 用作 數據數據倉庫 ci
它必須是移動 i 的實體界面 數據 從環境
ERP到環境 數據倉庫. 接口必須:
▪ 易於使用
▪ 允許訪問 數據 ERP的
▪ 理解為 數據 即將搬遷的
數據倉庫
▪ 了解 ERP 可能出現的局限性
您登錄的時間 數據 ERP的:
▪ 參照完整性
▪ 層級關係
▪ 隱式邏輯關係
▪ 應用約定
▪ 的所有結構 數據 由ERP支持,等等...
▪ 高效訪問 數據, 通過提供:
▪ 直接移動 數據
▪ 改變的獲得 數據
▪ 支持及時訪問 數據
▪ 理解格式 數據, 等等…
與 SAP 的接口
界面可以是兩種類型,自產的或商業的。
一些主要的商業接口包括:
▪ SAS
▪ Prims 解決方案
▪ D2k 等等...
多種ERP技術
將 ERP 環境視為單一技術是一種
大錯。 有許多 ERP 技術,每種技術都有自己的
優勢。 市場上最著名的供應商是:
▪ SAP
▪ 甲骨文財務
▪ 仁科
▪ JD 愛德華茲
▪ 班
SAP
SAP 是最大、最完整的 ERP 軟件。 應用
SAP 涵蓋了許多領域的多種類型的應用程序。 SAP有
聲譽:
▪ 非常大
▪ 實施起來非常困難且成本高昂
▪ 需要許多人和顧問
實施的
▪ 需要專門的人員來實施
▪ 實施需要很長時間
此外,SAP 以記住自己的 數據
小心,使人們難以訪問它們
SAP 區域外的人員。 SAP的優勢在於
能夠捕獲和存儲大量 數據.
SAP 最近宣布打算延長
它的應用 ai 數據倉庫. 有很多優點和缺點
使用 SAP 作為供應商 數據倉庫.
一個優點是已經安裝了 SAP,並且大部分
顧問已經了解 SAP。
讓 SAP 作為供應商的劣勢 數據倉庫 他們是
許多:SAP 在世界上沒有經驗 數據倉庫
如果 SAP 是以下產品的供應商 數據倉庫,要“拿出來”
i 數據 來自 SAP al 數據倉庫. 拿督 SAP 的跟踪記錄
封閉系統,不太容易讓 i 從 SAP 進入
它 (???)。 有許多支持 SAP 的遺留環境,
如IMS、VSAM、ADABAS、ORACLE、DB2等。
SAP 堅持“不是在這裡發明”的方法。 SAP 不想
與其他供應商合作使用或創建 數據倉庫.
SAP 堅持自己生成所有軟件。
儘管 SAP 是一家強大而強大的公司,但事實上
試圖重寫 ELT、OLAP、管理的技術
系統甚至基本代碼 數據庫 這太瘋狂了。
而不是對供應商採取合作態度
di 數據倉庫 長期以來,SAP 遵循的方法是
他們“知道更多”。 這種態度阻礙了成功
SAP 可能在以下領域擁有 數據倉庫.
SAP 拒絕允許外部供應商訪問
及時而優雅地給他們 數據. 使用的本質
un 數據倉庫 很容易訪問 數據. SAP的整個故事是
基於使其難以訪問 數據.
SAP 缺乏處理大量數據的經驗 數據;
在...方面 數據倉庫 有大量 數據 從此再也沒有見過
SAP 並處理這些大量 數據 你必須有一個
合適的技術。 SAP顯然沒有意識到這一點
進入數據領域存在的技術壁壘
倉庫。
SAP的企業文化:SAP創造了企業
在獲得我 數據 從系統。 但要做到這一點,你需要有
一種不同的心態。 傳統上,軟件公司是
擅長將數據放入環境中卻不擅長
讓數據走另一條路。 如果 SAP 可以做到這種
Switch 將是第一家這樣做的公司。
簡而言之,一家公司是否應該選擇
SAP 作為供應商 數據倉庫. 存在非常嚴重的風險
一方面,另一方面獎勵很少。 但還有一個
不鼓勵選擇 SAP 作為日期供應商的原因
倉庫。 因為每個公司都應該有相同的日期
所有其他公司的倉庫? 這 數據倉庫 是心
競爭優勢。 如果每家公司都採用相同的
數據倉庫 這將是困難的,即使不是不可能,
取得競爭優勢。 SAP 似乎認為
數據倉庫 它可以被視為一個 cookie,這是一個
他們“獲取數據”的進一步跡象
在”。
沒有其他 ERP 供應商能像 SAP 一樣佔據主導地位。
毫無疑問,會有公司走上SAP的道路
為他們的 數據倉庫 但大概這些日期
SAP 倉庫將很大、昂貴且要求很高
他們的創作時間。
這些環境包括諸如“銀行櫃員處理”之類的活動,
機票預訂流程、投訴流程
保險等等。 表現更好的是交易系統,
更明顯的是需要將操作過程和
DSS(決策支持系統)。 然而,隨著資源系統
人和個人,您永遠不會面臨大量
交易。 當然,當一個人被雇用時
或者離開公司這是一筆交易的記錄。
但相對於其他系統,人力資源系統和
個人根本沒有多少交易。 因此,在
人力和個人資源系統
需要一個數據倉庫。 在許多方面,這些系統
代表 DSS 系統的合併。
但如果必須這樣做,還需要考慮另一個因素
使用數據倉庫和 PeopleSoft。 在許多環境中,我 數據
人力和個人資源次於業務
主要公司。 大多數公司執行
製造、銷售、提供服務等。 這
人力和個人資源系統通常是次要的(或
支持)到公司的核心業務線。 因此它是
模棱兩可的和不方便的 數據倉庫 分別為
支持人力和個人資源。
PeopleSoft 在這方面與 SAP 有很大不同。 有了 SAP,
必須有一個 數據倉庫. 使用 PeopleSoft,它不是
那麼清晰。 PeopleSoft 的數據倉庫是可選的。
可以說的最好的事情 數據 PeopleSoft 是數據
倉庫可用於存儲 i 數據 關於
舊的人力和個人資源。 第二個原因
公司希望使用 數據倉庫 a
有損於 PeopleSoft 環境的是允許訪問和
免費使用分析工具,ai 數據 由仁科。 但
除了這些原因之外,在某些情況下,最好不要
有一個數據倉庫 數據 人民軟件。
綜上所述
關於日期的構建有很多見解
ERP 軟件內的倉庫。
其中一些是:
▪ 有一個 數據倉庫 看起來像任何
其他行業?
▪ ERP 的靈活性 數據倉庫 軟件?
▪ ERP 數據倉庫 軟件可以處理大量
數據 它位於“數據倉庫 競技場”?
▪ ERP 供應商的業績記錄是什麼
面對簡單又便宜,就時間而言,ai 數據? (什麼
是 ERP 供應商在交付廉價、
時間,易於訪問數據?)
▪ 對 DSS 架構的理解是什麼?
ERP廠商的“企業信息工廠”?
▪ ERP 供應商了解如何獲得 數據 代替
環境,還懂怎麼導出嗎?
▪ ERP 賣家對最新工具的開放程度
倉儲?
所有這些因素都必須在確定
放在哪裡 數據倉庫 這將主持我 數據 ERP等
數據. 一般來說,除非有令人信服的理由
否則,建議構建 數據倉庫
來自 ERP 供應商的環境。
卡皮托洛1
BI 組織概述
關鍵點:
信息庫以相反的方式工作
到商業智能 (BI) 架構:
企業文化和 IT 會限製成功
建立 BI 組織。
技術不再是 BI 組織的限制因素。 這
建築師和項目規劃師的問題不是
技術是存在的,但如果他們能夠有效地實施
可用技術。
對於許多公司來說 數據倉庫 這只不過是一筆押金
被動分配 i 數據 給有需要的用戶。 這 數據
它們從源系統中提取並填充到目標結構中
di 數據倉庫。 我 數據 它們也可以整體清洗
財富。 但是也沒有增加額外的價值
收集者 數據 在這個過程中。
本質上,被動 DW 充其量只能提供
只有我 數據 清潔和操作用戶協會。 那裡
信息創建和分析理解取決於
完全由用戶。 判斷 DW (數據倉庫) 是
成功是主觀的。 如果我們判斷成功
能夠有效地收集、整合和清潔我 數據
公司在可預測的基礎上,那麼是的,DW 是成功的。
另一方面,如果我們查看集合、合併和它
利用整個組織的信息,然後
DW是失敗的。 DW 提供很少或沒有價值
信息。 結果,用戶被迫湊合,
從而造成信息孤島。 本章介紹
一個完整的願景來總結BI(業務
情報)的公司。 讓我們從 BI 的描述開始,然後
然後我們將繼續討論設計和
信息開發,而不是簡單地提供我 數據
給用戶。 然後討論集中在計算
BI 工作的價值。 我們通過定義 IBM 如何結束
解決您組織的架構 BI 要求。
架構描述
BI的組織
強大的面向交易的信息系統現在
在每個大型企業的議程上,因為他們水平
有效地成為世界各地公司的遊樂場。
然而,保持競爭力現在需要係統分析
以此為導向,通過重新發現和發現可以徹底改變公司的能力
使用他們已有的信息。 這些系統
分析源於對財富的理解 數據
可用的。 BI可以提高所有信息的性能
該公司的。 公司可以改善客戶關係和
供應商,提高產品和服務的利潤,產生
新的和最好的報價、風險控制等等
收入大幅削減開支。 有了你的 BI
公司終於開始使用客戶信息
由於具有以下目標的應用程序,作為一種有競爭力的資產
市場。
擁有正確的業務意味著對以下問題有明確的答案
關鍵問題如:
▪ 我們的 客戶 他們讓我們賺得更多,或者那裡
他們會虧本發送嗎?
▪ 我們最好的住處 客戶 和---關聯 /
他們常去的倉庫?
▪ 我們的哪些產品和服務最暢銷
對誰有效?
▪ 哪些產品可以最有效地銷售給誰?
▪ 哪個銷售活動最成功?為什麼?
▪ 哪些銷售渠道對哪些產品最有效?
▪ 我們如何改善與我們最好的人的關係 客戶?
大多數公司都有 數據 很難回答
這些問題。
操作系統產生大量的產品,
客戶和 數據 從銷售點、預訂到市場,
來自客戶服務和技術支持系統。 挑戰是
提取和利用這些信息。
許多公司只利用自己的一小部分 數據
用於戰略分析。
I 數據 剩下的,經常和我一起 數據 來自外部來源,例如 i
“政府報告”和其他購買的信息是一種
金礦等待被探索,ei 數據 必須
僅在您的信息上下文中進行完善
組織。
這些知識可以以多種方式應用,變化
從設計總體企業戰略到
與供應商的個人溝通,通過呼叫中心,
開立發票, 網際網路 和其他要點。當今的商業環境決定了
DW 和相關的 BI 解決方案進一步發展
傳統結構的執行 數據數據 歸一化為
原子級和“星形/立方體農場”。
保持競爭力所需要的是合併
傳統和先進技術,以支持
廣闊的分析領域。
最後,一般環境必須提高知識
公司作為一個整體,確保所採取的行動
作為進行分析的結果,它們是有用的,因此每個人都可以
益處。
例如,假設您對自己的排名 客戶 在類別中
高或低風險。
如果此信息是由提取模型生成的,或者
其他方式,它必須放入 DW 並可供訪問
任何人,通過任何訪問方式,例如我
靜態報告、電子表格、表格或分析處理
線 (OLAP)。
但是,目前,很多此類信息
留在孤島 數據 他們產生的個人或部門
分析。 整個組織幾乎沒有或根本沒有可見性
為了理解。 只需混合這種類型的內容
公司 DW 中的信息,您可以消除數據孤島
信息並提升您的 Dw 環境。
組織發展的兩大障礙
BI 的。
首先,我們有組織本身的問題
的相關規定。
雖然我們無法幫助政策變化
組織,我們可以幫助您了解
BI 組織、其架構以及如何
IBM 技術促進了其開發。
需要克服的第二個障礙是缺乏技術
整合和回憶整個空間的方法的知識
BI 而不僅僅是一個小組件。
IBM 正在響應技術變革
的整合。 您有責任提供設計
自我意識。 這個架構必須用
選擇無限制集成的技術,或至少與
遵循開放標準的技術。 還有你的
公司管理層必須確保碧的企業是
按計劃進行,不允許
源於自私的信息孤島的發展
議程或目標。
這並不是說 BI 環境對
對不同用戶的不同需求和要求做出反應; 相反,這意味著
這些個人需求和要求的實施是
這樣做是為了整個 BI 組織的利益。
對 BI 組織架構的描述可以
可以在第 9 頁的圖 1.1 中找到。該架構演示了
技術和技巧的豐富融合。
從傳統來看,該架構包括以下組件
倉庫的
原子層。
這是整個 DW 的基礎,也是整個 DW 的核心。
戰略報告。
I 數據 存儲在這裡將保留歷史完整性,報告
數據 並包括派生的指標,以及乾淨,
集成,並使用提取模板存儲。
這些的所有後續使用 數據 和相關信息是
源於這種結構。 這是一個很好的來源
提取 數據 以及帶有結構化 SQL 查詢的報告
營運存款 數據 或報告基礎
數據(運營數據存儲 (ODS) 或報告
數據庫.)
這是一個結構 數據 專為
技術報告。
I 數據 存儲和攜帶這些結構最終可以
在倉庫中通過組織區傳播(分期
區域),可用於戰略報告。
暫存區。
大多數人的第一站 數據 用於環境
倉庫是組織區。
我在這 數據 它們被整合、清洗並轉化為 數據 有用的是
將填充倉庫結構
日期集市。
這部分架構代表了 數據 用過的
專門用於OLAP。 數據集市的存在,如果我 數據 他們是
存儲在重疊的星型模式中 數據
在關係環境或文件櫃中的多維
di 數據 特定 OLAP 技術使用的專有技術,例如
DB2 OLAP 服務器,它是不相關的。
唯一的限制是該架構有助於使用 數據
多維。
該架構還包括關鍵技術和 Bi
區分為:
空間分析
空間對於分析師來說是一種意想不到的信息資產
完成分辨率至關重要。 空間可以
代表居住在某個地區的人的信息
位置,以及有關該位置所在位置的信息
物理上與世界其他地方相比。
要執行此分析,您必須首先將您的
經緯度坐標信息。 那是
被稱為“地理編碼”並且必須是提取的一部分,
轉換,以及級別的加載過程(ETL)
倉庫的原子性。
數據挖掘。
的提取 數據 允許我們的公司發展
努梅羅迪 客戶, 預測銷售趨勢並允許
與我的關係管理 客戶 (CRM),除其他倡議外
雙。
的提取 數據 因此,它必須與
數據 DWHhouse 並由倉庫流程支持
確定有效和高效地使用技術和
相關技術。
如 BI 架構所示,
Dwhouse 和數據集市一樣,是一個極好的數據源 數據
用於提取。 那些相同的結構也必須是
提取結果的接收者以確定可用性
最廣泛的受眾。
代理。
有各種代理來檢查每個點的客戶端,例如,我
公司的操作系統和dw一樣。 這些代理可以
是經過訓練的高級神經網絡以了解
每個點的趨勢,例如基於產品的未來需求
在促銷活動中,基於規則的引擎做出反應
un 拿督 一組情況,甚至是簡單的代理
他們向“高層管理人員”報告例外情況。 這些過程做
通常實時出現,因此必須
與相同的運動緊密結合 數據.
所有這些結構的 數據、技術和工藝保證
你不會花一整夜的時間來組建一個組織
你的 BI。
此活動將逐步開發,適用於小型活動
點。
每個步驟都是一個獨立的項目工作,並報告
作為 dw 或 BI 計劃的迭代。 迭代
可能包括新技術的實施,對於
通過添加新結構開始使用新技術 數據 ,
加載我 數據 額外的,或隨著分析的擴展
你的環境。 這一段討論更多
在第 3 章深入。
除了Dw的傳統結構和Bi的工具之外還有其他的
您的 BI 組織的職能
設計,例如:
客戶接觸點(Customer touch
點)。
與任何現代組織一樣,有許多
指示如何獲得體驗的客戶接觸點
對你有積極意義 客戶. 有傳統渠道如我
貿易商、總機接線員、直郵、多媒體和印刷
廣告,以及最新的渠道,如電子郵件和網絡,我 數據
必須獲得具有某種接觸點的產品,
運輸,清潔,改造,然後在結構中填充 數據
雙。
基礎知識 數據 操作和用戶關聯(操作
數據庫和用戶社區)。
在接觸點的末端 客戶 你會發現基本的 數據
公司和用戶社區的應用。 這 數據 現存的
他們是 數據 傳統必須重新統一併與 數據
從接觸點流出以滿足必要的
信息。
分析師。 (分析師)
BI 環境的主要受益者是分析師。 是他
受益於目前的提取 數據 可操作,集成
不同的來源 數據 , 增加了分析等功能
地理(地理編碼)並以 BI 技術呈現
允許您提取、OLAP、高級 SQL 報告和分析
地理。 分析人員與環境的主要接口
報告是 BI 門戶。
然而,分析師並不是唯一一個從架構中受益的人。
雙。
高管、大型用戶協會,甚至合作夥伴、供應商和我
客戶 他們應該在企業 BI 中找到好處。
回饋循環。
BI 架構是一個學習環境。 一個原則
開發的特點是允許持久的結構 數據
通過使用的 BI 技術和行動進行更新
用戶的理解。 一個例子是評估
客戶(客戶評分)。
如果銷售部門做了一個挖掘模型
客戶使用新服務的分數,然後
銷售部門不應該是唯一的受益群體
的服務。
相反,挖掘模型應該作為一部分
公司內部的自然數據流和客戶的分數
它應該成為信息環境的一個組成部分
倉庫,對所有用戶可見。 IBM 雙中心套件
包括 DB2 UDB,DB2 OLAP Server 包括大多數
技術的重要組成部分的一部分,定義在圖中
1.1.
我們使用本書中出現的架構
給我們一定程度的連續性,並展示每個產品如何
IBM 適合 BI 的一般方案。
提供信息內容(提供
信息內容)
設計、開發和實施您的 BI 環境是
一項艱鉅的操作。 設計必須包含這麼多
當前和未來的業務需求。 建築設計
必須完整包括所有發現的結論
在設計階段。 執行必須保留
致力於一個目標:開發BI的架構
在圖紙中正式提出並基於要求
商業。
尤其難以論證紀律將確保
相對成功。
這很簡單,因為您沒有開發整個 BI 環境
突然之間,但隨著時間的推移,它是逐步發生的。
但是,識別架構的 BI 組件是
重要的原因有兩個:您將指導所有後續決策
建築技術。
您將能夠有意識地設計特定的技術用途
儘管您可能找不到需要
幾個月的技術。
充分了解您的業務需求將影響類型
您將為您的架構購買的產品。
您的架構的設計和開發確保
你的倉庫是
不是隨機事件,而是“深思熟慮”,
精心製作的廣告 歌劇 作為馬賽克的藝術
混合技術。
設計信息內容
所有初始計劃都必須重點關注並確定
環境需要的 BI 的主要組件
在現在和將來都是普遍的。
了解業務需求很重要。
甚至在所有常規規劃開始之前,
項目規劃者通常可以確定一兩個
立即組成。
可能需要的組件的平衡
但是,您的架構不容易找到。
在設計階段,架構的主要部分
將應用程序開發會話 (JAD) 與搜索聯繫起來
確定業務需求。
有時這些要求可以外包給
查詢和報告。
例如,用戶聲明如果他們想自動化
目前必須通過集成手動生成報告
兩個流動比率並添加從
的組合 數據.
雖然這個要求很簡單,但它定義了一個特定的
您必須在以下情況下包含的功能的功能
為您的組織購買報告工具。
設計師還必須追求額外的要求
得到一張完整的圖片。 用戶想要訂閱
這個報告?
生成報告的子集並通過電子郵件發送給各個
用戶? 想在公司門戶上看到這份報告嗎?
所有這些要求都是簡單需求的一部分
根據用戶要求更換人工報告。 好處
在這些類型的需求中,每個人,用戶和設計者,都有
對報告概念的理解。
然而,我們需要規劃其他類型的業務。
當業務需求以以下形式陳述時
商業戰略問題,經驗豐富的設計師輕鬆搞定
辨別測量/事實和尺寸要求。
圖 1.2 說明了一個的測量和尺寸分量
業務問題。
如果 JAD 用戶不知道如何聲明他們的需求
以業務問題的形式,設計者通常會提供
跳過開始收集會話的示例
要求。
專家設計師不僅可以幫助用戶了解
戰略貿易,還有如何訓練它。
第 3 章討論了需求收集方法; 為了
現在我們只想表明需要為每個人設計
BI需求的類型
戰略性業務問題不僅僅是一個要求
商業,也是一種設計線索。 如果你必須回答
一個多維的問題,然後你必須記住,
提交我 數據 尺寸,如果你需要記住
數據 多維,你必須決定採用什麼樣的技術或
你將要使用的技術。
您是否實施保留立方星計劃,或兩者兼而有之?
如您所見,即使是一個簡單的業務問題
可以對設計產生相當大的影響。 然而
這些類型的業務需求是普通的,當然,至少
由經驗豐富的設計師和項目規劃師設計。
已經對技術和支持進行了充分的辯論
OLAP 和廣泛的解決方案可用。 到現在
我們提到需要將簡單的報告與 i
業務的尺寸要求,以及這些要求如何
影響技術架構決策。
但是有哪些要求不容易理解
由用戶還是由 DW 團隊? 你永遠不需要分析
空間(空間分析)?
的挖掘模型 數據 他們將成為你的必要組成部分
未來? 誰知道?
需要注意的是,這些類型的技術並不多
一般用戶社區和團隊成員都知道
Dw,部分地,這可能發生,因為他們通常
它們由一些內部或第三方技術專家處理。 它是
這些類型的技術產生的問題的極端情況。 自己
用戶無法描述業務需求或構建它們
為了給設計師提供指導,他們可以
被忽視,或者更糟糕的是,被忽視。
當設計者和開發者失敗時,問題就變得更大了
他們可能會認識到其中一種先進但
關鍵技術。
正如我們經常聽到設計師說的那樣,“好吧,為什麼
難道我們不把它放在一邊,直到我們得到另一件東西嗎?
“他們真的對優先事項感興趣,還是只是避免我
他們不明白的要求? 這很可能是最後一個假設。
假設您的銷售團隊已經傳達了一項要求
業務,如圖 1.3 所示,如您所見,
需求以業務問題的形式構建。 那裡
這個問題和典型的維度問題之間的區別是
距離。 在這種情況下,銷售團隊想知道,
每月從產品、倉庫和
客戶 居住在其所在倉庫 5 英里範圍內的人
他們買。
可悲的是,設計師或建築師只是可以
通過說“我們有客戶,
產品和我 數據 的存款。 我們保持距離
另一個迭代。
“錯誤的答案。 這種類型的業務問題關注
完全是BI。 它代表了更深層次的理解
我們的業務和為我們的分析師提供強大的分析空間。
BI 不僅僅是簡單的查詢或標準報告,或者
甚至 OLAP。 這並不是說這些技術不
對您的 BI 很重要,但僅憑它們並不能代表
BI 環境。
信息上下文設計
(信息內容設計)
現在我們已經確定了使它們與眾不同的業務需求
各種基本組件必須包含在繪圖中
一般建築。 BI 的一些組件是
我們最初的努力,而有些將不會實施
數月。
但是,所有已知的要求都反映在設計中,以便
當我們必須實施一項特定技術時,我們
準備好去做吧。 關於項目的一些事情會反映這種想法
傳統
例如,本章開頭的圖 1.1 顯示了一個日期
集市 數據 維。
這一套 數據 用於支持以後的使用
數據 由業務問題驅動的維度
我們已經確定。 由於附加文件是
生成,例如設計開發 數據,我們
我們將開始正式確定我如何 數據 它們在環境中傳播。
我們已經確定需要代表 數據 所以
維度,劃分它們(根據具體需要
確定)在集市上。
下一個要回答的問題是:它們將如何建造
這些數據集市?
你建造星星來支撐立方體,還是只是立方體,或者只是星星?
(或正確的立方體,或正確的星星)。 為數據生成架構
需要一個原子層的依賴集市 數據
獲得? 允許獨立的數據集市獲取 數據
直接從操作系統?
您將嘗試標準化哪種​​立方體技術?
你有大量的神 數據 維數分析所需
或者您需要一個全國銷售隊伍
每週一次還是兩者兼而有之? 建立一個強大的項目
像 DB2 OLAP Server for Finance 或 Cognos 多維數據集
PowerPlay 適用於您的銷售組織還是兩者兼而有之?
這些是偉大的建築設計決策
將從現在開始影響您的 BI 環境。 對,
您已經確定需要 OLAP。 現在你將如何執行
技術和技術類型?
一些更先進的技術如何影響您的技術
圖紙? 讓我們假設你已經確定了一個需求
組織中的空間。 現在你必須調用
建築圖紙版本雖然是計劃外的
進行幾個月的空間組件。 建築師必須
今天根據需要進行設計。 預測需要
生成、存儲、執行和提供的空間分析
進入 數據 空間。 這反過來應該作為
關於技術類型和規格的限制
您目前可以考慮的軟件平台。 為了
例如,管理系統 數據庫 相關的
(RDBMS) 你為你的原子層執行的必須有
一個強大的空間擴展可用。 這將確保
使用幾何體和對象時的最大性能
分析應用程序中的空間。 如果您的 RDBMS 沒有
可以處理我 數據 (以空間為中心)在內部,所以你必須
穩定烏拉 數據庫 (以空間為中心的)外部。 這使問題複雜化
管理版本並影響您的整體性能,
更不用說為你帶來的額外問題了
DBA,因為他們可能有點了解
的基礎知識 數據 空間也是如此。 另一方面,如果您的
RDMBS 處理所有空間和相關組件
優化器知道特殊需求(例如,
索引)空間對象,那麼您的 DBA 就可以處理
及時管理版本,您可以提高
表現。
此外,您需要調整暫存區域和圖層
包含地址清理的原子環境(a
空間分析的關鍵要素),以及以下內容
節省空間對象。 版本的繼承
現在我們引入了清潔的概念,設計還在繼續
地址。 一方面,這個應用程序將決定
ETL 工作所需的軟件。
您需要像 Trillium 這樣的產品來為您提供地址
乾淨,或您選擇提供的 ETL 提供商
功能?
現在重要的是你要欣賞你的設計水平
它必須在您開始製作之前完成
環境(倉庫)。 上面的例子應該
展示必須遵循的眾多設計決策
任何特定業務需求的識別。 如果完成
正確地,這些設計決策促進
環境的物理結構之間的相互依賴,
所用技術的選擇和傳播的流程
信息內容。 沒有這種傳統架構
BI,您的組織將受到混合
現有技術的混亂,充其量以某種方式聯合起來
不准確以提供明顯的穩定性。
維護信息內容
為您的組織帶來信息的價值是
一個非常困難的手術。 沒有足夠的了解
和經驗,或適當的規劃和繪圖,甚至
更好的團隊會失敗。 另一方面,如果你有一個大的
直覺和詳細的設計,但沒有紀律
執行,你只是在浪費你的金錢和時間
因為你的努力注定要失敗。 該消息應
明確一點:如果您遺漏了其中一項或多項
技能、理解/經驗或規劃/繪圖 o
執行紀律,這將導致癱瘓或
破壞BI組織的建設。
你的團隊準備好了嗎? 你身邊有人
了解大量可用分析環境的 BI 團隊
在 BI 環境中,在必要的技術和技術中
影響那個景觀? 你的團隊裡有人
可以識別高級之間的應用差異
靜態報表和OLAP,還是ROLAP 和OLAP 的區別? 中的一個
您的團隊成員清楚地認清了道路
提取以及它如何影響倉庫或如何
倉庫能支持挖礦性能嗎? 成員
團隊理解價值 數據 空間或技術
基於代理? 您是否有人欣賞獨特的應用程序
ETL 工具與代理技術的對比
信息? 如果你沒有,那就來一份。 BI 遠不止這些
大的歸一化原子層,OLAP,方案a
星和消耗臭氧層物質。
有認識需求的理解和經驗
BI 及其解決方案對您的能力至關重要
正確形式化用戶需求和設計
並執行他們的解決方案。 如果您的用戶社區有
描述需求困難,這是團隊的工作
倉庫提供了這種洞察力。 但如果球隊
倉庫
不承認 BI 的具體應用 - 例如,給定
挖掘 - 那麼這不是 BI 環境所做的最好的事情
通常僅限於被動存款。 然而,忽略這些
技術並沒有削弱它們的重要性和它們所產生的影響
關於您的商業智能可能性的出現
組織,以及您設計的信息結構
推廣。
設計必須包括設計的概念,ed
兩者都需要一個稱職的人。 此外,設計
它需要一個團隊washouse哲學和觀察
標準。 例如,如果您的公司已經建立了一個
標準平台或已確定特定 RDBMS
想要跨平台標準化,迫在眉睫
團隊中的每個人都遵守這些標準。 一般一個
團隊公開規範化的需求(對用戶
社區),但團隊本身不願意加入
在公司的其他領域甚至可能在其他領域也制定了標準
類似的公司。 這不僅是虛偽的,而且它確保公司不會
能夠開發現有資源和投資。 這並不意味著
沒有任何情況可以保證一個平台或一個
非標技術; 然而,倉庫的努力
他們應該小心翼翼地保護企業的標準,直到
業務要求並沒有另外規定。
構建 BI 所需的第三個關鍵組件
組織就是紀律。
它完全取決於個人和環境。
項目規劃者、贊助商、建築師和用戶必須欣賞
建立公司信息結構所必需的紀律。
設計師必須以這樣一種方式指導他們的項目工作
完成社會上其他必要的努力。
例如,假設您的公司建立了一個
具有倉庫組件的 ERP 應用程序。
因此,ERP 設計人員有責任與
倉庫環境團隊,以免競爭
複製已經開始的工作。
紀律也是一個需要佔領的課題
由整個組織負責,通常是建立並委託給一個
行政級別。
高管們是否願意遵守設計好的方法? 一種
承諾創建信息內容的方法
最終將為企業的所有領域帶來價值,但也許
它會損害個人或部門議程嗎? 記住一句話
“考慮一切比考慮一件事更重要”。
這句話適用於 BI 組織。
不幸的是,許多倉庫集中精力
試圖解決並為特定部門帶來價值或
特定用戶,稍微考慮一下組織
一般的。 假設經理請求團隊協助
廢墟。 該團隊以 90 天的工作作為回應
不僅包括交付由定義的通知要求
經理,但確保所有 數據 基地混合到水平
在被引入立方體技術之前是原子的
提議。
這種工程添加確保了這一壯舉
倉庫將受益於 數據 經理需要的。
然而,這位高管與外部諮詢公司交談時表示
提出了類似的申請,交付時間不到 4
設定時間。
假設內部倉庫團隊有能力,
經理有一個選擇。 誰能支持紀律
需要額外的工程來耕種這口井
信息企業或可以選擇自己做
快速解決。 後者似乎是真正被選中的
過於頻繁且僅用於創建信息容器
少數或個人從中受益。
短期和長期目標
建築師和項目規劃者必須正式製定一個
總體架構和計劃的長期願景
在 BI 組織中成長。 這種組合
短期利潤和長期規劃
代表了 BI 努力的兩個方面。 短期收益
expiration 是 BI 的一個方面,它與
你的倉庫。
這是規劃師、建築師和讚助商關注的地方
滿足特定的業務需求。 正是在這個層面上
物理結構被建造,技術被購買並且
技術得到實施。 他們絕不是為了面對
特定用戶社區定義的特定要求。
一切都是為了滿足定義的特定要求
來自特定社區。
然而,長期規劃是另一方面
商務智能。 這是計劃和設計確保的地方
建造任何物理結構、選擇的技術和
實現了著眼於企業的技術。 和
提供凝聚力的長期規劃
確保所有人都能獲得商業利益所必需的
發現的短期收益。
證明您的 BI 工作是合理的
Un 數據倉庫 它本身沒有內在價值。 其他
換句話說,技術之間沒有內在價值
倉庫和實施技術。
任何倉庫工作的價值都體現在行動中
由於倉庫環境和內容而執行
隨著時間的推移積累的信息。 這是理解的關鍵點
在您嘗試通過以下方式估算任何計劃的價值之前
哪裡的房子。
很多時候,建築師和規劃師試圖將價值應用到
倉庫物理和技術組件,而實際上價值是
發現業務流程受到
倉庫和良好獲得的信息。
這就是創建 BI 所面臨的挑戰:您如何證明投資的合理性?
如果 wherehouse 本身沒有內在價值,
項目必須調查、定義和正式確定收益
由那些將使用倉庫的人實現
改進特定的業務流程或價值
受保護的信息或兩者。
為了使主題複雜化,任何業務流程
受倉庫工作的影響可以提供好處
“相當大”或“輕微”。 相當大的優勢提供了
衡量投資回報率 (ROI) 的有形指標——例如
例如,在一段時間內多周轉一次庫存
具體或降低每批貨物的運輸成本。 這是更多
很難確定這些微小的好處,例如改善訪問
信息,就有形價值而言。
連接您的項目以了解
業務要求
很多時候,項目設計師試圖連接價值
具有企業無定形目標的倉庫。 說明
“倉庫的價值取決於我們的能力
滿足戰略要求”我們愉快地打開
演講。 但僅憑這一點還不足以判斷是否
對倉庫的投資是有道理的。 最好連接重複
具有特定商業要求和註釋的倉庫。
衡量投資回報率
計算倉庫設置中的投資回報率可以是
特別難。 如果領先,這尤其困難
特定重複的主體是無形的或
易於測量。 一項研究發現,用戶認為
BI 計劃的兩個主要好處:
▪ 培養做決定的能力
▪ 創建信息訪問
這些好處是軟的(或溫和的)好處。 很容易看出
我們如何根據硬邊計算投資回報率 (o
更大),例如運輸成本的降低,但是如何
我們是否衡量做出更好決策的能力?
這對項目規劃人員來說絕對是一個挑戰
他們正試圖讓公司投資於某一特定領域
倉庫的努力。 增加銷售額或降低成本
它們不再是驅動 BI 環境的中心主題。
相反,您正在尋找業務請求中的訪問權限
最好的信息,以便特定部門可以
更快地做出決定。 這些是戰略驅動因素
恰好對公司同樣重要,但
更模糊,更難以用有形的指標來描述。
在這種情況下,計算投資回報率即使不是無關緊要,也可能會產生誤導。
項目設計師必須能夠展示價值
有形的高管來決定是否投資
特定的重複很重要。 但是,我們不會提出一個新的
計算ROI的方法,我們也不做任何讚成或爭論
反對。
有許多文章和書籍討論了
計算投資回報率。 有特殊的價值主張,例如價值
投資 (VOI),由 Gartner 等團體提供,您可以
研究。 相反,我們將專注於任何的核心方面
您需要考慮的投資回報率或其他價值主張。
應用投資回報率
除了關於“硬”利益與“軟”利益的爭論
與 BI 工作相關還有其他問題需要考慮
當我們應用 ROI 時。 例如:
將太多的節省歸因於即將到來的數據倉庫工作
任何狀況之下
假設您的公司從以下架構過渡
大型機到分佈式 UNIX 環境。 所以任何
通過該努力可能(或可能不會)實現的節省
如果歸因於所有(?),則不應專門歸因於
倉庫。
不考慮所有事情是昂貴的。 還有很多事情要做
考慮到。 考慮以下列表:
▪ 啟動成本,包括可行性。
▪ 具有相關存儲的專用硬件成本 e
通訊
▪ 軟件成本,包括管理 數據 和擴展
客戶端/服務器、ETL 軟件、DSS 技術、工具
可視化、調度和流程應用程序
工作和監控軟件,.
▪ 結構設計成本 數據, 隨著實現, 和
的優化
▪ 與工作量直接相關的軟件開發成本
BI
▪ 家庭支持成本,包括優化
性能,包括軟件版本控制
幫助操作
應用“大爆炸”投資回報率。
倉庫的實現是一項巨大的努力
注定會失敗,因此也要計算一項計劃的投資回報率
大型企業的報價令人驚訝,而且設計師
繼續做出微弱的嘗試來估計整體的價值
努力。
因為設計師試圖給出貨幣價值
如果廣為人知並接受,則由企業發起
估計特定的重複很困難嗎? 這怎麼可能? 它不是
幾乎沒有例外。 不要這樣做。
現在我們已經確定了計算時不該做什麼
投資回報率,這裡有一些要點可以幫助我們定義
用於估算 BI 工作價值的可靠流程。
獲得 ROI 同意。 不管你的
選擇技術來估計您的 BI 工作的價值,必須
得到所有各方的同意,包括項目規劃者,
公司贊助商和高管。
將 ROI 分解為可識別的部分。 邁向的必要一步
投資回報率的合理計算是將計算集中在
具體項目。 然後,這使您可以估算一個值
基於滿足的特定業務需求
定義成本。 如前所述,必須支付大量費用
經過考慮的。 此外,成本必須不僅包括相關成本
單次迭代以及相關成本
以確保符合公司標準。
定義利益。 通過明確地將 ROI 與需求聯繫起來
具體行業,我們應該能夠識別
將導致滿足要求的好處。
降低成本,在眼前的收益中獲益。 這是方式
根據淨現值進行估值的最佳方法
(NPV)不像試圖預測未來價值
未來收益。
盡量減少將投資回報率分開的時間。 和'
在您的長期使用中有據可查
投資回報率。
使用多個 ROI 公式。 有許多方法可以
ROI 預測,您應該計劃是使用一個還是
加上,包括淨現值,反饋的內部速度
(IRR) 和復蘇。
定義可重複的過程。 這對計算至關重要
任何長期價值。 應該記錄一個
所有項目子序列的單一可重複過程
跟隨。
列出的問題是專家定義的最常見問題
的垃圾場環境。 管理層的堅持
提供“大爆炸”投資回報率非常令人困惑。 如果你開始所有
通過將投資回報率分解成可識別的、有形的部分來計算你的投資回報率,你有
估計準確的 ROI 評估的好機會。
有關 ROI 收益的問題
無論你的好處是軟的還是硬的,你都可以使用
一些基本問題來確定它們的價值。 到
例如使用一個簡單的比例係統,從 1 到 10,你
您可以使用以下方法跟踪任何努力的影響
域:
▪ 您如何評價對 數據 按照此
貴公司的項目?
▪ 您如何估計過程改進是由於
這個項目?
▪ 您現在如何衡量新見解和推論的影響
通過此迭代可用
▪ 新計算機環境的影響是什麼?
作為所學結果的表現?
如果這些問題的答案很少,則可能是
企業不值得投資。 高分的問題
得分點可帶來顯著的價值收益,並且應該
為進一步調查提供指導。
例如,流程改進的高分
它應該引導設計人員查看過程是如何進行的
得到改善。 您可能會發現部分或全部收穫
它們是有形的,因此可以很容易地獲得貨幣價值
應用。
充分利用第一次迭代
倉庫
您的業務努力的最大成果通常是
前幾次迭代。 這些早期的努力傳統上
建立對公眾最有用的信息內容
為以後建立技術基礎的援助
商務智能應用程序。
通常每個後續的子序列 數據 項目的
倉庫給企業帶來的附加值越來越少
一般的。 如果迭代失敗,尤其如此
增加新論據或不滿足新論據的需要
用戶社區。
此存儲功能也適用於堆棧
成長於 數據 歷史學家。 隨著後續努力需要更多
數據 還有更多 數據 隨著時間的推移被倒入倉庫,大部分
數據 它與所用分析的相關性降低。 這些 數據 他們是
通常被稱為 數據 睡著了,保留它們總是很昂貴,因為
它們幾乎從未被使用過。
這對項目發起人意味著什麼? 本質上,我
首批贊助商分攤的不僅僅是投資成本。
這是主要的,因為它們是建立該層的動力
龐大的倉儲資源和技術環境,
包括有機的。
但這些第一步具有最高價值,因此設計師
項目必須經常證明投資是合理的。
在您的 BI 計劃之後完成的項目可能會產生成本
次等(與第一個相比)和直接,但價值較低
給企業。
組織所有者需要開始考慮
拋出積累 數據 和不太相關的技術。
數據挖掘:提取
許多架構組件需要變化
數據挖掘技術和技巧——
例如,用於檢查興趣點的不同“代理”
客戶,公司的操作系統和dw一樣。 這些
代理可以是經過訓練的高級神經網絡
鍋趨勢,例如基於未來產品需求
促銷活動; 基於規則的引擎
對一組做出反應 拿督 情況,例如,診斷
醫療和治療建議; 甚至簡單的代理
具有向高級管理人員報告例外情況的作用(頂部
執行人員)。 一般這些提取過程 數據 si
實時驗證; 因此,他們必須團結起來
完全隨著 數據 斯特西。
在線分析處理處理
在線分析
切片、切塊、滾動、向下鑽取的能力
並進行分析
假設,在範圍內,套件的目標
IBM 技術。 例如解析處理函數
DB2 的聯機 (OLAP) 將維度分析帶入
的引擎 數據庫 相同的 。
函數為 SQL 添加維度效用,同時
充分利用作為 DB2 自然組成部分的所有優勢。 其他
OLAP 集成的示例是提取工具 DB2
OLAP 分析器服務器。 這項技術允許立方體的
DB2 OLAP 服務器要快速自動
分析以定位和報告價值 數據 不尋常的或意外的
對於交易分析師的所有立方體。 最後,函數的
DW 中心為建築師提供檢查等方法
其他事情,將 DB2 OLAP 服務器多維數據集作為一部分進行概要分析
ETL 過程的性質。
空間分析空間分析
空間代表一半的分析錨點(傳導)。
需要一個全景
廣義解析(時間代表另一半)。 原子級
倉庫的(原子級),如圖 1.1 所示,
包括時間和空間的基礎知識。 錄音
針對時間和地址信息的基於時間的錨點分析
來自太空的錨點分析。 時間戳
及時分析,解決信息線索
空間分析。 該圖顯示了地理編碼過程
將地址轉換為地圖上的點或空間中的點
這樣距離和內部/外部等概念就可以
用於分析——在原子水平和空間分析中進行
這是提供給分析師。 IBM 提供擴展
空間,與環境系統研究所 (ESRI) 共同開發,
al 數據庫 DB2 使空間對象可以
保留為正常的一部分 數據庫 關係的。 數據庫
Spatial Extenders,它們還提供所有 SQL 擴展
利用空間分析。 例如,SQL 擴展來自
關於問題
地址之間的距離或者一個點是在區域內還是區域外
定義的多邊形,是空間分析標準
擴展器。 有關詳細信息,請參閱第 16 章。
數據庫-常駐工具工具 數據庫-
居民
DB2 有許多 SQL BI 常駐輔助特性
在分析動作中。 這些包括:
▪ 執行分析的遞歸函數,例如“查找
所有可能的飛行路徑 舊金山 a 紐約“。
▪ 排名分析函數、累積函數、立方體
和匯總以促進通常發生的任務
只有 OLAP 技術,現在是自然的一部分
的引擎 數據庫
▪ 創建包含結果的表格的能力
的賣家 數據庫 領導者組合的不僅僅是 BI 功能
數據庫 相同。
主要供應商 數據庫 他們正在混合超過
BI 的功能 數據庫 相同。
這為文件提供了最佳性能和更多執行選項
BI 解決方案。
討論了 DB2 V8 特性和功能
詳見以下章節:
技術架構和數據管理基礎
(第5章)
▪ DB2 BI 基礎(第 6 章)
▪ DB2 物化查詢表(物化查詢
表格)(第 7 章)
▪ DB2 OLAP 函數(第 13 章)
▪ DB2 增強型 BI 特性和功能(增強型 BI
特性和功能)(第 15 章)
簡化的數據傳輸系統
輸送系統 數據 簡化的
圖 1.1 中描述的架構包括幾個
結構 數據 身體的。 一個是倉庫 數據 操作。
通常,ODS 是面向對象的,
集成和電流。 你會建立一個 ODS 來支持,例如
例如,銷售辦公室。 消耗臭氧層物質的銷售將補充 數據
來自許多不同的系統,但只會保留,例如
例如,今天的交易。 ODS可以更新
甚至一天幾次。 同時,進程
推我 數據 集成到其他應用程序中。 這個設施是
專為集成而設計 數據 當前和動態
可能是支持實時分析的候選者,
如何提供代理服務 客戶 銷售信息
通過提取銷售趨勢信息來獲取客戶流
從倉庫本身。 圖1.1所示的另一種結構是
dw 的正式地位。 這裡不僅是
執行必要的整合,質量 數據,而
的轉變 數據 庫存即將到來,但它也是
一個可靠的臨時存儲區 數據 複製那個
可用於實時分析。 如果你決定
使用 ODS 或暫存區,一個
填充這些結構的最佳工具 數據 使用
不同的操作源是DB2 的異構分佈式查詢。
此功能由 DB2 可選功能部件提供
稱為 DB2 Relational Connect(僅查詢)並通過 DB2
DataJoiner(提供問題的單獨產品,
插入、更新和取消的可能性
異構分佈的 RDBMS)。
該技術允許建築師 數據 打結 數據 di
生產與分析過程。 技術不僅可以
適應幾乎任何復制請求
他們可能想出實時分析,但它
他們還可以連接到各種各樣的基地 數據
流行的,包括 DB2、Oracle、Sybase、SQL Server、
Informix 等。 DB2 DataJoiner 可用於填充
一個結構 數據 像 ODS 甚至表格一樣正式
永久代表在專為修復而設計的倉庫中
快速的即時更新或出售。 自然,
這些相同的結構 數據 可以使用填充
另一項旨在復制的重要技術 數據,IBM
DataPropagator 關係。 (DataPropagator 是一個單獨的產品
對於中央系統。 DB2 UNIX、Linux、Windows 和 OS/2 包括
的複制服務 數據 作為標準功能)。
另一種移動方法 數據 經營
否則對企業來說就是企業應用程序集成商
稱為消息代理。這
獨特的技術允許無與倫比的控制中心
(瞄準)並移動 數據 公司周邊。 IBM 有經紀人
使用最廣泛的消息、MQSeries 或其變體
包括要求的產品 電子商務,IBM
WebSphere MQ。
有關如何利用 MQ 支持的更多討論
倉庫和BI環境,請訪問 網站 這本書的。目前來說,是
只要說這項技術是一種極好的媒介就足夠了
捕獲和轉換(使用 MQSeries Integrator) 數據
為 BI 解決方案招聘的有針對性的操作員。 那裡
UDB V8中已經集成封裝了MQ技術,
意味著現在可以管理消息隊列
就好像它們是 DB2 表一樣。 焊接的概念
排隊的消息和宇宙 數據庫 關係頭
邁向一個強大的交付環境 數據.
零延遲 零延遲
IBM 的最終戰略目標是零延遲分析。
定義為
Gartner,BI 系統必須能夠推斷、吸收
並根據要求向分析師提供信息。 挑戰,
當然,關鍵在於如何搭配 數據 當前和實時
具有必要的歷史信息,例如我 數據 相關型號/的
傾向,或提取的理解,作為對
顧客。
此類信息包括,例如,身份證明 客戶 ad
高或低風險或哪些產品我 客戶 他們會買很多
可能如果他們的購物車裡已經有一些奶酪
收購。
獲得零延遲實際上取決於兩個
基本機制:
▪ 完全合併 數據
既定技術和 BI 開發的工具
▪ 輸送系統 數據 有效地確保
實時分析實際上是可用的
零延遲的這些先決條件與兩者沒有區別
由 IBM 制定並在上文中描述的目標。
的緊耦合 數據 是程序的一部分
IBM 安排的無縫集成。 並創建一個系統
交付的 數據 效率完全取決於
可簡化交付過程的可用技術
數據. 因此,IBM 的三個目標中有兩個至關重要
做第三個。 IBM 正在有意識地開發自己的
確保零延遲的技術成為現實
倉庫努力。
總結/綜合
BI 組織提供了一個路線圖
創造你的環境
迭代地。 必須對其進行調整以反映
您的業務,包括當前和未來。 沒有架構願景
廣泛,股票代表只不過是
隨機的中央倉庫實現,對
創建一個廣泛的信息化企業。
項目經理面臨的第一個障礙是如何證明
BI 組織發展所需的投資。
雖然投資回報率計算仍然是
倉庫成就,越來越難了
準確預測。 這導致了其他方法
確定您的錢是否物有所值。 這
例如,投資價值 2 (VOI)
作為解決方案。
建築師有責任 數據 和項目規劃者
故意生成並向以下協會提供信息
用戶,而不僅僅是提供 sui 服務 數據. 有一個
兩者之間的巨大差異。 信息是一個人所做的事情
決策過程和有效性的差異; 相對地,我
數據 它們是獲取該信息的基石。
即使批評來源 數據 處理請求
業務,BI 環境應該發揮更大的作用
在信息內容的創建中。 我們必須採取
清潔、整合、改造或改造的額外措施
否則創建信息內容
用戶可以採取行動,因此我們需要確保那些
行動和那些決定,在合理的情況下,有反饋
在 BI 環境中。 如果我們將倉庫降級為僅服務於 數據,
確保用戶協會將創建內容
採取行動所需的信息。 這確保了他們的
社區將能夠做出更好的決策,但企業
缺乏他們所使用的知識。
拿督 建築師和項目規劃師啟動項目
特定於 BI 環境,他們仍然對企業負責
總的來說。 這個 twosome 特徵的一個簡單例子
在源中找到 BI 迭代的面孔 數據. 一切
數據 收到特定的商業要求必須
填充在第一個原子層。 這保證了開發
企業信息資產,以及管理,路由
迭代中定義的特定用戶請求。

什麼是數據倉庫?
數據倉庫 它是信息系統架構的核心
自 1990 年以來,通過提供可靠的支持信息處理
的綜合平台 數據 歷史作為以後的基礎
分析。 這 數據倉庫 提供易於集成到一個
不兼容的應用程序系統的世界。 日期
倉庫已經演變成一種時尚。 數據倉庫
組織和記憶我 數據 信息處理所必需的 e
基於長期歷史時間視角的分析。 全部
這涉及在建設和
在維護 數據倉庫.
那麼什麼是 數據倉庫? 一 數據倉庫 是:
▪ 主題導向
▪ 綜合系統
▪ 時間變化
▪ 非易失性(不取消)
的集合 數據 用於支持管理決策
流程的實施。
I 數據 插入 數據倉庫 出現在大多數
來自操作環境的案例。 這 數據倉庫 由一個人製作
存儲單元,在物理上與其餘部分分開
系統,其中包含 數據 以前處理過
對來自環境的信息進行操作的應用程序
操作。
a的字面定義 數據倉庫 值得徹底調查
解釋,因為有重要的動機和意義
描述倉庫特徵的基金。
學科方向
專題
A的第一個特徵 數據倉庫 是它的目的是
公司的主要參與者。 通過過程的指導
數據 它與預見的更經典的方法形成對比
應用程序對流程和功能的定位,
大多數人共享的方法
較舊的定向系統。
操作世界是圍繞應用程序和功能設計的
例如機構的貸款、儲蓄、銀行卡和信託
金融的。 dw 的世界是圍繞主題組織的
委託人,如客戶、賣方、產品和活動。
圍繞主題的對齊會影響設計和
關於製作 數據 在dw中找到。 最為顯著地,
主題影響最重要的部分
關鍵結構。
應用程序的世界受到數據設計的影響
基礎比從工藝設計。 的世界
dw 只專注於視頻建模 數據 它開著
繪圖的 數據庫. 過程的設計(以其形式
classical) 不是 dw 環境的一部分。
過程/功能應用程序的選擇與
主題的選擇也顯示為內容的差異
數據 在詳細的層面上。 這 數據 del dw 不包括我 數據
它們不會用於 DSS 流程,而應用程序
操作導向 數據 包含我 數據 為了滿足
立即可以 o 的功能/處理要求
至少對 DSS 分析師沒有任何用處。
面向操作的應用程序的另一種重要方式
ai 數據 與......不同 數據 dw 在報告中 數據。 我 數據
操作員維護兩個或多個表之間的持續關係
基於活動的業務規則。 這 數據 來自 dw
它們跨越了一個時間範圍,在 dw 中發現的比率是
許多。 許多貿易規則(相應地,許多
的報告 數據 ) 代表的股票 數據 兩個或之間
多個表。
(對於如何在之間的關係的詳細解釋 數據 他們是
在 DW 中管理,我們指的是技術主題
問題。)
除了差異之外別無他法
功能/過程和應用程序選擇之間的基礎
一個主題的選擇,系統之間有更大的差異
操作和 數據 和德國之聲。
整合整合
dw 環境最重要的方面是我 數據 成立
在 dw 中,它們很容易集成。 總是。 沒有
例外情況。 dw 環境的本質是我 數據
包含在倉庫範圍內的是集成的。
集成以許多不同的方式展現自己——在約定中
在一致變量的範圍內,確定一致
一致的編碼結構,在物理屬性中 數據
一致,等等。
多年來,幾個應用程序的設計者已經做到了
擁有關於應用程序應該如何處理的許多決定
得到開發。 風格和個性化設計決策
設計師的應用程序以一百種方式揭示:
編碼差異,關鍵結構,物理特性,
識別約定等。 許多人的集體能力
應用程序設計人員創建不一致的應用程序
這是傳奇。 圖 3 揭示了一些更多的差異
在應用程序的設計方式中很重要。
編碼: 編碼:
應用程序設計人員選擇了字段編碼 –
性——以不同的方式。 設計師將性描述為
一個“m”和“f”。 另一位設計師將性別表示為“1”
和一個“0”。 另一位設計師將性別表示為“x”並且
“是”。 另一位設計師將性別表示為“男性”,並且
“女性”。 性別如何進入 DW 真的無關緊要。 他們”
而“F”可能和所有的一樣好
表示。
重要的是,無論性場從何而來,
該字段以一致的集成狀態到達 DW。 從
將字段從中加載到 DW 時的後果
已確定格式的應用程序
“M”和“F”,我 數據 必須轉換為 DW 格式。
屬性的測量:測量
屬性:
應用程序設計人員選擇測量管道
課程中的多種方式
一些年。 設計師商店我 數據 的管道進入
厘米。 另一個應用程序設計器存儲 數據
以英寸為單位的管道。 的另一位設計師
應用商店我 數據 以百萬立方英尺為單位的管道
每秒。 另一位設計師存儲了信息
管道碼。 無論來源如何,當
管道信息到達 DW 它們必須是
用同樣的方法測量。
根據圖 3 的指示,集成問題
它們幾乎影響設計的每個方面——功能
物理神 數據,擁有多個來源的困境 數據中,
不一致的識別樣品的問題,格式 數據
不一致,等等。
無論設計論點如何,結果都是一樣的——
i 數據 必須以單數 e 存儲在 DW 中
全球可接受的方式,即使操作系統
基金存儲不同我 數據.
當 DSS 分析師看 DW 時,分析師的鏡頭
應該是剝削 數據 哪些在倉庫裡,
而不是懷疑
數據.
時差
所有 數據 在 DW 中,它們準確到某個時刻。
的這個基本特徵 數據 在 DW 中與 數據
在運行環境中發現。 這 數據 的操作環境是
與訪問時一樣準確。 換句話說,
在訪問單元時的操作環境中 數據,但也
等待它反映訪問時的準確值。
為什麼我 數據 在 DW 中是準確的
時間(即不是“現在”),我 數據 在DW中找到
它們是“時間方差”。
的時間方差 數據 由 DW 以多種方式提及。
最簡單的方法是我 數據 DW的代表 數據 它是
長期——五到十年。 地平線
代表操作環境的時間要短得多
▪ 從今天的電流值到六十九十
需要運行良好且需要的應用程序
可用於交易處理必須攜帶
最低數量 數據 如果他們承認任何程度
靈活性。 所以運營應用程序有一個地平線
短時間框架,作為設計參數
聲音應用。
DW 中出現“時變性”的第二種方式是在
關鍵結構。 DW 中的每個關鍵結構包含,
隱式或顯式地,一個時間元素,例如
日、週、月等時間的因素幾乎總是
在 DW 中找到的串聯密鑰的底部。 在這些
場合,時間的因素會隱含地存在,比如機會
在月末或季度末複製整個文件。
顯示時間方差的第三種方式是 i 數據 德爾
DW,剛註冊好,不能
更新。 這 數據 出於所有實際目的,DW 是一個很長的
系列快照(snapshot)。 當然如果快照是
拍攝不正確,則快照可能
修改的。 但是假設拍攝了快照
正確地,它們一製成就不會改變。 在一些
在某些情況下,快照中的快照可能是不道德的,甚至是無效的
DW都修改了。 這 數據 可操作,準確如
訪問的時刻,它們可以在出現時更新
需求。
不易揮發
DW的第四個重要特性是它是非易失性的。
進行更新、插入、刪除和更改
定期用於逐條記錄的操作環境。 但是
的基本操作 數據 DW 中需要的更多
簡單的。 只有兩種操作發生在
DW——初始加載 數據 和訪問 數據. 那沒有
沒有更新 數據 (一般意義上的
update) 在 DW 中作為正常的處理操作。
這種差異有一些非常強大的後果
操作處理和DW處理之間的基礎。 在水平
按照設計,需要謹慎升級
異常不是 DW 的因素,因為更新 數據 它不是
執行。 這意味著在設計的物理層面上,
可以採取自​​由來優化訪問 數據,
特別是在處理標準化和
物理反規範化。 簡單的另一個結果
DW 的運營是在用於
運行DW環境。 必須支持更新
按記錄內聯記錄(通常是這樣的情況
操作處理)的技術需要有一些
在表面上的簡單性下非常複雜的基礎。
支持備份和恢復、事務的技術
和完整性 數據 僵局的發現和補救是
相當複雜,對於 DW 處理不是必需的。
DW的特點,設計方向,
整合 數據 在 DW 中,時間方差和簡單性
的管理的 數據,一切都會導致一個非常非常非常
不同於經典的操作環境。 幾乎所有的來源
數據 DW是運行環境。 這很誘人
存在大量冗餘 數據 兩種環境之間。
其實很多人的第一印象就是
大量冗餘 數據 在操作環境和環境之間
DW 擴展名。 這種解釋是膚淺的,證明了
缺乏了解 DW 中發生的事情。
確實有最少的冗餘 數據 運行環境之間
和我 數據 德國之聲。 我們考慮以下因素:
▪ 我 數據 他們被過濾 拿督 你從操作環境傳遞
到DW環境。 許多 數據 他們永遠不會昏倒
從運行環境。 只有我 數據 需要哪些
DSS處理在環境中找到自己的方向
▪ 時間範圍 數據 它與環境截然不同
給另一個。 這 數據 在操作環境上他們都很新鮮。 這 數據
在德國之聲中,他們的年齡要大得多。 僅從角度來看
在時間範圍內,幾乎沒有重疊
在操作環境和DW之間。
▪ DW 包含 數據 從未發現的摘要
在環境中
▪ 我 數據 發生了根本性的轉變
他們傳遞到圖 3 的那一刻說明了大多數
部分 數據 顯著改變提供
被選中並移動到 DW。 換句話說,
大多數 數據 物理修改 e
從根本上將其移至 DW。 從來看
整合度不一樣 數據 誰居住
在運行環境中。
鑑於這些因素,冗餘 數據 兩個環境之間是
很少發生,導致兩者之間的冗餘度不到 1%
環境。
倉庫結構
DW 具有獨特的結構。 有不同層次的總結和
劃分 DW 的細節。
DW 的各個組件是:
▪ 元數據
當前詳細信息
舊的細節
略作總結
高度總結
到目前為止,主要關注的是我 數據 詳細的
電流。 這是主要問題,因為:
▪ 我 數據 當前詳細信息反映了最近發生的事件,
總是很有趣
▪ 我 數據 目前的細節是龐大的,因為它是
存儲在最低級別的粒度 e
▪ 我 數據 當前詳細信息幾乎總是存儲在
磁盤存儲器,訪問速度快,但價格昂貴且
複雜的來自
I 數據 細節較舊 數據 存儲在
一些記憶 . 它偶爾可以訪問並且是
以與兼容的詳細程度存儲 數據 詳細的
電流。 雖然存儲在以下介質上不是強制性的
替代內存,由於體積大 數據
零星訪問 數據,存儲介質為 數據 di
較舊的細節通常不會存儲在磁盤上。
I 數據 簡單總結一下他們是 數據 這是底部蒸餾
在當前詳細級別找到的詳細級別。 這
DW 級別幾乎總是存儲在磁盤內存中。 這
呈現給建築師的設計問題 數據
在構建這個級別的DW中有:
▪ 上面做的總結是什麼時間單位
▪ 什麼內容,屬性會稍微總結一下
內容 數據
下一級 數據 在DW中找到的是 數據 高度
總結。 這 數據 高度總結緊湊且容易
無障礙。 這 數據 有時會發現高度概括
在 DW 環境和其他情況下我 數據 高度概括他們是
在 DW 所在的技術圍牆外發現。
(無論如何,我 數據 高度總結是DW的一部分
不管我在哪裡 數據 物理安置)。
DW 的最後一個組件是元數據組件。 在許多方面
元數據位於與其他維度不同的維度 數據
DW 的,因為元數據不包含任何 拿督 直接
從操作環境中獲取。 元數據具有特殊作用
在DW中非常重要。 元數據用作:
▪ 幫助 DSS 分析師定位的目錄
DW內容,
▪ 映射指南 數據 我如何 數據 他們是
從運行環境轉換到DW環境,
▪ 用於 i 之間匯總的算法指南 數據 di
當前詳細信息 ei 數據 稍微總結一下,我 數據 高度
總結,
元數據在 DW 環境中發揮更大的作用
與他們在操作環境中曾經擁有的相比
舊的細節存儲介質
磁帶可以用來存儲那種
數據. 確實有各種各樣的存儲介質
應該考慮保護舊的 數據 di
細節。
視體積而定 數據, 訪問頻率, 成本
的工具和訪問類型,這是完全可能的
其他工具將需要舊級別的詳細信息
在數據倉庫中。
數據流
有一個正常的和可預測的流量 數據 在 DW 內。
I 數據 他們從運行環境進入DW。 (注意:有
這條規則有一些非常有趣的例外。 然而,幾乎
所有 數據 從運行環境進入DW)。 拿督數據
他們從運行環境進入DW,它被轉換成原來的樣子
之前描述過。 如果你輸入 DW,我 數據 他們進入
當前的詳細程度,如圖所示。 它駐留在那裡並被使用
直到發生以下三個事件之一:
▪ 被淨化,
▪ 總結,和/或
▪ 是
DW 中的過時進程移動 i 數據 當前詳細信息
a 數據 細節老,根據年齡 數據. 過程
總結使用的細節 數據 計算 數據
略概括和高度概括的層次 數據。 有
所示流程的一些例外情況(將在稍後討論)。
然而,通常,對於絕大多數 數據 成立
在 DW 中,流 數據 它是代表。
使用數據倉庫
毫不奇怪,各種級別的 數據 在 DW 中不
得到不同程度的使用。 一般來說,等級越高
總結,加上我 數據 他們被使用。
許多用途發生在 數據 高度總結,而舊的
數據 細節幾乎從未使用過。 有一個很好的理由
將組織轉移到資源利用範式。 更多有
總結一 數據,到達的速度越快,效率越高 數據。 他自己
un 發現它對 DW 進行了很多細節級別的處理,
那麼相應的大量的機器資源
被消耗掉。 接受審判符合每個人的最佳利益
盡可能在高水平上盡快總結。
對於許多商店,DW 前環境中的 DSS 分析師使用
數據 在細節層面。 在許多方面到達 數據 詳細的
類似於安全毯,即使它們可用
其他層次的總結。 建築師的活動之一 數據 è
讓 DSS 用戶不再經常使用 數據 在加號水平
低細節。 有兩個原因可用
的建築師 數據:
▪ 安裝退款系統,最終用戶支付
資源消耗
▪ 表示非常好的響應時間可以
當與我的行為時獲得 數據 它是高標準的
總結,而較差的響應時間來自
的行為 數據 在低水平
其他考慮因素
還有一些其他的建設和管理注意事項
數據倉庫。
首先要考慮的是指數。 這 數據 在最高級別
摘要可以自由索引,而我 數據
在較低的細節層次上,它們是如此龐大,以至於可以
很少索引。 出於同樣的原因,我 數據 在高水平
細節可以相對容易地恢復,
而體積 數據 在較低的層次上,它是如此之大,以至於我 數據
它們可以很容易地翻新。 因此,模型
數據 和設計完成的正式工作構成
DW 的基礎幾乎完全適用於該級別
詳細電流。 換言之,建模活動
數據 在幾乎所有情況下,它們都不適用於摘要級別。
另一個結構考慮是細分
數據 由德國之聲。
分區可以在兩個級別上完成——在級別 數據庫
應用層。 在師級 數據庫中, 數據庫 è
通知部門並相應地控制他們。 如果是
應用層面的劃分,只有程序員是
告知各部門及其職責
管理留給他
低於水平 數據庫,很多工作都是自動完成的。 有
與自動管理相關的很多不靈活
師。 在部門級應用的情況下 數據 德爾
數據倉庫,很多工作落在了程序員身上,但是
最終結果是管理的靈活性 數據 在日期
倉庫
其他異常
而組件的 數據倉庫 他們按描述工作
幾乎所有 數據, 有一些有用的例外必須
進行討論。 一個例外是 數據 公開摘要
(公開摘要數據)。 這些都是 數據 總結過的
計算出 數據倉庫 但它們被社會所利用。 這 數據
公共摘要存儲和管理在 數據倉庫,
儘管如上所述,它們已被弄清楚。 這
會計師的工作是製作這樣的季刊 數據 作為
收入、季度支出、季度利潤等。 工作
會計師所做的是外部的 數據倉庫. 但是,我 數據 他們是
在公司內部「內部」使用 – 來自 市場營銷、銷售等
另一個不討論的異常是 數據 埃斯特尼。
另一種傑出的類型 數據 可以在數據中找到
倉庫是永久明細數據的倉庫。 這些導致
需要永久存儲我 數據 在一個層面上
出於道德或法律原因而詳細說明。 如果一家公司正在展示我
與有害物質相關的工人有必要 數據
詳細和永久的。 如果一家公司生產的產品是
涉及公共安全,飛機的哪些部分,有
需要 數據 永久詳細,以及如果公司
訂立危險的合約。
公司不能忽視具體原因
在接下來的幾年裡,如果發生訴訟、召回、
有爭議的施工缺陷等公司曝光
它可能很大。 因此,有一種獨特的 數據
稱為永久詳細數據。
摘要
Un 數據倉庫 它是面向對象的、集成的、變體
時間,集合 數據 非易失性支持的需求
行政決定。 每一個顯著特點
un 數據倉庫 有其含義。 另外還有四個
的水平 數據 德爾 數據倉庫:
▪ 舊細節
▪ 當前詳細信息
略作總結
高度總結
元數據也是重要的組成部分 數據倉庫.
抽象的
存儲的概念 數據 最近收到
引起了很多關注,並成為90年代的趨勢。那是
由於一個能力 數據倉庫 克服
管理支持系統的局限性,例如我
決策支持系統 (DSS) 和信息系統
行政人員(EIS)。
雖然這個概念 數據倉庫 看起來很有前途,
實施我 數據倉庫 可能會有問題,因為
大規模的倉儲流程。 儘管
倉儲項目的複雜性 數據, 許多供應商
和股票顧問 數據 他們聲稱
的存儲 數據 目前沒有問題。
然而,在這個研究項目開始時,幾乎沒有
開展了獨立、嚴謹和系統的研究。 從
因此很難說,實際發生了什麼
在他們建造時在行業中 數據倉庫.
本研究探討了倉儲實踐 數據
旨在發展更豐富的理解的同時代人
澳大利亞的做法。 文獻綜述提供了
實證研究的背景和基礎。
這項研究有許多結果。 第一的
地方,這項研究揭示了發生的活動
在開發過程中 數據倉庫. 在很多領域,我 數據 聚集
證實了文獻中報導的做法。 第二
站點,它可能影響的問題
發展 數據倉庫 被這項研究確定。
最後,從與相關的澳大利亞組織獲得的利益
指某東西的用途 數據倉庫 已被揭露。
第1章
搜索上下文
數據倉庫的概念得到廣泛接受
曝光並已成為一種新興趨勢
90 年代(McFadden 1996,TDWI 1996,Shah 和 Milstein 1997,
香克斯等人。 1997 年,埃克森 1998 年,阿德爾曼和奧茨 2000 年)。 那是
從數據上越來越多的文章可以看出
貿易出版物中的倉儲(Little 和 Gibson 1999)。
許多文章(例如,參見 Fisher 1995、Hackathorn 1995、
Morris 1995a,Bramblett 和 King 1996,Graham 等人。 1996年,
Sakaguchi 和 Frolick 1996、Alvarez 1997、Brousell 1997、Clarke
1997 年,麥卡錫 1997 年,奧唐奈 1997 年,愛德華茲 1998 年,TDWI
1999)報告給組織帶來了顯著的好處
哪個實現我 數據倉庫. 他們支持了他們的理論
有成功實施的軼事證據,高回報
投資數字(ROI),並提供指導
開發的參考或方法 數據倉庫
(Shanks 等人,1997 年;Seddon 和 Benjamin,1998 年;Little 和 Gibson
1999). 在一個極端的例子中,格雷厄姆等人。 (1996)有
三年投資的平均回報率為 401%。
然而,目前的許多文獻都忽視了
開展此類項目所涉及的複雜性。 的項目
數據倉庫 通常是複雜和大規模的
因此,如果不這樣做,它們就意味著失敗的可能性很高
仔細檢查(Shah 和 Milstein 1997,Eckerson 1997,
Foley 1997b、Zimmer 1997、Bort 1998、Gibbs 和 Clymer 1998、Rao
1998)。 他們需要大量的人力和人力資源
建造它們的資金、時間和精力(Hill 1998,Crofts 1998)。 這
所需的典型時間和經濟手段分別為
大約兩年時間和兩三百萬美元(Braly 1995,Foley
1997b,Bort 1998,Humphries 等。 1999)。 這些時間和手段
需要金融工具來控制和整合很多方面
與數據倉庫不同(Cafasso 1995,Hill 1998)。 去旁邊
硬件和軟件的考慮,其他功能,這會有所不同
從提取 數據 加載過程 數據來自
管理更新和提供元數據的內存容量 數據
對於用戶培訓,必須加以考慮。
在這個研究項目開始時,幾乎沒有
在數據倉庫領域進行的學術研究,
特別是在澳大利亞。 物品短缺就證明了這一點
通過報紙或其他經文發表在數據倉庫上
當時的學者。 許多學術著作
可用描述美國的經驗。 缺乏
SL領域數據倉庫的學術研究引起了
需要嚴格的研究和實證研究(McFadden 1996,
香克斯等人。 1997 年,利特爾和吉布森 1999 年)。 特別是,研究
實施過程研究 數據倉庫
需要做的事情是擴展知識
一般關於實施 數據倉庫 e
將作為未來研究的基礎(Shanks ed
其他的。 1997 年,利特爾和吉布森 1999 年)。
因此,這項研究的目的是研究它到底是什麼
它發生在組織維護和使用數據時
澳大利亞倉庫。 具體來說,這項研究將涉及
整個開發流程分析 數據倉庫,
從啟動和設計開始,一直到設計和
組織內的實施和後續使用
澳大利亞人。 此外,該研究還將有助於當前的實踐
確定可以進一步開展實踐的領域
改進和低效率和風險可以最小化或
避免了。 此外,它將作為其他研究的基礎 數據倉庫 in
澳大利亞並將填補目前文獻中存在的空白。
研究問題
這項研究的目的是研究所涉及的活動
在實施中 數據倉庫 以及它們的使用
澳大利亞組織。 特別是對元素進行了研究
關於項目規劃、開發等
涉及的操作、使用和風險。 因此問題
這項研究是:
“目前的做法如何 數據倉庫 在澳大利亞?”
為了有效應對這一問題,
附屬研究問題的數量。 特別是,三
從文獻中已經確定了子問題,即
在第 2 章中介紹,以指導該研究項目:
我是如何實施的 數據倉庫 由組織
澳大利亞人? 遇到什麼問題?
體驗有什麼好處?
在回答這些問題時,使用了一張圖
採用調查的探索性研究。 我如何學習
探索性,上述問題的答案並不完整
(Shanks 等人,1993 年;Denscombe,1998 年)。 在這種情況下,它是
需要三角測量來改進對這些的響應
要求。 但是,調查將為
未來的工作將研究這些問題。 詳細的
討論研究方​​法的合理性和設計
在第 3 章中介紹。
研究項目的結構
本研究項目分為兩部分:情境研究
數據倉庫的概念和實證研究(見
圖 1.1),下面將分別討論其中的每一個。
第一部分:情境研究
研究的第一部分包括對
當前關於各種類型的數據倉庫的文獻,包括我
決策支持系統(DSS)、信息系統
高管(EIS),案例研究 數據倉庫 和日期概念
倉庫。 另外,論壇的結果 數據倉庫 和眾神
由專家組領導的專家和專業人士會議小組
莫納什 DSS 研究,為本階段的研究做出了貢獻
旨在獲取有關數據實踐的信息
倉庫並確定採用它們所涉及的風險。
在這段時間的情境學習中,理解
問題領域的建立是為了提供以下方面的知識
為後續的實證研究奠定基礎。 然而,這
在研究進行時是一個持續的過程
研究。
第二部分:實證研究
數據倉庫這個相對較新的概念,特別是
在澳大利亞,已經產生了進行調查的必要性
全面了解使用體驗。 這
一旦問題域解決,部分就完成了
通過廣泛的文獻綜述建立。 這個概念
上下文研究階段的數據倉庫格式是
被用作本研究初始問卷的輸入。
此後,對調查問捲進行了審查。 你們都是約會專家
倉庫參加了測試。 測試目的
最初的調查問卷是為了檢查完整性和準確性
一些問題。 根據測試結果,問卷是
已編輯,編輯後的版本已發送至
調查參與者。 當時返回的問卷是
分析了我 數據 表格、圖表和其他格式。 這
的分析結果 數據 形成快照
澳大利亞數據倉庫實踐。
數據倉庫概述
數據倉庫的概念隨著改進而發展
的計算機技術。
它旨在克服群體遇到的問題
應用程序支持,例如決策支持系統 (DSS) e
執行信息系統(EIS)。
過去,這些應用程序的最大障礙是
這些應用程式無法提供 數據庫
分析所必需的。
這主要是工作性質造成的
領導。 公司管理層的利益不同
不斷取決於治療的區域。 因此我 數據
這些應用程序的基礎必須能夠
根據要治療的部位迅速變化。
這意味著我 數據 必須以表格形式提供
足以進行所需的分析。 事實上,支持團體
應用程序發現過去收集 ed 有很多困難
積分 數據 來自複雜多樣的來源。
本節的其餘部分概述了
數據倉庫以及如何 數據倉庫 可以超過
應用程序支持組問題。
術語“數據倉庫由 William Inmon 於 1990 年發行。
它經常被引用的定義看到 數據倉庫 如何
收集 數據 面向主題的、集成的、非易失的和可變的
隨著時間的推移,支持管理決策。
使用這個定義 Inmon 指出我 數據 居民
在一個 數據倉庫 必須具備以下4項
卡拉特:
▪ 主題導向
▪ 集成
▪ 非易失性
▪ 隨時間變化
面向主題的英蒙意味著我 數據 在日期
最大的組織區域中的倉庫
在模型中定義 數據. 例如所有 數據 關於我 客戶
包含在主題區域中 客戶. 同樣所有
數據 與產品相關的內容包含在主題區域中
產品。
通過 Integrated Inmon 意味著我 數據 來自不同的
平台、系統和位置被組合併存儲在
唯一的地方。 因此 數據 相似必須改造
以一致的格式添加和比較
容易地。
例如,代表男性和女性性別
在一個系統中用字母 M 和 F,在另一個系統中用字母 1 和 0。 為了
以正確的方式整合它們,一種或兩種格式必須
進行轉換,使兩種格式相同。 在這個
在這種情況下,我們可以將 M 更改為 1,將 F 更改為 0,反之亦然。 定位自己
subject 和 Integrated 表示 數據倉庫 專為
提供功能性和橫向性的視野 數據 在旁邊
該公司的。
通過非易失性,他的意思是我 數據數據倉庫 保持
的一致性和更新性 數據 沒有必要。 相反,每個
在某一方面的變化 數據 原件被添加到 數據庫 刪除數據
倉庫。 這意味著歷史學家 數據 包含在
數據倉庫.
對於具有時間的變量 Inmon 表示 i 數據數據倉庫
始終包含速度指示器 ei 數據 通常
跨越一定的時間範圍。 例如一個
數據倉庫 可以包含5年的歷史價值 客戶 DAL
1993 年至 1997 年。歷史記錄和時間序列的可用性
數據 允許您分析趨勢。
Un 數據倉庫 他可以自己收集 數據 從系統
OLTP;從起源 數據 組織外部和/或其他特殊人員
捕獲系統項目 數據.
I 數據 提取物可以經過清洗過程,在
這個案例我 數據 他們在被改造和整合之前
存儲在 數據庫 德爾 數據倉庫. 然後我 數據
居住在 數據庫 德爾 數據倉庫 可供使用
最終用戶訪問和恢復工具。 使用
最終用戶可以訪問這些工具的集成視圖
的組織 數據.
I 數據 居住在 數據庫 德爾 數據倉庫 他們是
以詳細和摘要格式存儲。
摘要的級別可能取決於摘要的性質 數據。 我 數據
詳細可能包括 數據 當前和 數據 歷史學家
I 數據 真正的不包括在 數據倉庫 直到我 數據
數據倉庫 重新更新。
除了存儲 數據 他們自己,一個 數據倉庫 也能
存儲不同類型的 拿督 稱為元數據
描述我 數據 住在他的 數據庫.
有兩種類型的元數據:開發元數據和通過元數據
分析。
開發元數據用於管理和自動化
提取、清洗、映射和裝載的過程 數據
數據倉庫.
開發元數據中包含的信息可能包含
操作系統的詳細信息,要提取的元素的詳細信息,
模型 數據 德爾 數據倉庫 以及公司規定
皈依 數據.
第二種元數據,稱為分析元數據
使最終用戶能夠探索數據的內容
倉庫找到 數據 可用及其含義
清晰且非技術性。
因此,分析元數據充當數據之間的橋樑
倉庫和最終用戶應用程序。 這個元數據可以
包含商業模式、描述 數據 匹配
到業務模型、預定義的查詢和報告,
用戶登錄和索引的信息。
分析和開發元數據必須合二為一
集成元數據容器以正常工作。
不幸的是,許多現有工具都有自己的
元數據,目前還沒有現成的標準
它們允許數據倉庫工具集成這些
元數據。 為了糾正這種情況,許多交易者
主要的數據倉庫工具已經形成元數據
後來成為元數據聯盟的理事會。
這個聯盟的目的是建立一組元數據
允許不同數據倉庫工具的標準
轉換元數據
他們的努力促成了 Meta 的誕生
允許交換的數據交換規範 (MDIS)
Microsoft 存檔和相關 MDIS 文件之間的信息。
的存在 數據 總結/索引和詳細給出
用戶執行 DRILL DROWN 的可能性
(鑽孔)來吧 數據 索引到詳細的,反之亦然。
的存在 數據 詳細的歷史記錄可以實現
隨時間變化的趨勢分析。 此外分析元數據可以
用作del目錄 數據庫 德爾 數據倉庫
幫助最終用戶找到我 數據 必要的。
與 OLTP 系統相比,它們能夠支持
分析 數據 和報告, 數據倉庫 它被視為一個系統
更適合信息處理,例如進行和
回答查詢並生成報告。 下一節
將詳細突出兩個系統的差異。
數據倉庫 針對 OLTP 系統
組織內的許多信息系統
它們旨在支持日常運營。 這些
稱為 OLTP 系統的系統,捕獲事務
每日持續更新。
I 數據 這些系統中的內容經常被更改、添加或
刪除。 例如,客戶的地址幾乎沒有變化
他從一個地方搬到另一個地方。 在這種情況下,新地址
將通過更改地址字段進行註冊 數據庫.
這些系統的主要目標是降低成本
交易,同時減少處理時間。
OLTP 系統的示例包括寫入等關鍵操作
訂單會計、工資單、發票、製造、人工智能服務 客戶.
與 OLTP 系統不同,OLTP 系統是按流程創建的
基於交易和事件,我 數據倉庫 他們被創造
提供基於分析的過程支持 數據
決策過程。
這通常是通過集成 i 數據 來自各種系統
OLTP 和外部在一個“容器”中 數據,正如所討論的
在上一節中。
莫納什數據倉庫流程模型
過程模型為 數據倉庫 蒙納士由
莫納什 DSS 研究小組的研究人員基於
的文獻 數據倉庫,關於allo支持的經驗
系統領域的開發,與供應商的討論
應用程序用於 數據倉庫專家組
在使用 數據倉庫.
這些階段是:啟動、規劃、開發、運營和
解釋。 該圖解釋了迭代的本質
的進化發展 數據倉庫 過程使用
雙向箭頭位於不同階段之間。 在這個
“迭代”和“進化”上下文意味著,在每個
過程的步驟,實施活動可以是
總是向後傳播到前一階段。 這是
由於項目的性質 數據倉庫 內爾·奎爾
隨時提出額外要求
最終用戶的。 例如,在開發階段
的過程 數據倉庫, 一個是最終用戶請求的
新的維度或主題領域,它不是
原始計劃,必須將其添加到系統中。 這
導致項目發生變化。 結果是團隊
設計必須改變迄今為止創建的文檔的要求
在設計階段。 在許多情況下,當前的狀態
項目必須一路回到設計階段
必須添加並記錄新請求。 用戶
final 一定要能看到具體修改後的文檔 ei
開發階段發生的變化。 在......的最後
在這個開發週期中,項目需要得到很好的反饋
兩個團隊,開發團隊和用戶團隊。 這
然後再利用反饋來改進未來的項目。
容量規劃
DW 的規模往往非常大並且會不斷增長
很快(Best 1995,Rudin 1997a)跟隨
的數量 數據 歷史性的,他們從他們的存在中保留下來。 那裡
增長也可能是由於 數據 額外要求
用戶價值增加 數據 他們已經擁有了。 從
因此,存儲要求 數據 能夠
顯著增強(Eckerson 1997)。 所以,它是
通過進行規劃來確保
容量,要構建的系統可以隨著
不斷增長的需求(Best 1995、LaPlante 1996、Lang 1997、
Eckerson 1997,Rudin 1997a,Foley 1997a)。
在規劃 dw 可伸縮性時,必須知道
倉庫規模的預期增長,問題類型
可能被製作,以及支持的最終用戶數量(最佳
1995 年,Rudin 1997b,Foley 1997a)。 構建可擴展的應用程序
它需要技術和可擴展服務器技術的結合
可擴展應用程序設計 (Best 1995, Rudin 1997b.
兩者都是構建應用程序所必需的
極具可擴展性。 可擴展的服務器技術可以
使添加存儲、內存和
CPU 不會降低性能(Lang 1997,Telephony 1997)。
有兩種主要的可擴展服務器技術:計算
對稱復用 (SMP) 和大規模處理
並行 (MPP) ) (IDC 1997, Humphries et al. 1999)。 一台服務器
SMP通常有多個處理器共享一個內存,
總線系統和其他資源(IDC 1997,Humphries 等人 1999)。
可以添加額外的處理器以增加
動力 計算的。 另一種增加的方法
動力 SMP服務器的計算能力,就是將眾多的
SMP 機器。 這種技術稱為聚類(Humphries
等人。 1999)。 另一方面,MPP 服務器具有多個處理器,每個處理器
擁有自己的內存、總線系統和其他資源(IDC 1997,
漢弗萊斯等人。 1999)。 每個處理器稱為一個節點。 A
增加 動力 計算可得
向 MPP 服務器添加額外的節點 (Humphries et al.
1999)。
SMP 服務器的一個弱點是太多的輸入輸出操作
(I/O) 可能會導致總線系統擁塞(IDC 1997)。 這
MPP 服務器中不會出現問題,因為每個
處理器有自己的總線系統。 然而,互連
每個節點之間通常比總線系統慢得多
SMP 的成員。 此外,MPP服務器可以添加一個層
應用程序開發人員的額外複雜性(IDC
1997)。 因此,可以影響 SMP 和 MPP 服務器之間的選擇
受許多因素影響,包括問題的複雜程度、比率
價格/性能,所需的處理能力,
阻止了 dw 應用程序和大小的增加 數據庫
dw 和最終用戶的數量。
眾多可擴展的應用程序設計技術
可用於容量規劃。 一
使用各種報告週期,例如天、週、月和年。
具有不同的通知期限, 數據庫 可以分為
件很容易分組 (Inmon et al. 1997)。 另一個
技術是使用構建的匯總表
加起來 數據 da 數據 詳細的。 因此,我 數據 總結比較多
緊湊而不是詳細,需要更少的內存空間。
所以 數據 詳細信息可以歸檔為一個單元
更便宜的存儲,從而節省更多押金。
雖然使用匯總表可以節省空間
記憶,他們需要付出很多努力才能使它們保持最新並處於
符合商業需求。 然而,這種技術是
廣泛使用並經常與該技術結合使用
以前(最佳 1995,Inmon 1996a,Chauduri 和 Dayal
1997)。
定義 數據倉庫 技術
架構 技術的定義
dw架構
數據倉庫的最初採用者主要構想
dw 的集中實現,其中所有 數據, 包括
i 數據 外部,被集成到一個單一的,
物理存儲庫(Inmon 1996a,Bresnahan 1996,Peacock 1998)。
這種方法的主要好處是最終用戶
他們能夠訪問企業家規模的視圖
(企業範圍視圖)dei 數據 組織(Ovum 1998)。 其他
優點是它提供了標準化 數據 通過
組織,這意味著只有一個版本或
存儲庫 dw 中使用的每個術語的定義
(存儲庫)元數據(Flanagan 和 Safdie 1997,Ovum 1998)。 這
另一方面,這種方法的缺點是它既昂貴又困難
待建 (Flanagan and Safdie 1997, Ovum 1998, Inmon et al.
1998). 不久後的存儲架構 數據
中心化流行,萃取概念演變
的最小子集 數據 支持的需求
具體應用(Varney 1996,IDC 1997,Berson 和 Smith
1997 年,孔雀 1998 年)。 這些小系統是從更大的系統派生出來的
數據倉庫 集中。 他們被命名為日期
依賴部門倉庫或依賴數據集市。
依賴數據集市架構稱為
三層架構,其中第一層由數據組成
中央倉庫,第二個由倉庫組成 數據
部門和第三個包括訪問 數據 並從工具
分析(Demarest 1994,Inmon 等人 1997)。
數據集市通常是在 數據倉庫
集中式的建立是為了滿足
具體單位(White 1995,Varney 1996)。
數據集市存儲 i 數據 與細節非常相關
統一(Inmon 等人,1997 年,Inmon 等人,1998 年,IA 1998 年)。
這種方法的好處是不會有 拿督
集成,我 數據 它們在數據中的冗餘度會更少
集市以來所有 數據 來自存款 數據 融合的。
另一個優點是每個之間的鏈接會更少
數據集市及相關來源 數據 因為每個數據集市只有
的來源 數據. 加上這個架構,用戶
用戶仍然可以訪問概覽 數據
企業組織。 這種方法被稱為
自上而下的方法,其中數據集市是在數據之後構建的
倉庫(peacock 1998,Goff 1998)。
越來越需要儘早顯示結果,一些
組織已經開始建立獨立的數據集市
(弗拉納根和薩夫迪 1997,懷特 2000)。 在這種情況下,數據集市
他們拿走他們的 數據 直接從基礎 數據 OLTP 而非此後
集中和集成存儲,從而消除了對
有中央存儲庫。
每個數據集市至少需要一個指向其來源的鏈接
di 數據. 每個日期都有多個鏈接的一個缺點
mart的是,相較於前兩種架構,
過多的 數據 顯著增加。
每個數據集市都必須存儲所有 數據 當地要求
對 OLTP 系統沒有影響。 這導致我 數據
它們存儲在不同的數據集市中(Inmon et al. 1997)。
這種架構的另一個缺點是它會導致
在數據集市和他們的數據集市之間創建複雜的互連
的來源 數據 很難執行和控制(Inmon ed
其他的。 1997)。
另一個缺點是最終用戶可能無法供電
訪問公司信息概述,因為我 數據
不同數據集市的數據沒有集成(Ovum 1998)。
還有一個缺點是可能有多個
它生成的數據集市中使用的每個術語的定義
不一致的 數據 在組織中(Ovum 1998)。
儘管有上面討論的缺點,獨立的數據集市
仍然吸引了許多組織的興趣(IDC 1997)。
使它們具有吸引力的一個因素是它們的開發速度更快
並且需要更少的時間和資源(Bresnahan 1996,Berson e
史密斯 1997 年,卵子 1998 年)。 因此,他們主要服務於
作為可用於識別的測試設計
快速了解項目中的好處和/或缺陷(Parsaye
1995 年,布拉利 1995 年,紐寧 1996 年)。 在這種情況下,部分來自
在試點項目中實施必須小而重要
組織(Newing 1996,Mansell-Lewis 1996)。
通過檢查原型,最終用戶和管理人員可以
決定是繼續還是停止項目(Flanagan 和 Safdie
1997)。
如果決定繼續,其他行業的數據集市
他們應該一次建造一個。 有兩種選擇
終端用戶根據自己的數據建設需求
獨立矩陣:集成/聯合和未集成(Ovum
1998)
在第一種方法中,應構建每個新的數據集市
基於當前的數據集市和模型 數據 使用
由公司(Varney 1996,Berson 和 Smith 1997,Peacock 1998)。
使用模型的必要性 數據 公司的需要
確保每個術語只有一個定義
通過數據集市來使用,這也是為了保證數據
可以合併不同的集市以概述
公司信息(Bresnahan 1996)。 這個方法是
稱為自下而上,當有限制時是最好的
時間和經濟手段(Flanagan 和 Safdie 1997,Ovum 1998,
孔雀 1998 年,高夫 1998 年)。 第二種方法,數據集市
建成只能滿足特定單位的需要。
聯合數據集市的一個變體是 數據倉庫 分散式
其中 數據庫 hub服務器中間件用於合併多個
單個存儲庫中的數據集市 數據 分佈(White 1995)。 在
這種情況下,我 數據 業務分佈在多個數據集市中。
最終用戶請求轉發至 數據庫
中心服務器中間件,提取所有 數據 按數據要求
集市並將結果反饋給最終用戶應用程序。 這
方法向最終用戶提供業務信息。 然而,
數據集市問題仍未消除
獨立的。 可以使用另一種架構,即
打電話給 數據倉庫 虛擬(White 1995)。 然而,這
圖 2.9 中描述的體系結構不是體系結構
的存儲 數據 真實,因為它不會移動負載
從 OLTP 系統到 數據倉庫 (Demarest 1994)。
事實上,要求 數據 最終用戶已經放棄了人工智能
處理後返回結果的 OLTP 系統
用戶請求。 儘管這種架構允許用戶
最終生成報告並製定請求,無法提供
數據 公司信息的歷史和概述,因為我 數據
因為不同的 OLTP 系統沒有集成。 所以這
架構無法滿足分析 數據 複雜如
示例預測。
選擇訪問應用程序和
恢復的 數據
建設目的 數據倉庫 是傳達
向最終用戶提供信息(Inmon et al. 1997,Poe 1996,
McFadden 1996,Shanks 等人 1997,Hammergren 1998); 一個或
多路訪問和恢復應用程序 數據 必須提供。 到
今天,用戶可以在這些應用程序中找到各種各樣的應用程序
選擇 (Hammergren 1998, Humphries et al. 1999)。 這
選定的應用程序決定工作的成功
的存儲 數據 在一個組織中,因為
應用程序是最明顯的部分 數據倉庫 給用戶
final (Inmon et al. 1997, Poe 1996)。 成功約會
倉庫,必須能夠支持數據分析活動 數據
最終用戶(Poe 1996,Seddon 和 Benjamin 1998,Eckerson
1999). 所以最終用戶想要的“水平”必須是
確定(Poe 1996,Mattison 1996,Inmon 等人 1997,
漢弗萊斯等人,1999)。
一般來說,最終用戶可以分為三類
類別:執行用戶、業務分析師和高級用戶 (Poe
1996 年,漢弗萊斯等人 1999 年)。 執行用戶需要
輕鬆訪問預定義的報告集(Humphries ed
其他 1999)。 這些報告可以很容易地實現
菜單導航(Poe 1996)。 此外,報告應
使用圖形表示呈現信息
例如表格和模板,以快速交付
信息(Humphries 等,1999)。 商業分析師,他們不
他們可能有技術能力來建立關係
自己歸零,需要能夠更改當前報告
滿足他們的特定需求(Poe 1996,Humphries 等
1999). 另一方面,高級用戶是最終用戶的類型
能夠生成和編寫請求和報告
零(Poe 1996,Humphries 等人 1999)。 他們是那些
為其他類型的用戶開發報告(Poe 1996,Humphries
等人,1999)。
一旦確定了最終用戶的需求,就需要完成
一系列訪問和恢復應用程序 數據 全部當中
可用的 (Poe 1996, Inmon et al. 1997)。
進入 數據 和檢索工具可以
分為4類:OLAP工具、EIS/DSS工具、查詢工具和
報告和數據挖掘工具。
OLAP 工具允許用戶創建臨時查詢以及
那些在 數據庫 德爾 數據倉庫. 再加上這些產品
允許用戶向下鑽取 數據 一般對那些
詳細的。
EIS/DSS 工具提供執行報告,例如“假設”分析
並訪問按菜單組織的報告。 報告必須是
預定義並與菜單合併,以便於導航。
查詢和報告工具允許用戶生成報告
預定義的和特定的。
數據挖掘工具用於識別關係
可以為被遺忘的操作提供新的思路 數據 德爾
數據倉庫。
除了優化各類用戶的需求外,我
所選工具必須直觀、高效且易於使用。
它們還必須與架構的其他部分兼容
能夠與現有系統一起工作。 還建議
選擇具有價格和性能的數據訪問和檢索工具
合理的。 其他需要考慮的標準包括
支持其產品和相關開發的工具供應商
本身將在未來的版本中。 確保用戶參與
在使用數據倉庫時,開發團隊涉及
用戶在工具選擇過程中。 在這種情況下
應對用戶進行實際評估。
為了提高數據倉庫的價值,開發團隊可以
還提供對其數據倉庫的網絡訪問。 A
支持網絡的數據倉庫允許用戶訪問 數據
來自偏遠地區或旅行時。 資料也可以
通過降低成本以較低的成本提供
迪訓練。
2.4.3 數據倉庫 運營階段
此階段由三項活動組成: 定義日期策略
刷新、控制數據倉庫活動和管理
數據倉庫安全。
數據刷新策略的定義
初始加載後,我 數據數據庫 數據倉庫的
必須定期刷新才能玩我
所做的更改 數據 原件。 所以我們必須決定
何時刷新,應該多久刷新一次
刷新以及如何刷新 數據. 建議執行以下操作
刷新的 數據 系統何時可以脫機。 那裡
刷新率由開發團隊根據
關於用戶要求。 刷新方法有兩種
數據倉庫:完整刷新和持續加載
坎比亞門蒂
第一種方法,完全刷新,需要重新加載
所有 數據 從頭開始。 這意味著所有的 數據 要求必須
被提取、清理、轉換並集成到每次刷新中。 這
方法應盡可能避免,因為
這需要大量的時間和資源。
另一種方法是連續加載 i
變化。 這增加了我 數據 已更改
自上次數據倉庫刷新周期以來。 鑑定
新的或更改的記錄顯著減少了
數據 必須將其傳播到每個中的數據倉庫
更新,因為只有這些 數據 將被添加到 數據庫
的數據倉庫。
至少有5種方法可以用來提款
i 數據 新的或修改的。 為了獲得有效的策略
刷新的 數據 這些方法的混合可能有用
獲取系統中的所有更改。
第一種方法使用時間戳,假設它來了
分配給所有 數據 以某種方式修改和更新時間戳
能夠輕鬆識別所有 數據 修改和新的。
但這種方法在大多數情況下並沒有得到廣泛應用
當今操作系統的一部分。
第二種方法是使用由
僅包含對以下內容所做的更改的應用程序 數據.
使用此文件還可以延長更新周期。
然而,即使是這種方法也沒有被很多人使用
應用程序。
第三種方法是掃描日誌文件,該文件
基本上包含類似於增量文件的信息。 唯一的
區別在於,為恢復過程創建一個日誌文件
這可能很難理解。
第四種方法是修改應用程序代碼。
然而,大多數應用程序代碼都是舊的並且
脆弱的; 因此應該避免這種技術。
最後一種方法是比較 i 數據 文件來源
主神 數據.
監控數據倉庫活動
一旦數據倉庫發布給用戶,
需要隨著時間的推移進行監測。 在這種情況下,管理員
數據倉庫的管理人員可以使用一種或多種管理工具
控制監控數據倉庫的使用情況。 尤其
有關人員和天氣的信息可能會收集在
他們訪問數據倉庫。 快點 數據 收集可以創建
可用作輸入的所執行工作的概況
在用戶退款實施中。 退款
允許用戶了解處理成本
數據倉庫。
此外,數據倉庫控制也可用於
識別查詢的類型、它們的大小、每個查詢的數量
天,對查詢的反應時間,到達的部門和數量
di 數據 處理。 進行檢查的另一個目的
數據倉庫是識別我 數據 哪些沒有被使用。 這些 數據
它們可以從數據倉庫中刪除以縮短時間
查詢執行響應並控制增長
數據 誰居住在 數據庫 的數據倉庫。
數據倉庫安全管理
數據倉庫包含 數據 集成的、關鍵的、敏感的
可以輕鬆到達。 為此應
免受未經授權的用戶。 一種方式
實現安全是使用del函數 DBMS
為不同類型的用戶分配不同的權限。 在這個
方式,必須為每種類型的用戶維護一個配置文件
使用權。 保護數據倉庫的另一種方法是對其進行加密
正如它所寫的 數據庫 的數據倉庫。 進入
數據 並且檢索工具必須解密 數據 在提交之前我
結果給用戶。
2.4.4 數據倉庫 部署階段
它是數據倉庫實施週期的最後階段。 這
這一階段要開展的活動包括培訓
用戶使用數據倉庫並創建評論
的數據倉庫。
用戶培訓
應首先進行用戶培訓
訪問 數據 數據倉庫和工具的使用
恢復。 一般來說,會話應該從
存儲概念的介紹 數據,到
數據倉庫內容,ai meta 數據 和基本特徵
的工具。 然後,更高級的用戶還可以學習
數據訪問和工具的物理表和用戶特徵
恢復。
有很多方法可以進行用戶培訓。 之一
這些提供了由一個選擇的許多用戶或分析師的選擇
一組用戶,依靠他們的領導能力和技能
溝通。 這些都是以個人身份接受培訓的
他們需要知道的一切來熟悉
系統。 培訓結束後,他們又回到工作崗位
他們開始教其他用戶如何使用該系統。 在
根據他們所學到的,其他用戶可以開始投放廣告
探索數據倉庫。
另一種方法是用相同的方式訓練許多用戶
時間,就好像你在上課堂課程一樣。 這個方法
適用於需要培訓的用戶較多時
同時。 還有一種方法是訓練
每個用戶單獨,一個接一個。 這個方法是
適合用戶少的時候。
用戶培訓的目的是讓他們熟悉
可以訪問 數據 以及檢索工具以及內容
數據倉庫。 但是,一些用戶可能會不知所措
按會議期間提供的信息量
訓練。 所以必須做一些
更新會議正在進行的援助並做出回應
到具體問題。 在某些情況下,一組
用戶提供此類支持。
收集反饋
數據倉庫推出後,用戶可以
使用我 數據 出於各種目的駐留在數據倉庫中。
大多數情況下,分析師或用戶使用 i 數據
數據倉庫用於:
1 確定公司趨勢
2 分析採購概況 客戶
3 分裂我 客戶 和我
4 提供最好的服務 客戶 – 定制服務
5 制定策略 市場營銷
6 為成本分析和幫助提供有競爭力的報價
控制
7 支持戰略決策
8 確定出現的機會
9 提高當前業務流程的質量
10 檢查利潤
按照數據倉庫的發展方向,他們可以
進行一系列系統審查以獲得反饋
來自開發團隊和用戶社區
終端用戶。
獲得的結果可以考慮用於
下一個開發週期。
由於數據倉庫採用增量方法,
必須從以前的成功和錯誤中吸取教訓
事態發展。
2.5 總結
在本章中,已經討論了
文學。 在第 1 節中討論了 的概念
數據倉庫及其在決策科學中的作用。 在裡面
第 2 節描述了兩者之間的主要區別
數據倉庫和 OLTP 系統。 在第 3 節中,我們討論了
根據 Monash 所使用的數據倉庫模型
在第 4 節中描述該流程中涉及的活動
數據倉庫的開發,這些論文並不是基於
嚴謹的研究。 現實中發生的事情可以是
與文獻報導的非常不同,但是這些
結果可用於創建一個基本的行李
您在這項研究中強調了數據倉庫的概念。
第3章
研究與設計方法
本章討論了研究和設計方法
這項研究。 第一部分顯示了方法的通用視圖
此外,搜索引擎還可用於信息檢索
討論了選擇最佳方法的標準
具體研究。 在第 2 節中,討論了兩種方法
按照剛剛規定的標准進行選擇; 其中將被選擇 ed
採用了第 3 節中列出的原因
還解釋了排除其他標準的原因。 那裡
第 4 節介紹研究項目和第 5 節 le
結論。
3.1 信息系統研究
信息系統的研究不僅僅限於
技術領域,但也必須擴展到包括
行為和組織目的。
我們將這歸功於各個學科的論文,包括
社會科學到自然科學; 這導致需要一個
涉及定量方法的某些研究方法
和定性用於信息系統。
所有可用的研究方法都很重要,事實上有幾種方法
Jenkins (1985)、Nunamaker 等人的研究人員。 (1991), 和 Galliers
(1992) 認為沒有通用的特定方法
在信息系統的各個領域進行研究; 的確
一種方法可能適用於特定的研究,但不適合
為他人。 這使我們需要選擇一種方法
適合我們的特定研究項目:對於這個
選擇 Benbasat 等人。 (1987) 指出他們應該被考慮
研究的性質和目的。
3.1.1 研究性質
根據研究的性質可以採用不同的方法
分為科學界廣為人知的三個傳統
信息:實證主義、解釋性和批判性研究。
3.1.1.1 實證研究
實證研究也稱為科學研究或
經驗。 它旨在:“解釋並預測將會發生什麼
社會世界通過觀察規律和因果關係
構成它的元素之一”(Shanks et al 1993)。
實證研究的另一個特點是可重複性,
簡化和反駁。 此外實證主義研究承認
研究現象之間存在先驗關係。
根據 Galliers (1992) 的說法,分類法是一種研究方法
包括在實證主義範式中,但並不限於此,
其實有實驗室實驗,現場實驗,
案例研究、定理證明、預測和模擬。
研究人員承認,使用這些方法,這些現象
可以客觀、嚴格地觀察研究。
3.1.1.2 解釋性研究
解釋性研究,通常稱為現象學或
Neuman (1994) 將反實證主義描述為“分析
通過直接和直接的行動的社會意義的系統學
對自然情境中的人進行詳細觀察,以便
來理解和解釋如何
人們創造並維護他們的社交世界。 學習
解釋理論拒絕這樣的假設:觀察到的現象
可以客觀觀察。 事實上他們是基於
關於主觀解釋。 此外,解釋性研究者並不
他們將先驗意義強加於他們研究的現象。
這種方法包括主觀/論證研究、
研究、描述性/解釋性研究、未來研究和遊戲
角色。 除了這些調查和案例研究之外,還可以
包括在這種方法中,因為它們涉及的研究
處於復雜情況的個人或組織
現實世界的。
3.1.1.3 批判性研究
批判性研究是科學中最不為人所知的方法
社會但最近受到研究人員的關注
在信息系統領域。 哲學假設是
社會現實是由人們歷史性地生產和再生產的,
以及社會系統及其行為和相互作用。 他們的
然而,能力是由許多因素決定的
社會、文化和政治。
與解釋性研究一樣,批判性研究認為
實證主義研究與社會背景無關,忽略了
它對人類行為的影響。
另一方面,批判性研究批評解釋性研究
太主觀以及為什麼它沒有幫助
人們為了改善他們的生活。 之間最大的區別
批判性研究和其他兩種方法是其評價維度。
雖然實證主義和解釋性傳統的客觀性是為了
預測或解釋現狀或社會現實,批判性研究
旨在批判性地評估和改變社會現實
工作室。
批判性研究人員通常反對現狀,以便
消除社會差異,改善社會條件。 那裡
批判性研究致力於過程觀
感興趣的現象,因此通常是縱向的。
研究方法的例子有長期歷史研究和
民族志研究。 然而,批判性研究尚未得到證實
廣泛應用於信息系統研究
3.1.2 研究目的
除了搜索的性質外,還可以使用其目的
指導研究人員選擇特定的方法
研究。 研究項目的目的密切相關
到搜索相對於搜索週期的位置,該搜索週期包括
三個階段:理論構建、理論檢驗和理論完善
理論。 因此,基於動量與搜索週期的關係,
研究項目可以有解釋性的、描述性的、
探索或預測。
3.1.2.1 探索性研究
探索性研究旨在調查一個主題
全新的並提出研究問題和假設
未來。 這種類型的搜索用於構建
理論以獲得新領域的初步參考。
通常,使用定性研究方法,例如案例研究
研究或現象學研究。
然而,也可以使用定量技術,例如
探索性調查或實驗。
3.1.3.3 描述性搜索
描述性研究的目的主要是分析和描述
詳細說明特定情況或組織實踐。 這
它適合於構建理論,也可用於
確認或質疑假設。 通常是描述性搜索
包括測量和样本的使用。 最適合的研究方法
包括調查和背景分析。
3.1.2.3 解釋性研究
解釋性研究試圖解釋事情發生的原因。
它建立在已經研究過的事實之上,並試圖找到
這些事實的原因。
因此解釋性研究通常建立在研究的基礎上
探索性或描述性的,是為了測試和完善而輔助的
理論。 解釋性研究通常採用案例研究
或基於調查的研究方法。
3.1.2.4 先發製人的研究
先發製人的研究旨在預測事件和行為
正在研究的觀察中(馬歇爾和羅斯曼
1995). 預測是對真理的標準科學檢驗。
這種類型的研究通常採用調查或數據分析
數據 歷史學家。 (尹1989)
上述討論表明,有許多
研究中可能使用的研究方法
特別的。 但是,必須有一種更適合的特定方法
其他用於特定類型的研究項目。 (加利耶
1987, Yin 1989, De Vaus 1991)。 因此,每個研究人員都有
需要仔細評估的優勢和劣勢
各種方法,以達到採用最合適的研究方法 e
與研究項目兼容。 (詹金斯 1985,Pervan 和 Klass
1992 年,Bonomia 1985 年,Yin 1989 年,Hamilton 和 Ives 1992 年)。
3.2. 可能的搜索方法
這個項目的目標是研究經驗
澳大利亞組織與我 數據 與一個存儲
斯維盧波迪 數據倉庫. 拿督 目前,有一個
澳大利亞缺乏數據倉庫領域的研究,
本研究項目尚處於循環理論階段
研究並具有探索性目的。 探索經驗
採用數據倉庫的澳大利亞組織
需要對現實社會的解讀。 因此,
該研究項目的哲學假設如下
傳統的解釋。
經過對可用方法的嚴格檢查後,已確定它們
兩種可能的研究方法:調查和案例研究
(案例研究),可用於研究
探索性的 (Shanks et al. 1993)。 Galliers (1992) 認為
這兩種方法對於這項特定研究的適用性
其分類法經過修改,表示它們適合建築
理論上的。 以下兩小節討論了
細節。
3.2.1 調查研究方法
調查研究方法源於古代的方法
人口普查。 人口普查是關於從
整個人口。 這種方法既昂貴又不切實際
特別是在人口眾多的情況下。 所以相比
人口普查,一項調查通常側重於
收集一小部分或樣本的信息
人口的代表 (Fowler 1988, Neuman 1994)。 A
樣本反映了從中抽取的總體,具有不同的
準確度水平,根據樣品的結構,
大小和使用的選擇方法(Fowler 1988,Babbie
1982 年,諾伊曼 1994 年)。
調查方法被定義為“實踐快照,
在特定時間點的情況或觀點,使用
問卷或訪談,從中可以得出推論
製作”(Galliers 1992:153)[實踐的快照攝影,
特定時間點的情況或觀點,使用
調查問卷或訪談,從中可以做出推論]。 這
調查收集某些方面的信息
該研究由許多參與者進行,使得
問題(Fowler 1988)。 即使是這些問捲和訪談,
包括面對面的電話訪談和結構化訪談,
是收集技術 數據 最常用於
調查(Blalock 1970,Nachmias 和 Nachmias 1976,Fowler
1988), 觀察和分析可以使用 (Gable
1994)。 在所有這些收集神的方法中 數據, 指某東西的用途
問卷調查是最流行的技術,因為它確保我 數據
收集的數據是結構化和格式化的,從而有利於
信息分類(Hwang 1987,de Vaus 1991)。
在分析我 數據,調查策略通常採用
定量技術,例如統計分析,但可以
還採用了定性技術(Galliers 1992,Pervan
和 Klass 1992,Gable 1994)。 通常,我 數據 收集到的是
用於分析關聯的分佈和模式
(福勒,1988)。
儘管調查通常適用於搜索
處理“什麼?”的問題(什麼)或來自它
推導,例如“how much”(多少)和“quant”è(多少),它們
可以通過“為什麼”問題來詢問(Sonquist 和
鄧克爾伯格 1977,尹 1989)。 根據松奎斯特和鄧克爾伯格的說法
(1977),研究調查指向困難的假設,程序 di
評估,描述人口和發展模式
人類行為。 此外,還可以使用調查
研究人口、條件的某種意見,
意見、特徵、期望甚至過去的行為
或現在(Neuman 1994)。
調查使研究人員能夠發現事物之間的關係
人口和結果通常比
其他方法(Sonquist 和 Dunkelberg 1977,Gable 1994)。 這
調查允許研究人員覆蓋一個地理區域
更廣泛並接觸到大量的註冊人(Blalock 1970,
Sonquist 和 Dunkelberg 1977,Hwang 和 Lin 1987,Gable 1994,
紐曼 1994)。 最後,調查可以提供信息
在別處或以分析所需的形式無法獲得
(福勒,1988)。
然而,進行調查也有一些限制。 一
缺點是研究人員無法獲得太多信息
關於研究的對象。 這是因為
調查僅在特定時刻進行,因此,
研究人員可以使用的變量和人員數量有限
研究(Yin 1989,de Vaus 1991,Gable 1994,Denscombe 1998)。
另一個缺點是進行調查可能會導致
在時間和資源方面非常昂貴,特別是如果
涉及面對面訪談(Fowler 1988)。
3.2.2. 探究式研究法
探究式研究方法涉及對以下問題的深入研究:
在其真實上下文中的特定情況
規定的時間段,不受任何干預
研究員 (Shanks & C. 1993, Eisenhardt 1989, Jenkins 1985)。
這種方法主要用於描述之間的關係
在特定情況下研究的變量
(加利爾斯 1992)。 調查可能涉及個別案件或
倍數,取決於所分析的現象(Franz 和 Robey 1987,
艾森哈特 1989,尹 1989)。
探究式研究方法被定義為“探究式
研究當代現象的實證研究
它的真實背景,使用從一個o中挑選的多個來源
多個實體,如人、團體或組織”(Yin 1989)。
現象與其背景之間沒有明顯的分離
沒有變量的控製或實驗操作(Yin
1989 年,Benbasat 等人,1987 年)。
收集神器的技巧有很多種 數據 他們可以
調查方法中採用的方法包括
直接觀察、檔案記錄審查、問卷調查、
文件審查和結構化訪談。 有
多種收穫技術 數據, 調查
允許研究人員同時處理 數據 定性的
同時數量 (Bonoma 1985, Eisenhardt 1989, Yin
1989 年,蓋博 1994 年)。 與調查方法的情況一樣,
調查研究人員充當觀察員或研究人員,而不是
作為研究組織的積極參與者。
Benbasat 等人 (1987) 斷言查詢方法是
特別適用於研究理論建設,
它從一個研究問題開始,然後繼續進行培訓
收集過程中的理論 數據。 存在
也適合舞台
關於理論構建,Franz 和 Robey (1987) 認為
對於復雜的情況也可以採用查詢方式
理論階段。 在本案中,根據收集到的證據,
給定的理論或假設得到證實或證偽。 另外,調查是
也適合處理“如何”或“如何”問題的研究
“因為”(Yin 1989)。
與其他方法相比,調查使研究人員能夠
更詳細地捕捉基本信息(Galliers
1992 年,Shanks 等人,1993 年)。 此外,調查允許
研究人員了解所研究過程的性質和復雜性
(Benbasat 等人,1987 年)。
該方法有四個主要缺點
調查。 首先是缺乏受控扣除。 那裡
研究人員的主觀性可能會導致研究結果和結論產生偏差
的研究(Yin 1989)。 第二個缺點是缺乏
控制觀察。 不同於實驗方法,
調查研究者無法控制所研究的現象
因為它們是在自然環境中被檢驗的(Gable 1994)。 這
第三個缺點是缺乏可複制性。 這是由於以下事實
研究人員不太可能觀察到相同的事件,e
它無法驗證特定研究的結果(Lee 1989)。
最後,由於不可複制性,很難
概括從一項或多項調查中獲得的結果(Galliers
1992 年,Shanks 等人,1993 年)。 然而,所有這些問題並不
是不可克服的,事實上,可以通過
研究人員採取適當的行動(Lee 1989)。
3.3. 證明研究方法的合理性
採用
從本研究的兩種可能的研究方法來看,
調查被認為是最合適的。 詢問的內容是
經過仔細考慮相關內容後被放棄
優點和缺點。 每個的方便或不適當
本研究的方法將在稍後討論。
3.3.1. 研究方法不當
詢問的
探究方法需要深入研究
一個或多個組織內的特定情況
一段時間(Eisenhardt 1989)。 在這種情況下,期間可以
超出本研究規定的時間範圍。 其他
不採用詢問法的原因是結果
他們可能會因缺乏嚴謹性而受到困擾(Yin 1989)。 主觀性
研究人員的態度會影響結果和結論。 其他
原因是這種方法更適合問題搜索
類型為“如何”或“為什麼”(Yin 1989),而研究問題
對於本研究來說,它的類型是“什麼”。 最後但並非最不重要的
重要的是,僅憑一件事很難概括結果
很少有調查(Galliers 1992,Shanks et al. 1993)。 基礎上
這個道理,探究性研究方法並不
被選為不適合本研究。
3.3.2. 便捷的搜索方式
調查
在進行這項研究時,數據倉庫的實踐
尚未被廣泛採用
澳大利亞組織。 所以,沒有太多信息
關於其在
澳大利亞組織。 可獲得的信息來自
來自已經實施或使用數據的組織
倉庫。 在這種情況下,調查研究方法是最有效的。
合適,因為它允許獲取不存在的信息
可在其他地方獲得或以分析所需的形式獲得(Fowler 1988)。
此外,調查研究方法使研究人員能夠
深入了解實踐、情況或
在給定時間看到的(Galliers 1992,Denscombe 1998)。
已要求進行概述以增加
了解澳大利亞數據倉庫經驗。
Sonquist 和 Dunkelberg (1977) 再次指出,結果
調查研究比其他方法更普遍。
3.4. 調查研究設計
對數據倉庫實踐的調查是在 1999 年進行的。

目標人群由組織組成
對數據倉庫研究感興趣,因為他們
可能已經通知了我 數據 哪家商店和
因此,它可以為本研究提供有用的信息。 那裡
通過初步調查確定了目標人群
“數據倉庫協會”(Tdwiaap) 的所有澳大利亞成員。
本節討論研究階段設計
這項研究的經驗。
3.4.1. 採集技術 數據
從調查研究中常用的三種技術
(即郵寄問卷、電話訪談和麵談
個人)(Nachmias 1976,Fowler 1988,de Vaus 1991),
本研究採用郵寄問卷的方式。 首先
採用後者的原因是它可以實現
地理上分散的人口(Blalock 1970,Nachmias e
Nachmias 1976,Hwang 和 Lin 1987,de Vaus 1991,Gable 1994)。
其次,郵寄問卷適合參與者
受過高等教育(Fowler 1988)。 為此郵寄問卷
研究對像是數據倉庫項目發起人,
項目總監和/或經理。 三、問卷調查
當您有安全列表時,郵件是合適的
地址(Salant 和 Dilman 1994)。 TDWI,在這種情況下,一
可信數據倉庫協會提供了郵件列表
其澳大利亞成員。 問卷的另一個優點
通過郵件與電話調查問卷或訪談
個性化的是,它允許註冊者做出更多回應
準確性,尤其是當受訪者需要諮詢時
筆記或與其他人討論問題(福勒
1988)。
一個潛在的缺點可能是需要時間
通過郵寄方式進行調查問卷。 一般情況下,一份問卷就可以了
郵件按以下順序進行:發送信件,等待
響應並發送確認(Fowler 1988,Bainbridge 1989)。
因此,總時間可能比所需時間更長
個人訪談或電話訪談。 但是,那
總時間可以提前知道(Fowler 1988,
登斯科姆 1998)。 進行採訪所花費的時間
個人無法提前獲知,因為它不同於
一次採訪另一次採訪(Fowler 1988)。 電話採訪
可能比郵寄問捲和電子郵件更快
個人面試,但錯過率可能很高
由於某些人無法及時響應(Fowler 1988)。
此外,電話採訪通常僅限於以下名單:
相對較短的問題(Bainbridge 1989)。
郵寄調查問卷的另一個缺點是回收率較高。
缺乏回應(Fowler 1988,Bainbridge 1989,Neuman
1994)。 不過,相關部門已經採取了應對措施
這項研究是與值得信賴的數據機構合作進行的
倉儲(即 TDWI)(Bainbridge 1989,Neuman 1994),
向那些沒有回复的人發送兩封提醒信
(Fowler 1988,Neuman 1994)還包括一封信
解釋研究目的的補充(N​​euman 1994)。
3.4.2. 分析單元
本研究的目的是獲取有關
數據倉庫的實施及其使用
澳大利亞組織內。 目標人群
由所有澳大利亞組織組成
已實施或正在實施,我 數據倉庫. 。 In在
各個組織的名稱如下。 問卷調查
它已郵寄給有興趣採用的組織
di 數據倉庫。 該方法確保信息
館藏來自各個組織最合適的資源
參與者。
3.4.3. 調查樣本
調查參與者的“郵件列表”來自
TDW 擴展。 在此列表中,有 3000 個澳大利亞組織
被選為抽樣的依據。 A
解釋項目和調查目的的補充信,
以及答題卡和預付信封
將填好的調查問卷寄回給樣本。
在 3000 個組織中,有 198 個組織同意參加
學習。 預計回複數量如此之少 拿督 il
他們當時擁有大量澳大利亞組織
接受或正在接受約會策略
其組織內的倉儲。 所以
本研究的目標人群僅包括 198
組織。
3.4.4. 問卷內容
問卷結構基於數據模型
莫納什倉儲(前面已在 2.3 部分討論過)。 這
問卷內容是基於分析
第 2 章中介紹的文獻。 調查問卷副本
可以找到郵寄給調查參與者的
見附錄 B。調查問卷由六個部分組成,分別是
遵循處理模型的階段。 以下六段
簡要概括每個部分的內容。
A 部分:有關組織的基本信息
本節包含與個人資料相關的問題
參與組織。 另外,一些問題是
與數據倉庫項目的狀況有關
參與者。 姓名等機密信息
調查分析中沒有披露該組織的具體情況。
B 部分:開始
本節中的問題與入門相關
數據倉庫。 有人問多少錢
它涉及項目發起者、贊助者、技能和知識
請求、數據倉庫開發目標,以及
最終用戶的期望。
C 部分:設計
本節包含與活動相關的問題
規劃的 數據倉庫。 具體來說,問題是
說明執行範圍、項目持續時間、成本
項目的概況和成本/效益分析。
D 部分:發展
在開發部分有與活動相關的問題
發展 數據倉庫:用戶需求收集
最後,來源 數據,邏輯模型 數據,原型,
容量規劃、技術架構和選擇
數據倉庫開發工具。
E 部分:操作
與操作ed相關的操作問題
的可擴展性 數據倉庫,當它演變成
下一階段的發展。 那裡 數據質量,策略
刷新的 數據,粒度 數據數據可擴展性
倉庫及安全問題 數據倉庫 他們之間
提出的問題類型。
F 部分:發展
本節包含與使用數據相關的問題
最終用戶的倉庫。 研究人員很感興趣
為了目的和效用 數據倉庫、回顧和策略
採用的訓練和數據的控制策略
倉庫採用。
3.4.5。 反應速度
儘管郵寄調查因調查率較低而受到批評
反應較低,已採取措施增加
回報率(如前面部分討論的
3.4.1)。 術語“響應率”是指
特定調查樣本中做出回應的人
調查問卷(Denscombe 1998)。 使用了以下內容
計算本研究響應率的公式:
回复人數
響應率=
——————————————————————————– X 100
發送問卷總數
3.4.6。 試飛員
在將調查問捲髮送給樣本之前,問題是
根據 Luck 的建議,通過進行試點測試進行了檢查
以及魯賓 (1987)、傑克遜 (1988) 和德沃斯 (1991)。 的目的
試點測試是為了揭示所有尷尬、曖昧和表情
難以解釋的問題,澄清任何
使用的定義和術語並確定大致時間
需要完成調查問卷(Warwick 和 Lininger 1975,
傑克遜 1988,薩蘭特和迪爾曼 1994)。 試點試驗是
通過選擇具有相似特徵的受試者來進行
正如戴維斯 e 所建議的,最終科目的 科森扎 (1993)。 在
在這項研究中,六名數據倉庫專業人員
選定為試點課題。 每次試點測試後,他們
已進行必要的更正。 從進行的試點測試來看,我
參與者幫助重塑和重置
調查問卷的最終版本。
3.4.7. 分析方法
I 數據 從封閉式問卷中收集的調查數據是
使用統計軟件包進行分析
簡稱SPSS。 許多回复已被分析
使用描述性統計。 若干問卷
他們回來時並不完整。 這些都經過長輩的治療
注意確保我 數據 失踪的不是一個
數據輸入錯誤的後果,但為什麼不提出問題
適合申報者,或申報者決定不適合
回答一個或多個具體問題。 這些答案
解析時丟失被忽略 數據 並且已經
編碼為“-9”以確保將其排除在進程之外
分析。
在準備問卷時,封閉式問題
通過為每個選項分配一個數字來進行預編碼。 號碼
然後它被用來準備我 數據 分析過程中
(Denscombe 1998,Sapsford 和 Jupp 1996)。 例如,有
B 部分問題 1 中列出的六個選項:建議
董事會、高級管理人員、IT部門、單位
商業、顧問等。 在文件中 數據 SPSS 的
生成一個變量來指示“項目發起人”,
有六個值標籤:“1”代表“board”,“2”代表“board”
“高級管理人員”等。 Likertin量表的使用
在一些封閉的問題中它也獲得了許可
考慮到價值的使用,不需要付出任何努力的識別
在SPSS中輸入相應的數字。 對於問題
非詳盡的答案,並不相互排斥,
每個選項都被視為一個帶有兩個變量的變量
值標籤:“1”表示“已標記”,“2”表示“未標記”。
開放式問題與問題的處理方式不同
關閉。 這些問題的答案尚未發佈在
統計軟件。 相反,它們是手工分析的。 使用這個
問題類型允許您獲取有關想法的信息
自由表達和註冊者的個人經歷
(Bainbridge 1989,Denscombe 1998)。 在可能的情況下,它已經完成
響應的分類。
為了分析 數據,使用簡單的統計分析方法,
例如響應頻率、平均值、標準差
平均值和中位數(Argyrous 1996,Denscombe 1998)。
伽瑪測試對於獲得定量測量是有效的
之間的關聯 數據 序數(Norusis 1983,Argyrous 1996)。
這些測試是適當的,因為所使用的序數尺度不是
它們有很多類別,可以顯示在表格中
(諾魯西斯 1983)。
3.5 總結
本章介紹了研究方法和
本研究採用的設計。
選擇最合適的搜索方法
特別研究考慮到
考慮許多規則,包括性質和類型
的研究,以及每種可能的優點和缺點
方法(Jenkins 1985,Benbasat 等人 1097,Galliers 和 Land 1987,
yin 1989,Hamilton 和 ives 1992,Galliers 1992,neuman 1994)。 看法
缺乏相關的現有知識和理論
澳大利亞數據倉庫採用情況,這項研究由
研究需要具有一定技能的解釋性研究方法
探索性地探索組織的經驗
澳大利亞人。 您的搜索方法已選擇為
收集有關採用日期概念的信息
由澳大利亞組織倉儲。 A
選擇郵寄問卷作為收集方式 數據。 “
研究方法和收集技術的理由 數據
本章將提供選擇。 再加上它是
提出了關於分析單位、樣本的討論
使用情況、答复率、調查問卷內容、
問卷預測試及分析方法 數據.

設計 數據倉庫:
結合實體關係和維度建模
摘要
商店我 數據 對許多人來說這是一個重要的當前問題
組織。 發展中的一個關鍵問題
的存儲 數據 這是他的設計。
設計必須支持數據中概念的檢測
倉庫到遺留系統和其他來源 數據 還有一個
輕鬆理解數據並高效實施
倉庫。
許多倉儲文獻 數據 推薦的
使用實體關係建模或維度建模
代表設計 數據倉庫.
在這本雜誌中,我們展示瞭如何
表示可以結合在一種方法中
的圖畫 數據倉庫。 使用的方法是系統地
在案例研究中進行了檢驗,並在許多案例中得到了確定
對專業人士具有重要意義。
數據倉庫
Un 數據倉庫 通常被定義為“以主題為導向,
集成的、時變的、非易失性的數據收集以支持
管理決策”(Inmon 和 Hackathorn,1994)。
學科導向和綜合性表明 數據倉庫 è
旨在跨越遺留系統的功能邊界
提供綜合視角 數據.
時變與視頻的歷史或時間序列性質有關 數據 in
un 數據倉庫,從而可以分析趨勢。
非易失性表明 數據倉庫 它不是連續的
更新為 數據庫 OLTP 的。 而是更新了
定期地,與 數據 來自內部和外部來源。 這
數據倉庫 它是專門為研究而設計的
而不是為了更新完整性和性能
操作。
存儲i的想法 數據 這並不新鮮,這是目的之一
的管理的 數據 自六十年代以來(Il Martin,1982)。
I 數據倉庫 他們提供基礎設施 數據 用於管理
支持系統。 管理支持系統包括決策
支持系統(DSS)和執行信息系統(EIS)。
DSS 是一個基於計算機的信息系統
旨在改進工藝,從而提高抓地力
人類的決定。 EIS 通常是一個交付系統
數據 使業務主管能夠輕鬆訪問視圖
數據.
A的一般架構 數據倉庫 突出了的作用
數據倉庫 在管理支持方面。 除了提供
基礎設施 數據 對於 EIS 和 DSS,al 數據倉庫 有可能
通過查詢直接訪問它。 這 數據 包含在日期中
倉庫是基於對信息需求的分析
管理並從三個來源獲得:內部遺留系統,
專用數據採集系統和外部數據源。 這
數據 在內部遺留系統中經常是冗餘的,
脆弱、質量低且以多種格式存儲
因此,在將它們加載到之前,需要對它們進行協調和清理
數據倉庫 (英蒙,1992 年;麥克法登,1996 年)。 這 數據
來自存儲系統 數據 特別的和來自來源的 數據
外部通常用於增強(更新、替換)i
數據 來自遺留系統。
有許多令人信服的理由來開發 數據倉庫,
其中包括通過使用做出更好的決策
有效的更多信息(Ives 1995),支持焦點
整個業務(Graham 1996),以及成本的降低
提供 數據 對於 EIS 和 DSS(Graham 1996,McFadden
1996)。
最近的一項實證研究發現,平均而言,回報率為
為我的投資 數據倉庫 三年後增長了 401%(Graham,
1996)。 然而,其他實證研究 數據倉庫
發現了重大問題,包括難以測量 ed
分配利益、缺乏明確目的、低估利益
存儲 i 過程的範圍和復雜性 數據
特別是關於原料的來源和清潔度 數據.
商店我 數據 可以考慮作為解決方案
到管理問題 數據 組織之間。 那裡
操縱 數據 作為一種社會資源,它仍然是
整個信息系統管理的關鍵問題
多年來(Brancheau 等人,1996 年,Galliers 等人,1994 年,
尼德曼等人。 1990,佩爾萬 1993)。
流行的資產管理方法 數據 那是在八十年代
模型的開發 數據 社會的。 模型 數據 社會它是
旨在為新系統的開發提供穩定的基礎
應用程序和 數據庫 以及遺產重建和整合
系統(Brancheau 等人。
1989 年,古德休等人。 1988:1992,Kim 和珠穆朗瑪峰 1994)。
然而,這種方法存在很多問題,
特別是每項任務的複雜性和成本以及長時間
需要有切實的成果(Beynon-Davies 1994,Earl
1993 年,古德休等人。 1992 年,佩里亞薩米 1994 年,尚克斯 1997 年)。
Il 數據倉庫 它是一個與遺留數據庫共存的獨立數據庫
數據庫而不是替換它們。 因此,它可以讓您
直接管理 數據 並避免昂貴的重建
遺留系統。
現有的數據設計方法
倉庫
建立和完善的過程 數據倉庫
應該更多地將其理解為一個進化過程,而不是一個
傳統系統開發生命週期(代西奧, 1995, 香克斯,
奧唐納和阿諾特 1997a)。 一個過程涉及很多流程
的項目 數據倉庫 如初始化、調度;
根據公司經理的要求獲得的信息;
來源、轉化、清潔 數據 並從舊版同步
系統和其他來源 數據; 正在開發的輸送系統;
監測 數據倉庫; 以及過程的無意義
的進化和構建 數據倉庫 (小腿,奧唐納
和阿諾特 1997b)。 在本期刊中,我們重點關注如何
畫我 數據 存儲在這些其他進程的上下文中。
有許多建議的數據架構方法
文獻中的倉庫(Inmon 1994,Ives 1995,Kimball 1994
麥克法登 1996)。 這些方法中的每一種都有一個簡短的介紹
審查並分析他們的優點和缺點。
Inmon (1994) 的方法 數據倉庫
設計
Inmon (1994) 提出了四個迭代步驟來設計數據
倉庫(見圖2)。 第一步是設計模板
數據 社交來了解我如何 數據 可以集成
組織內的跨職能領域
細分我 數據 存放在地區。 模型 數據 它是為
儲藏 數據 與決策有關的,包括 數據
歷史性的,並包括 數據 扣除並彙總。 第二步是
確定實施的主題領域。 這些都是基於
特定組織確定的優先事項。 第三
步驟涉及繪製一個 數據庫 對於主題區域,姿勢
特別注意包括適當的粒度級別。
Inmon 建議使用實體和關係模型。 第四
步驟是識別源系統 數據 需要並發展
捕獲、清理和格式化 i 的轉換過程 數據.
Inmon 方法的優點在於該模型 數據 社會的
為整合提供基礎 數據 組織內
數據迭代開發的支持和規劃
倉庫。 它的缺陷是繪圖難度和成本
模特兒 數據 社會,理解實體模型的困難
兩個模型中使用的關係 數據 社會和 數據
按主題區域存儲,以及存儲的適當性 數據 德爾
的圖畫 數據倉庫 為了實現 數據庫
相關但不適合 數據庫 多維的。
Ives (1995) 的方法 數據倉庫
設計
Ives (1995) 提出了一個四步方法來設計
他認為適用於日期設計的信息系統
倉庫(見圖3)。 該方法很大程度上基於
用於信息系統開發的信息工程
(馬丁 1990)。 第一步是確定目標、因素
成功案例和關鍵績效指標。 這
關鍵業務流程和必要的信息是
建模引導我們找到模型 數據 社會的。 第二步
它涉及一個架構的開發,該架構定義了 數據
按區域存儲, 數據庫 di 數據倉庫, 組件
所需的技術、組織支持的集合
需要實施和操作 數據倉庫。 第三
步驟包括選擇所需的軟件包和工具。
第四步,詳細設計和施工
數據倉庫。 艾夫斯指出,商店 數據 他是一個紐帶
迭代過程。
艾夫斯方法的優勢在於使用技術規範
確定信息需求,使用結構化的
支持整合的流程 數據倉庫,
選擇適當的硬件和軟件,並使用多種
表示技術 數據倉庫。 他的缺點
它們具有固有的複雜性。 其他包括困難
發展許多層次 數據庫 All'interno del 數據倉庫 in
合理的時間和成本。
Kimball (1994) 的方法 數據倉庫
設計
Kimball (1994) 提出了設計數據的五個迭代步驟
倉庫(見圖4)。 他的做法特別
專注於僅一幅圖畫 數據倉庫 以及模板的使用
維度優先於實體和關係模型。 金博爾
分析這些維度模型,因為它對於我來說更容易理解
企業高管在處理事務時更有效率
複雜的諮詢和設計 數據庫 體力更重要
高效(Kimball 1994)。 金博爾承認,開發
數據倉庫 是迭代的,並且 數據倉庫 單獨的罐頭
通過劃分為維度表進行整合
常見的。
第一步是確定要研究的特定主題領域
完善的。 第二步和第三步涉及塑造
維度。 在第二步中,措施確定了以下事項:
對主題領域的興趣並分組到事實表中。
例如,在銷售主題領域中,興趣指標
它們可以包括銷售的商品數量和美元
作為銷售貨幣。 第三步涉及識別
維度是對 i 進行分組的方式
事實。 在銷售主題區域中,相關維度
可以包括項目、地點和時間段。 那裡
事實表有一個多部分鍵來鏈接到每個部分
維度表,通常包含非常大的數量
注重事實。 相反,維度表包含
有關尺寸和其他屬性的描述性信息
可用於對事實進行分組。 事實表e
與提案相關的維度形成所謂的“一”
星形圖案因其形狀而定。 第四步涉及
建造一個 數據庫 多維度去完善它
星形圖案。 最後一步是識別源系統 數據
需要並製定轉型流程來獲取、清潔
並格式化我 數據.
Kimball 方法的優點包括使用模板
代表 i 的維度 數據 存儲使其
易於理解並帶來高效的物理設計。 A
維度模型也很容易使用兩者
的系統 數據庫 關係可以完善或者係統
數據庫 多維的。 其缺陷包括缺乏
一些技術來促進規劃或整合
多星計劃合一 數據倉庫
從極端非規範化結構進行設計的難度
維度模型a 數據 在遺留系統中。
McFadden (1996) 的數據方法
倉庫設計
McFadden (1996) 提出了一個五步法
畫一個 數據倉庫 (見圖 5)。
他的方法基於對文獻中的想法的綜合
並專注於繪製獨奏 數據倉庫。 首先
步驟涉及需求分析。 雖然具體情況
技術沒有規定,麥克法登的筆記確定了
實體 數據 規範及其屬性,並引用 Watson 閱讀器
和 Frolick (1993) 來捕獲需求。
第二步,繪製實體關係模型
數據倉庫 然後由公司高管進行驗證。 第三
步驟包括確定來自遺留系統的映射
和外部來源 數據倉庫。 第四步涉及
開發、部署和同步的流程 數據
數據倉庫。 最後一步,系統的交付是
重點開髮用戶界面。
McFadden指出繪圖過程一般是
迭代。
麥克法登方法的優勢在於參與
業務主管在確定要求時也
資源的重要性 數據他們的清潔和收集。 她
問題與缺乏細分程序有關
大項目的 數據倉庫 在許多綜合階段,並且有
難以理解設計中使用的實體和關係模型
數據倉庫.

    0/5 (0 則評論)
    0/5 (0 則評論)
    0/5 (0 則評論)

    從線上網路代理處了解更多信息

    訂閱以透過電子郵件接收最新文章。

    作者頭像
    管理員 CEO
    👍線上網路代理|數位行銷和 SEO 的網路代理商專家。網路代理在線是一個網絡代理。對於Agenzia Web Online 而言,數位轉型的成功是基於Iron SEO 版本3 的基礎。專業:系統整合、企業應用程式整合、服務導向的架構、雲端運算、資料倉儲、商業智慧、大數據、入口網站、內部網路、Web 應用程式關係資料庫和多維資料庫的設計和管理數位媒體介面設計:可用性和圖形。線上網路代理商為公司提供以下服務: - Google、Amazon、Bing、Yandex 上的 SEO; - 網路分析:Google Analytics、Google 標籤管理器、Yandex Metrica; - 使用者轉換:Google Analytics、Microsoft Clarity、Yandex Metrica; -Google、Bing、亞馬遜廣告上的 SEM; -社群媒體行銷(Facebook、Linkedin、Youtube、Instagram)。
    我的敏捷隱私
    本網站使用技術和分析 cookie。 單擊接受即表示您授權所有分析 cookie。 通過單擊拒絕或 X,所有分析 cookie 都會被拒絕。 通過單擊自定義,可以選擇要激活的分析 cookie。
    本網站遵守《資料保護法》(LPD)、25 年 2020 月 2016 日瑞士聯邦法律以及 GDPR、歐盟第 679/XNUMX 號條例中有關個人資料保護以及此類資料自由流動的規定。