fbpx

數據倉庫和企業資源規劃| DWH 和 ERP

檔案 DATA 中央:歷史版 進化

90 年代企業技術的兩個主導主題是 數據倉庫 和企業資源規劃系統。 很長一段時間以來,這兩個強大的流一直是企業 IT 的一部分,從未有過交集。 就好像它們是物質和反物質一樣。 但這兩種現象的發展不可避免地導致了它們的交集。 今天,公司面臨著如何使用 ERP 和 數據倉庫. 本文將解釋問題是什麼以及公司如何解決這些問題。

在開始時…

一開始有 數據倉庫. 數據倉庫 它是為了對抗交易處理應用系統而誕生的。 早期的記憶 數據 它本來只是與事務處理應用程序相對應的。 但是現在對於什麼是一個 數據倉庫. 在當今世界上 數據倉庫 它被插入到一個可以稱為企業信息工廠的結構中。

企業信息工廠 (到岸價)

企業信息工廠具有標準的架構組件:一個代碼集成和轉換層,它集成了 i 數據 當我 數據 他們從應用程序環境轉移到 數據倉庫 該公司的; 一種 數據倉庫 我所在的公司 數據 詳細和綜合的歷史記錄。 這 數據倉庫 企業的基礎是構建環境的所有其他部分的基礎 數據倉庫; 操作數據存儲 (ODS)。 ODS 是一種混合結構,包含 數據倉庫 以及 OLTP 環境的其他方面; 數據集市,不同的部門可以有自己的版本 數據倉庫; 一種 數據倉庫 探索公司思想家可以提交他們的 72 小時查詢而不會對公司產生不利影響 數據倉庫; 和一個近線存儲器,其中 數據 舊的和 數據 批量細節可以便宜地存儲。

ERP 與 企業信息工廠

ERP 在兩個地方與公司信息工廠合併。 主要作為提供 i 的基準應用程序 數據 申請的 數據倉庫. 在這種情況下我 數據,作為交易過程的副產品生成,被集成並加載到 數據倉庫 該公司的。 ERP 和 CIF 之間的第二個鏈接是 ODS。 事實上,在許多環境中,ERP 被用作經典的 ODS。

如果 ERP 被用作基本應用程序,同樣的 ERP 也可以在 CIF 中用作 ODS。 在任何情況下,如果要在兩種角色中使用 ERP,則必須明確區分這兩個實體。 也就是說,當ERP扮演基礎應用和ODS角色時,必須區分這兩個架構實體。 如果 ERP 的單一實施試圖同時履行這兩個角色,那麼該結構的設計和實施將不可避免地出現問題。

單獨的 ODS 和基本應用程序

導致架構組件劃分的原因有很多。 分離架構的不同組件最明顯的一點可能是架構的每個組件都有自己的視圖。 基線應用程序服務於與 ODS 不同的目的。 嘗試重疊

ODS 世界的基線應用程序視圖或反之亦然不是一種公平的工作方式。

因此,CIF 中的 ERP 的第一個問題是驗證基線應用程序和 ODS 之間是否存在區別。

企業數據模型 信息工廠

為了實現 CIF 架構的不同組件之間的凝聚力,必須有一個模型 數據. 的模型 數據 它們充當架構的各個組件(例如基線應用程序和 ODS)之間的鏈接。 的型號 數據 它們成為從 CIF 的不同架構組件中獲取正確含義的“知識路線圖”。

與這個概念齊頭並進,這個想法是應該有一個大而單一的模式 數據. 顯然必須有一個模式 數據 對於每個組件,還必須有一條連接不同模型的合理路徑。 架構的每個組件——ODS、基線應用程序、 數據倉庫 公司的等等.. – 需要自己的模型 數據. 因此,必須準確定義這些模型如何 數據 它們相互連接。

移動我 DATA ERP 日期 倉庫

如果起源於 數據 是基線應用程序和/或 ODS,當 ERP 插入 i 數據數據倉庫, 這種插入必鬚髮生在最低的“粒度”級別。 簡單地回顧或匯總我 數據 因為它們來自 ERP 基線應用程序或 ERP ODS 並不是正確的做法。 這 數據 細節需要在 數據倉庫 形成 DSS 過程的基礎。 這樣的 數據 它們將通過數據集市和探索以多種方式重塑 數據倉庫.

的位移 數據 從ERP基線應用環境到 數據倉庫 公司的工作以一種相當輕鬆的方式進行。 此移動發生在 ERP 中更新或創建後大約 24 小時。 有一個“懶惰”運動的事實 數據數據倉庫 公司允許 數據 來自 ERP 的“結算”。 有一次,我 數據 存儲在基線應用程序中,然後您可以安全地移動 數據 ERP在企業中的作用。 另一個可以實現的目標要歸功於“懶惰”的運動 數據 是操作過程和 DSS 之間的明確界限。 隨著“快速”的運動 數據 DSS 和運營之間的界限仍然模糊。

伊爾·莫維門托·德伊 數據 從 ERP 的 ODS 到 數據倉庫 公司定期進行,通常是每週或每月。 在這種情況下,運動 數據 它是基於需要“清理”舊的 數據 歷史學家。 當然,ODS 包含 i 數據數據 歷史學家發現 數據倉庫.

的位移 數據數據倉庫 它幾乎從不“批發”(以批發商的方式)。 從ERP環境複製一張表到 數據倉庫 它沒有任何意義。 一個更現實的方法是移動選定的單位 數據. 只有 數據 自上次更新以來已發生變化 數據倉庫 是那些應該被移動到 數據倉庫. 一種知道哪些的方法 數據 自上次更新以來發生了變化是查看時間戳 數據 在 ERP 環境中發現。 設計者選擇自上次更新以來發生的所有更改。 另一種方法是使用變更捕獲技術 數據. 使用這些技術分析日誌和日誌磁帶以確定哪些 數據 必須從 ERP 環境轉移到 數據倉庫. 這些技術是最好的,因為可以從 ERP 文件中讀取日誌和日誌磁帶,而不會進一步影響其他 ERP 資源。

其他並發症

CIF 中的 ERP 問題之一是其他應用程序源或 ai 會發生什麼 數據 的消耗臭氧層物質必須有助於 數據倉庫 但它們不是 ERP 環境的一部分。 鑑於 ERP 的封閉性,尤其是 SAP,試圖集成來自外部資源的密鑰 數據 和我在一起 數據 來自搬家時的 ERP 數據數據倉庫,這是一個很大的挑戰。 我的概率到底是多少 數據 ERP 環境之外的應用程序或 ODS 將集成到 數據倉庫? 機率其實非常高。

尋找 DATA 來自 ERP 的歷史

另一個問題 數據 ERP 是源於需要有 數據 歷史學家在 數據倉庫. 通常是 數據倉庫 需求 數據 歷史學家。 而ERP技術通常不存儲這些 數據 歷史的,至少在一定程度上沒有必要 數據倉庫. 當大量的 數據 日誌開始在 ERP 環境中累積,該環境需要清理。 例如,假設一個 數據倉庫 應該載滿五年 數據 歷史的,而 ERP 最多保留六個月的這些 數據. 只要公司滿意,徵集一批 數據 隨著時間的流逝成為歷史,那麼使用 ERP 作為 數據倉庫. 但是當 數據倉庫 必須回到過去取回神靈 數據 如果 ERP 之前沒有收集和保存記錄,那麼 ERP 環境就會變得低效。

ERP 和元數據

關於 ERP 和 數據倉庫 是關於 ERP 環境中現有元數據的。 正如元數據從 ERP 環境轉移到 數據倉庫,元數據必須以相同的方式移動。 此外,元數據必須轉換為基礎設施所需的格式和結構 數據倉庫. 操作元數據和 DSS 元數據之間存在很大差異。 操作元數據主要用於開發人員和

程序員。 DSS 元數據主要供最終用戶使用。 ERP 應用程序或 ODS 中的現有元數據需要轉換,而這種轉換並不總是簡單明了。

採購 ERP 數據

如果將 ERP 用作 數據數據倉庫 必須有一個堅實的界面來移動我 數據 從ERP環境到環境 數據倉庫. 接口必須:

  • ▪ 易於使用
  • ▪ 允許訪問 數據 ERP的
  • ▪ 了解以下內容的含義 數據 正在被轉移到 數據倉庫
  • ▪ 了解訪問 ERP 時可能出現的限制 數據 ERP的:
  • ▪ 參照完整性
  • ▪ 層級關係
  • ▪ 隱式邏輯關係
  • ▪ 應用公約
  • ▪ 所有的結構 數據 由ERP支持,等等...
  • ▪ 訪問效率高 數據, 通過提供:
  • ▪ 直接移動 數據
  • ▪ 獲取變化 數據
  • ▪ 支持及時訪問 數據
  • ▪ 了解格式 數據, 等等… 與 SAP 的接口 接口可以有兩種類型,本土的或商業的。 一些主要的商業接口包括:
  • ▪ SAS
  • ▪ 第一解決方案
  • ▪ D2k,等等…… 多種ERP技術 將 ERP 環境視為單一技術是一個大錯誤。 有許多 ERP 技術,每種技術都有其優勢。 市場上最知名的供應商是:
  • ▪ SAP
  • ▪ 甲骨文財務
  • ▪ 仁科
  • JD愛德華茲
  • ▪ 班恩斯 SAP SAP 是最大和最全面的 ERP 軟件。 SAP 應用程序包括許多領域的許多類型的應用程序。 SAP 享有以下聲譽:
  • ▪ 非常大
  • ▪ 實施起來非常困難和昂貴
  • ▪ 需要很多人和顧問來實施
  • ▪ 需要專門的人員來實施
  • ▪ 需要大量時間來實施 此外,SAP 以熟記 數據 緊密聯繫,使得 SAP 區域之外的人很難訪問它們。 SAP 的優勢在於它能夠捕獲和存儲大量的 數據. SAP 最近宣布打算將其應用程序擴展到 數據倉庫. 使用 SAP 作為供應商有很多優點和缺點 數據倉庫. 一個優勢是已經安裝了 SAP,並且大多數顧問已經熟悉 SAP。
    讓 SAP 作為供應商的劣勢 數據倉庫 很多:SAP 在世界上沒有經驗 數據倉庫 如果 SAP 是以下產品的供應商 數據倉庫,有必要“取出”我 數據 來自 SAP al 數據倉庫. 拿督 一個 SAP 的封閉系統跟踪記錄,不太容易從 SAP 中獲取 i (???)。 有許多支持 SAP 的遺留環境,例如 IMS、VSAM、ADABAS、ORACLE、DB2 等。 SAP 堅持“不是在這裡發明”的方法。 SAP 不想與其他供應商合作使用或創建 數據倉庫. SAP 堅持自己生成所有自己的軟件。

儘管 SAP 是一家強大的大公司,但試圖重寫 ELT、OLAP、系統管理甚至代碼庫的技術的事實 數據庫 這太瘋狂了。 而不是與供應商採取合作的態度 數據倉庫 長期以來,SAP 一直採用他們“最了解”的方法。 這種態度阻礙了 SAP 在 數據倉庫.
SAP 拒絕讓外部供應商及時、優雅地訪問他們的 數據. 使用的本質 數據倉庫 很容易訪問 數據. SAP 的全部故事是基於使其難以訪問 數據.
SAP 缺乏處理大量數據的經驗 數據; 在...方面 數據倉庫 有大量 數據 從 SAP 中從未見過並處理這些大量的 數據 您需要擁有合適的技術。 SAP 顯然沒有意識到進入該領域所存在的技術障礙 數據倉庫.
SAP 的企業文化:SAP 以獲取 i 為己任 數據 從系統。 但要做到這一點,你需要有不同的心態。 傳統上,擅長將數據導入環境的軟件公司並不擅長讓數據以其他方式傳輸。 如果 SAP 設法進行此類轉換,它將成為第一家這樣做的公司。

簡而言之,一家公司是否應該選擇 SAP 作為其供應商值得商榷。 數據倉庫. 一方面存在非常嚴重的風險,另一方面卻很少有回報。 但還有另一個原因阻礙了選擇 SAP 作為供應商 數據倉庫。 因為每個公司都應該有相同的 數據倉庫 所有其他公司? 這 數據倉庫 它是競爭優勢的核心。 如果每個公司都採用相同的 數據倉庫 獲得競爭優勢將是困難的,但並非不可能。 SAP 似乎認為 數據倉庫 可以看作是一個 cookie,這是他們“獲取數據”應用程序心態的又一個標誌。

沒有其他 ERP 供應商像 SAP 一樣佔據主導地位。 毫無疑問,有些公司會採用 SAP 的方式來實現他們的目標 數據倉庫 但大概是這些 數據倉庫 創建 SAP 將是龐大、昂貴且耗時的。

這些環境包括銀行櫃員處理、航空公司預訂流程、保險投訴流程等活動。 交易系統性能越好,操作流程與 DSS(決策支持系統)之間的分離需求就越明顯。 然而,有了人力資源和人事系統,您永遠不會面臨大量交易。 當然,當一個人被雇用或離開公司時,這就是交易記錄。 但相對於其他系統,HR 和人事系統根本沒有太多事務。 因此,在 HR 和人事系統中,數據倉庫的需求並不十分明顯。 在許多方面,這些系統是 DSS 系統的合併。

但是在處理數據倉庫和 PeopleSoft 時,還有一個必須考慮的因素。 在很多圈子裡,我 數據 人力資源和個人資源相對於公司的主要業務而言是次要的。 大多數公司從事製造、銷售、提供服務等業務。 人力資源和人事系統通常從屬於(或支持)公司的主要業務。 因此,這是模棱兩可且不方便的 數據倉庫 人力資源和個人資源支持分開。

PeopleSoft 在這方面與 SAP 有很大不同。 對於 SAP,必須有一個 數據倉庫. 有了 PeopleSoft,事情就不是那麼清楚了。 數據倉庫對於 PeopleSoft 是可選的。

可以說的最好的事情 數據 PeopleSoft 是 數據倉庫 可以用來存檔我 數據 與舊的人力資源和個人資源有關。 公司想要使用的第二個原因 數據倉庫 a

PeopleSoft 環境的缺點是允許訪問和免費訪問分析工具,ai 數據 由仁科提供。 但除了這些原因之外,在某些情況下,最好不要為以下原因使用數據倉庫: 數據 人民軟件。

綜上所述

有許多想法與構建一個 數據倉庫 在 ERP 軟件中。
其中一些是:

  • ▪ 有一個 數據倉庫 誰看起來像行業中的其他人?
  • ▪ ERP 的靈活性如何 數據倉庫 軟件?
  • ▪ ERP 數據倉庫 軟件可以處理大量 數據 它位於“數據倉庫 競技場”?
  • ▪ 面對簡單、廉價、耗時、ai 數據? (ERP 供應商在交付便宜、準時、易於訪問的數據方面的記錄是什麼?)
  • ▪ ERP 供應商對DSS 架構和企業信息工廠的理解是什麼?
  • ▪ ERP 供應商了解如何獲得 數據 內環境,還了解如何導出它們?
  • ▪ ERP 供應商對數據倉庫工具的開放程度如何?
    在確定放置位置時必須考慮所有這些因素 數據倉庫 這將主持我 數據 ERP等 數據. 一般來說,除非有令人信服的理由不這樣做,否則建議構建 數據倉庫 在 ERP 供應商環境之外。 卡皮托洛1 BI組織概覽要點:
    信息存儲庫的工作方式與商業智能 (BI) 架構相反:
    企業文化和 IT 會限制構建 BI 組織的成功。

技術不再是 BI 組織的限制因素。 架構師和項目規劃者的問題不是技術是否存在,而是他們是否能夠有效地實施可用的技術。

對於許多公司來說 數據倉庫 只不過是分配 i 的被動存款 數據 給有需要的用戶。 這 數據 從源系統中提取並填充到目標結構中 數據倉庫。 我 數據 運氣好的話也可以清潔它們。 然而,沒有額外的價值被添加或收集 數據 在這個過程中。

本質上,被動 dw 充其量只能提供 i 數據 乾淨且可操作的用戶協會。 信息創建和分析理解完全取決於用戶。 判斷 DW (數據倉庫) 是否成功是主觀的。 如果我們根據有效收集、整合和清理信息的能力來判斷成功 數據 公司在可預測的基礎上,那麼是的,DW 是成功的。 另一方面,如果我們將組織的信息收集、整合和利用視為一個整體,那麼 DW 是失敗的。 DW 提供很少或沒有信息價值。 結果,用戶被迫湊合,從而形成了信息孤島。 本章提出了一個全面的願景來概括企業 BI(商業智能)架構。 我們從 BI 的描述開始,然後進入信息設計和開發的討論,而不是簡單地提供 數據 給用戶。 然後討論的重點是計算您的 BI 工作的價值。 最後,我們定義了 IBM 如何滿足您組織的 BI 架構需求。

架構描述 BI的組織

強大的面向交易的信息系統現在已成為每個大型企業的日常工作,有效地為世界各地的公司創造了公平的競爭環境。

然而,要保持競爭力,現在需要以分析為導向的系統,這些系統可以徹底改變公司重新發現和使用已有信息的能力。 這些分析系統源自對豐富知識的理解 數據 可用的。 BI 可以提高整個企業所有信息的性能。 企業可以改善客戶與供應商的關係,提高產品和服務的盈利能力,產生新的更好的交易,控制風險,以及大幅削減開支等許多其他收益。 借助 BI,由於具有市場目標的應用程序,您的公司終於開始將客戶信息用作競爭資產。

擁有正確的經營方式意味著對關鍵問題有明確的答案,例如:

  • ▪ 我們的哪個 客戶 它們是讓我們賺得更多,還是讓我們賠錢?
  • ▪ 我們最好的人住在哪裡 客戶 和---關聯 /倉庫他們經常?
  • ▪ 我們的哪些產品和服務可以最有效地銷售給誰?
  • ▪ 什麼產品可以最有效地銷售給誰?
  • ▪ 哪個銷售活動更成功,為什麼?
  • ▪ 哪些銷售渠道對哪些產品最有效?
  • ▪ 我們如何改善與我們最好的人的關係 客戶? 大多數公司都有 數據 粗略回答這些問題。
    操作系統產生大量的產品、客戶和成本 數據 從銷售點、預訂、客戶服務和技術支持系統。 挑戰在於提取和利用這些信息。 許多公司只從他們的一小部分中獲利 數據 用於戰略分析。
    I 數據 剩下的,經常和我一起 數據 從政府報告和其他購買的信息等外部資源中獲取的信息是一座等待開發的金礦,並且 數據 它們只需要在您組織的信息環境中進行改進。

這些知識可以透過多種方式應用,從設計整體企業策略到與供應商的個人溝通,透過呼叫中心、發票、 網際網路 和其他要點。當今的業務環境要求 DW 和相關 BI 解決方案的發展超越了運作傳統的業務結構。 數據數據 原子級歸一化和“星形/立方體農場”。

保持競爭力所需要的是融合傳統技術和先進技術,以支持廣泛的分析領域。
最後,總體環境必須提高對公司整體的了解,確保根據分析結果採取的行動是有用的,從而使每個人都受益。

例如,假設您對自己的排名 客戶 在高風險或低風險類別中。
無論此信息是由挖掘模型還是其他方式生成的,都必須將其放入 DW 中,並使任何人都可以通過任何訪問工具(例如靜態報告、電子表格、表格或聯機分析處理 (OLAP))訪問。

然而,目前,大部分此類信息仍處於孤島中 數據 生成分析的個人或部門。 組織作為一個整體很少或根本沒有可見性以供理解。 只有將此類信息內容融入您的企業 DW,您才能消除信息孤島並提升您的 DW 環境。
發展 BI 組織有兩個主要障礙。
首先,我們有組織本身及其紀律的問題。
雖然我們無法幫助更改組織政策,但我們可以幫助了解組織的 BI 組件、其體系結構以及 IBM 的技術如何促進其發展。
要克服的第二個障礙是缺乏集成技術和調用整個 BI 空間而不是僅僅調用一個小組件的方法的知識。

IBM 正在響應集成技術的變化。 您有責任提供有意識的設計。 必須使用為不受約束的集成選擇的技術來開發此體系結構,或者至少使用遵守開放標準的技術。 此外,您的公司管理層必須確保 BI 企業按計劃進行,而不是允許因自利議程或目標而產生的信息孤島的發展。
這並不是說 BI 環境對響應不同用戶的不同需要和要求不敏感; 相反,這意味著這些個人需求和要求的實施是為了整個 BI 組織的利益。
BI 組織架構的描述可以在第 9 頁的圖 1.1 中找到。該架構展示了技術和技巧的豐富組合。
從傳統的角度來看,該架構包括以下倉庫組件

原子層。

這是整個德國之聲的基礎,也是戰略報告的核心。
I 數據 存儲在這裡將保留歷史完整性,報告 數據 包括派生指標,以及使用挖掘模型進行清理、集成和存儲。
這些的所有後續使用 數據 相關信息均來源於此結構。 這是挖礦的絕佳來源 數據 以及帶有結構化 SQL 查詢的報告

營運存款 數據 或報告基礎 數據(運營數據存儲 (ODS) 或報告 數據庫.)

這是一個結構 數據 專為技術報告而設計。

I 數據 在這些結構上方存儲和報告的信息最終可以通過集結區傳播到倉庫中,在那裡它可以用於戰略信號。

暫存區。

大多數人的第一站 數據 用於倉庫環境的是組織區。
我在這 數據 它們被整合、清洗並轉化為 數據 將填充倉庫結構的利潤

日期集市。

這部分架構代表了 數據 專門用於 OLAP。 數據集市的存在,如果我 數據 它們存儲在它們覆蓋的星型模式中 數據 在關係環境中或在文件中的多維 數據 特定 OLAP 技術(例如 DB2 OLAP 服務器)使用的專有信息不相關。

唯一的限制是該架構有助於使用 數據 多維。
該體系結構還包括關鍵的 BI 技術和技術,這些技術和技巧被區分為:

空間分析

空間對於分析師來說是一筆意外的信息,對於完成解決方案至關重要。 空間可以表示有關居住在某個位置的人的信息,以及有關該位置相對於世界其他地方的物理位置的信息。

要執行此分析,您必須首先將您的信息與緯度和經度坐標相關聯。 這稱為“地理編碼”,並且必須是倉庫原子級別的提取、轉換和加載過程 (ETL) 的一部分。

數據挖掘。

的提取 數據 允許我們的公司增加數量 客戶, 預測銷售趨勢並啟用與 i 的關係管理 客戶 (CRM),以及其他 BI 計劃。

的提取 數據 因此,它必須與 數據 倉庫並由倉庫流程支持,以確定技術和相關技術的有效和高效使用。

如 BI 體系結構所示,原子級 Dwhouse 以及數據集市是 數據 用於提取。 這些相同的屬性也必須是提取結果的接收者,以確保對最廣泛的受眾可用。

代理。

有各種“代理”可以檢查客戶的任何問題,例如公司的操作系統和數據倉庫本身。 這些代理可以是經過訓練的高級神經網絡,可以了解每個點的趨勢,例如基於促銷的未來產品需求,用於對特定情況做出反應的基於規則的引擎。 拿督 一系列情況,甚至是簡單的代理人向高層管理人員報告異常情況。 這些過程通常實時發生,因此必須與過程的移動緊密耦合 數據. 所有這些結構 數據、技術和技術確保您不會花一夜時間來生成 BI 組織。

對於小點,此活動將以漸進的步驟進行開發。
每個步驟都是一個獨立的項目工作,在您的 BI dw 或計劃中稱為迭代。 迭代可能包括實施新技術、從新技術開始、添加新框架到 數據 , 加載我 數據 額外的,或者隨著你的環境的分析擴展。 本段在第 3 章中有更詳細的討論。

除了傳統的 DW 框架和 BI 工具之外,您還需要針對 BI 組織的其他方面進行設計,例如:

客戶接觸點(Customer touch 點)。

與任何現代組織一樣,有許多客戶接觸點表明如何為您提供積極的體驗 客戶. 有商家、總機接線員、直郵、多媒體和平面廣告等傳統渠道,也有電子郵件和網絡等更流行的渠道, 數據 必須獲取、運輸、清潔、處理具有某些接觸點的產品,然後在設施中填充 數據 BI 的。

基礎知識 數據 操作和用戶關聯(操作

數據庫和用戶社區)。
在接觸點的末端 客戶 你會發現基本的 數據 公司和用戶社區的應用。 這 數據 現有的 數據 傳統必須重新統一併與 數據 從接觸點流出以滿足必要的信息。

分析師。 (分析師)

BI 環境的主要受益者是分析師。 是他受益於當前的開採 數據 可操作的,與不同來源的集成 數據 ,增強了地理分析(地理編碼)等功能,並以允許挖掘、OLAP、高級 SQL 報告和地理分析的 BI 技術呈現。 分析師訪問報告環境的主要界面是 BI 門戶。

然而,分析師並不是唯一受益於 BI 架構的人。
高管、大型用戶協會,甚至合作夥伴、供應商和我 客戶 他們應該在企業 BI 中找到好處。

回饋循環。

BI 體系結構是一個學習環境。 一個典型的開發原則是允許持久的結構 數據 通過使用的 BI 技術和採取的用戶操作進行更新。 一個例子是客戶評分。

如果銷售部門做了客戶評分的挖掘模型,比如使用新服務,那麼銷售部門不應該是唯一從該服務中受益的群體。

相反,模型挖掘應該作為企業內數據流的自然組成部分來執行,客戶評分應該成為倉庫信息上下文的集成部分,對所有用戶可見。 Bi-bI-centric IBM Suite 包括 DB2 UDB,DB2 OLAP Server 包括最重要的技術組件,定義在圖 1.1 中。

我們使用書中這個圖中出現的體系結構來為我們提供一定程度的連續性,並展示 IBM 的每個產品如何適應整個 BI 方案。

提供信息內容(提供 信息內容)

設計、開發和實施 BI 環境是一項艱鉅的任務。 設計必須包含當前和未來的業務需求。 架構圖必須全面,以包括在設計階段發現的所有結論。 執行必須始終致力於一個單一的目的:開發在設計中正式呈現並以業務需求為基礎的 BI 體系結構。

很難說紀律會確保相對成功。
這很簡單,因為您不會一下子開發一個 BI 環境,而是隨著時間的推移逐步開發。

但是,識別架構的 BI 組件很重要,原因有二: 您將推動所有後續的技術架構決策。
您將能夠有意識地規劃技術的特定用途,即使您可能幾個月都不會重複需要該技術。

充分了解您的業務需求將影響您為您的架構獲得的產品類型。
架構的設計和開發確保您的倉庫是

不是隨機事件,而是經過深思熟慮、精心製作的廣告 歌劇 藝術作為混合技術的馬賽克。

設計信息內容

所有初始設計都必須關注並確定整體環境現在和將來需要的主要 BI 組件。
了解業務需求很重要。

甚至在任何正式計劃開始之前,項目計劃者通常可以立即確定一兩個組成部分。
然而,您的體系結構可能需要的組件平衡並不容易找到。 在設計階段,架構的主要部分將應用程序開發會話 (JAD) 綁定到研究以確定業務需求。

有時這些需求可以委託給查詢和報告工具。
例如,用戶表示,如果他們想要自動化當前報告,他們必須通過集成兩個當前報告並添加從組合中得出的計算來手動生成 數據.
雖然此要求很簡單,但它定義了您在為您的組織購買報告工具時必須包含的特定功能。

設計師還必須追求額外的要求以獲得完整的畫面。 用戶是否要訂閱此報告?
是否生成報告子集並通過電子郵件發送給不同的用戶? 想在公司門戶中查看此報告? 所有這些要求都是根據用戶要求替換手動報告的簡單需求的一部分。 這些類型的要求的好處是每個人,包括用戶和設計人員,都熟悉報告的概念。

但是,我們需要為其他類型的業務制定計劃。 當業務需求以戰略業務問題的形式陳述時,經驗豐富的計劃人員很容易辨別維度和度量/事實需求。

如果 JAD 用戶不知道如何以業務問題的形式陳述他們的需求,設計人員通常會提供示例以跳過需求收集會話。
專家規劃師不僅可以幫助用戶了解戰略業務,還可以幫助用戶塑造戰略業務。
第 3 章討論了需求收集方法; 現在我們只想指出針對各種 BI 需求進行設計的必要性。

戰略性業務問題不僅是業務需求,也是設計線索。 如果你必須回答一個多維問題,那麼你必須記住,呈現 數據 尺寸,如果你需要記住 數據 多維的,你需要決定你要採用什麼類型的技術或技巧。

您是否實施保留的立方體星型模式,或兩者都實施? 如您所見,即使是一個簡單的業務問題也會極大地影響設計。 但是這些類型的業務需求是司空見慣的,當然,至少對於有經驗的項目規劃人員和設計人員來說是這樣。

關於 OLAP 技術和支持的爭論已經夠多了,並且有各種各樣的解決方案可供選擇。 到目前為止,我們已經談到了將簡單報告與維度業務需求結合在一起的需要,以及這些需求如何影響技術架構決策。

但是用戶或 Dw 團隊不容易理解的需求是什麼? 您是否需要空間分析(analysisi spatial)?
的挖掘模型 數據 他們會成為你未來不可或缺的一部分嗎? 誰知道?

值得注意的是,這些類型的技術並不為一般用戶社區和 DW 團隊成員所熟知,部分原因可能是它們通常由一些內部或第三方技術專家處理。 這是這些類型的技術產生的問題的邊緣案例。 如果用戶無法描述業務需求或構建它們以向設計人員提供指導,他們可能會被忽視,或者更糟的是,被忽略。

當設計人員和開發人員無法識別這些先進但關鍵技術之一的應用時,問題就變得更大了。
正如我們經常聽到設計師說的那樣,“好吧,為什麼我們不把它收起來,直到我們得到另一個東西? “他們真的對優先事項感興趣,還是只是迴避他們不理解的要求? 很可能是後一種假設。 假設您的銷售團隊傳達了一項業務需求,如圖 1.3 所示,正如您所見,該需求是以業務問題的形式構建的。 這個問題與典型的維度問題的區別在於距離。 在這種情況下,銷售團隊想知道每月來自產品、倉庫和 客戶 住在距離他們購物的倉庫 5 英里範圍內的人。

可悲的是,設計師或建築師可以通過說“我們有客戶、產品和 數據 的存款。 讓我們推遲距離直到另一次迭代。

“錯誤的答案。 這種類型的業務問題都是關於 BI 的。 它代表了對我們業務的更深入理解,並為我們的分析師提供了強大的分析空間。 BI 超越了簡單的查詢或標準報告,甚至是 OLAP。 這並不是說這些技術對您的 BI 不重要,但它們本身並不代表 BI 環境。

信息上下文設計 (信息內容設計)

現在我們已經確定了區分各種核心組件的業務需求,它們需要包含在總體架構圖中。 一些 BI 組件是我們最初努力的一部分,而另一些則需要幾個月才能實施。

但是,所有已知的要求都反映在設計中,因此當我們需要實施特定技術時,我們已經做好了準備。 該項目的某些方面將反映傳統思維。

這一套 數據 用於支持以後的使用 數據 由我們確定的業務問題驅動的維度。 隨著附加文檔的生成,例如 數據, 我們將從形式化開始,因為我 數據 它們在環境中傳播。 我們已經確定需要代表我 數據 以維度的方式,將它們(根據特定的特定需求)劃分為數據集市。

下一個要回答的問題是:這些數據集市將如何構建?
你是建造星星來支撐立方體,還是只是立方體,或者只是星星? (或右立方體,或右星)。 為需要原子層的依賴數據集市生成架構 數據 獲得? 允許獨立的數據集市獲取 數據 直接從操作系統?

您將嘗試標準化哪種​​立方體技術?

你有大量的神 數據 維度分析需要,還是您每週需要一次全國銷售人員的多維數據集,或者兩者兼而有之? 您是否構建了一個強大的對象,例如用於財務的 DB2 OLAP 服務器或用於您的銷售組織的 Cognos PowerPlay 多維數據集,或者兩者兼而有之? 這些是將影響您的 BI 環境向前發展的重大架構設計決策。 是的,您已經確定了對 OLAP 的需求。 現在你打算怎麼進行那種技術和技術呢?

一些更先進的技術如何影響您的設計? 假設您已確定組織中的空間需求。 現在,即使您幾個月不打算製作空間組件,您也必須召回建築圖紙版本。 架構師今天必鬚根據需要進行設計。 預測生成、存儲、維護和提供對空間的訪問的空間分析需求 數據 空間。這反過來應該成為您目前可以考慮的軟體技術類型和平台規範的約束。例如,管理系統 數據庫 您為原子層維護的關係 (RDBMS) 必須具有強大的可用空間範圍。 當您在分析應用程序中使用幾何和空間對象時,這將確保最佳性能。 如果您的 RDBMS 無​​法處理 數據 (以空間為中心)內部,所以你必須建立一個 數據庫 (以空間為中心的)外部。 這會使問題管理複雜化並影響您的整體性能,更不用說它給您的 DBA 帶來的額外問題了,因為他們可能對以下方面的基礎知識知之甚少 數據 空間也是如此。 另一方面,如果您的 RDMBS 引擎處理所有空間組件並且其優化器知道空間對象的特殊需求(例如,索引),那麼您的 DBA 可以輕鬆處理管理問題並且您可以最大限度地提高性能。

此外,您需要調整暫存區和原子環境層以包括地址清理(a

空間分析的關鍵要素),以及空間對象的後續保存。 現在我們已經引入了地址清潔度的概念,因此設計版本的繼承仍在繼續。 一方面,此應用程序將決定您的 ETL 工作所需的軟件類型。

您需要像 Trillium 這樣的產品來為您提供乾淨的地址,還是需要您選擇的 ETL 供應商來提供該功能?
現在重要的是您了解在開始維護倉庫之前必須完成的設計級別。 上面的示例應該演示必須遵循任何特定業務需求的標識的大量設計決策。 如果做出正確的設計決策,這些設計決策將促進您環境的物理結構、所用技術的選擇以及信息內容的傳播流之間的相互依賴。 如果沒有這種傳統的 BI 體系結構,您的組織將受到現有技術的混亂組合的影響,這些技術充其量只是鬆散地結合在一起以提供明顯的穩定性。

維護信息內容

為您的組織帶來信息的價值是一項非常艱鉅的任務。 如果沒有足夠的理解和經驗,或者沒有適當的工程和設計,即使是最好的團隊也會失敗。 另一方面,如果你有很好的直覺和詳細的設計,但沒有執行紀律,那麼你只是浪費了金錢和時間,因為你的努力注定要失敗。 信息應該很明確:如果您缺乏這些技能、理解/經驗或規劃/設計或實施紀律中的一項或多項,這將導致 BI 組織的建設陷入癱瘓或破壞。

你的團隊準備充分了嗎? 您的 BI 團隊中是否有人了解 BI 環境中可用的廣闊分析格局,以及維護該格局所需的技巧和技術? 您的團隊中是否有人可以分辨出應用高級的區別

靜態報表和OLAP,或者ROLAP和OLAP之間的區別? 您的團隊成員之一是否清楚地認識到採礦方式以及它可能如何影響倉庫或倉庫如何支持採礦性能? 團隊成員了解的價值 數據 空間或基於代理的技術? 您是否有人欣賞 ETL 與 Message Broker 技術的獨特工具應用? 如果你沒有,那就買一個。 BI 比規範化的原子層、OLAP、星型模式和 ODS 大得多。

具有識別 BI 需求及其解決方案的理解力和經驗,對於您正確規範用戶需求以及設計和實施其解決方案的能力至關重要。 如果您的用戶社區難以描述需求,則由倉庫團隊提供這種理解。 但是如果倉庫的團隊

不識別 BI 的特定應用 - 例如,數據挖掘 - 那麼 BI 環境通常僅限於被動存儲庫並不是最好的。 然而,忽略這些技術並不會降低它們的重要性以及它們對您組織的商業智能能力的出現以及您計劃推廣的信息資產的影響。

設計必須包括繪圖的概念,兩者都需要有能力的人。 此外,規劃需要團隊倉庫理念和遵守標準。 例如,如果您的公司已經建立了平台標准或確定了希望跨平台標準化的特定 RDBMS,則團隊中的每個人都必須遵守這些標準。 通常,團隊會(向用戶社區)公開標準化的需求,但團隊本身不願意遵守公司其他領域甚至類似公司建立的標準​​。 這不僅是虛偽的,而且表明公司沒有能力利用現有資源和投資。 這並不意味著沒有需要非標準化平台或技術的情況; 然而倉庫的努力

他們應該小心翼翼地保護企業的標準,直到業務要求另有規定為止。

建立 BI 組織所需的第三個關鍵要素是紀律。
這完全取決於個人和環境。 項目規劃者、發起人、架構師和用戶必須了解構建公司信息資產所需的紀律。 設計師必須引導他們的設計努力來補充社會所需的其他努力。

例如,假設您的公司構建了一個包含倉庫組件的 ERP 應用程序。
因此,ERP 設計人員有責任與倉庫環境團隊協作,以免競爭或重複已經開始的工作。

紀律也是一個需要整個組織解決的話題,通常在執行層面建立和授權。
高管是否願意堅持設計的方法? 一種有望創建最終為企業所有領域帶來價值但可能會損害個人或部門議程的信息內容的方法? 記住這句話“考慮所有事情比考慮一件事更重要”。 這句話適用於 BI 組織。

不幸的是,許多倉庫將他們的精力集中在嘗試針對特定部門或特定用戶並為其提供價值,而很少考慮整個組織。 假設經理請求倉庫團隊的幫助。 該團隊以 90 天的努力做出回應,其中不僅包括交付執行官定義的通知要求,還包括確保所有 數據 在被引入建議的立方體技術之前,基礎被混合到原子級別。
該工程增加確保倉庫企業將受益於 數據 經理需要的。
然而,這位高管與外部諮詢公司進行了交談,後者提出了一個類似的應用程序,並在不到 4 週的時間內交付。

假設內部倉庫團隊有能力,高管可以選擇。 誰可以支持增加企業信息資產所需的額外工程學科,或者可以選擇快速構建自己的解決方案。 後者似乎被選擇得太頻繁了,而且只能用來創建有利於少數人或個人的信息容器。

短期和長期目標

架構師和項目規劃人員必須正式確定總體架構的長期願景和發展 BI 組織的計劃。 這種短期收益和長期規劃的結合是 BI 工作的兩個方面。 短期收入是與倉庫迭代相關的 BI 方面。

這是規劃者、架構師和發起人關注滿足特定業務需求的地方。 正是在這個層次上,構建了物理結構,購買了技術並實施了技術。 它們絕不是為了滿足特定用戶社區定義的特定要求。 一切都是為了滿足特定社區定義的特定要求。
然而,長期規劃是 BI 的另一個方面。 在這裡,規劃和設計確保構建任何物理結構、選擇技術和完成技術都是著眼於企業的。 正是長期規劃提供了必要的凝聚力,以確保公司收益來自所發現的任何短期收益。

證明您的 BI 工作是合理的

Un 數據倉庫 它本身沒有內在價值。 換句話說,倉庫技術和實現技術之間沒有內在價值。

任何倉庫工作的價值都體現在作為倉庫環境和隨著時間培養的信息內容所執行的操作的結果。 在您嘗試評估任何 wherehouse 計劃的價值之前,這是一個需要了解的關鍵點。

很多時候,架構師和規劃師試圖將價值應用到倉庫的物理和技術組件,而實際上價值是基於受倉庫和良好捕獲的信息積極影響的業務流程。

這就是創建 BI 所面臨的挑戰:您如何證明投資的合理性? 如果倉庫本身沒有內在價值,項目計劃者必須調查、定義和正式確定那些將使用倉庫來增強特定業務流程或受保護信息的價值或兩者的個人的好處。

使事情複雜化的是,任何受倉庫工作影響的業務流程都可能提供“大量”或“輕微”的好處。 顯著的收益為衡量投資回報率 (ROI) 提供了一個有形的指標——例如,在特定時期內增加庫存周轉時間或降低每次裝運的運輸成本。 就有形價值而言,更難定義微妙的好處,例如改善信息訪問。

連接您的項目以了解 業務要求

項目規劃人員常常試圖將倉庫價值與無定形的企業目標聯繫起來。 通過聲明“倉庫的價值取決於我們滿足戰略要求的能力”,我們以愉快的方式開始了討論。 但僅憑這一點還不足以確定投資倉庫是否有意義。 最好將倉庫代表與特定的業務查詢和註釋聯繫起來。

衡量投資回報率

在倉庫環境中計算投資回報率可能特別困難。 如果領先,這尤其困難

特定重複的次數是無形的或易於測量的。 一項研究發現,用戶認為 BI 計劃有兩個主要好處:

  • ▪ 培養做決定的能力
  • ▪ 創建信息訪問
    這些津貼是軟(或溫和)津貼。 很容易看出我們如何根據降低運費等硬性(或更大)收益來計算投資回報率,但我們如何衡量做出更好決策的能力?
    當項目規劃人員試圖讓公司投資於特定的倉庫工作時,這絕對是一個挑戰。 增加銷售額或降低成本不再是推動 BI 環境的中心主題。
    相反,您正在尋找業務請求以更好地訪問信息,以便特定部門可以更快地做出決策。 這些是戰略驅動因素,它們恰好對企業同樣重要,但更加模糊,更難以用有形指標來描述。 在這種情況下,計算投資回報率即使不是無關緊要,也可能會產生誤導。
    項目設計者必須能夠為高管們展示有形價值,以決定在特定迭代中的投資是否值得。 但是,我們不會提出新的投資回報率計算方法,也不會對它進行任何支持或反對。
    有許多文章和書籍討論了計算 ROI 的基礎知識。 您可以研究 Gartner 等團體提供的特殊價值主張,例如投資價值 (VOI)。 相反,我們將專注於您需要考慮的任何投資回報率或其他價值主張的核心方面。 應用投資回報率 除了關於與 BI 工作相關的“硬”與“軟”收益的爭論之外,在應用 ROI 時還需要考慮其他問題。 例如:

將太多的節省歸因於無論如何都會發生的 DW 努力
假設您的公司從大型機架構遷移到分佈式 UNIX 環境。 因此,任何可能(或可能不會)從這項工作中實現的節省,如果有的話,不應該僅僅歸因於倉庫(?)。

不考慮所有事情是昂貴的。 還有很多事情需要考慮。 考慮以下列表:

  • ▪ 啟動成本,包括可行性。
  • ▪ 具有相關存儲和通信功能的專用硬件的成本
  • ▪ 軟件成本,包括管理 數據 和客戶端/服務器擴展、ETL 軟件、DSS 技術、可視化工具、調度和工作流應用程序以及監控軟件,.
  • ▪ 結構設計成本 數據, 隨著創建和優化
  • ▪ 與 BI 工作直接相關的軟件開發成本
  • ▪ 家庭支持成本,包括性能優化,包括軟件版本控制和幫助操作 應用“大爆炸”投資回報率。 將倉庫作為一項巨大的努力注定要失敗,因此計算大型企業計劃的 ROI 也是如此。報價令人驚訝,並且規劃人員繼續做出微弱的嘗試來估計整個努力的價值。 如果眾所周知並接受估計特定迭代是困難的,那麼為什麼計劃人員會嘗試為業務計劃賦予貨幣價值? 這怎麼可能? 除了少數例外,這是不可能的。 不要這樣做。 既然我們已經確定了在計算 ROI 時不應做什麼,這裡有幾點將幫助您建立可靠的流程來估算 BI 工作的價值。

獲得 ROI 同意。 無論您選擇哪種技術來估算 BI 工作的價值,都必須得到所有各方的同意,包括項目規劃者、發起人和公司高管。

將 ROI 分解為可識別的部分。 合理計算 ROI 的必要步驟是將計算重點放在特定項目上。 然後,這使您可以根據滿足的特定業務需求來估算價值

定義成本。 如前所述,需要考慮許多成本。 此外,成本不僅必須包括與單個迭代相關的成本,還必須包括與確保符合企業標準相關的成本。

定義利益。 通過將 ROI 與特定業務需求明確聯繫起來,我們應該能夠確定將導致滿足需求的收益。

降低成本,在眼前的收益中獲益。 這是基於淨現值 (NPV) 進行估值的最佳方式,而不是試圖預測未來收益的未來價值。

盡量減少將投資回報率分開的時間。 從長遠來看,它已在您的投資回報率中得到很好的證明。

使用多個 ROI 公式。 預測 ROI 的方法有很多,您應該計劃使用其中的一種或多種方法,包括淨現值、內部收益率 (IRR) 和回收期。

定義可重複的過程。 這對於計算任何長期價值都是至關重要的。 應為所有後續項目子序列記錄一個單一的可重複過程。

列出的問題是倉庫環境專家定義的最常見問題。 管理層堅持提供“大爆炸式”投資回報率,這非常令人困惑。 如果您通過將所有 ROI 分解為可識別的、有形的部分來開始所有 ROI 計算,您很有可能估算出準確的 ROI 估計值。

有關 ROI 收益的問題

無論您的利益是軟的還是硬的,您都可以使用幾個基本問題來確定它們的價值。 例如,使用一個簡單的等級系統,從 1 到 10,您可以使用以下問題衡量任何努力的影響:

  • 您如何評價對 數據 關注貴公司的這個項目?
  • 您如何評價該項目帶來的流程改進?
  • 您將如何衡量此迭代現在提供的新見解和推論的影響
  • 所學知識對新的更好的計算機環境有何影響? 如果這些問題的答案很少,則該企業可能不值得進行投資。 高分問題指向顯著的價值收益,應作為進一步調查的指南。 例如,流程改進的高分應該引導設計人員檢查流程是如何改進的。 您可能會發現所獲得的部分或全部收益是有形的,因此可以輕鬆應用貨幣價值。 充分利用第一次迭代 倉庫 企業努力的最大回報通常出現在最初的幾次迭代中。 這些早期的努力傳統上為公眾建立了最有用的信息內容,並有助於為後續的 BI 應用程序建立技術基礎。 通常每個後續的子序列 數據 倉庫項目給企業整體帶來的附加值越來越少。 如果迭代不添加新主題或滿足新用戶社區的需求,則尤其如此。

此存儲功能也適用於不斷增長的堆棧 數據 歷史學家。 隨著後續努力需要更多 數據 還有更多 數據 隨著時間的推移被倒入倉庫,大部分 數據 它與所用分析的相關性降低。 這些 數據 他們經常被稱為 數據 處於休眠狀態並且保留它們總是很昂貴,因為它們幾乎從未被使用過。

這對項目發起人意味著什麼? 從本質上講,第一發起人分攤的不僅僅是投資成本。 這是主要的,因為它們是建立倉庫廣泛的技術和資源環境層的動力,包括有機。

但這些最初的步驟具有最大的價值,因此項目規劃者通常必須證明投資的合理性。
在您的 BI 計劃之後完成的項目可能具有較低的(與第一個相比)和直接成本,但為企業帶來的價值較少。

組織所有者需要開始考慮放棄積累 數據 和不太相關的技術。

數據挖掘:提取

許多架構組件需要不同的數據挖掘技術和技巧——
例如,用於檢查興趣點的不同“代理” 客戶,公司的操作系統和dw一樣。 這些代理可以是根據趨勢訓練的高級神經網絡,例如基於促銷的未來產品需求; 用於對集合做出反應的基於規則的引擎 拿督 情況,例如醫療診斷和治療建議; 甚至是負責向高層管理人員報告異常情況的簡單代理人。 一般這些提取過程 數據 si

實時驗證; 因此,他們必須與 數據 斯特西。

在線分析處理處理

在線分析

切片、切塊、滾動、向下鑽取和執行分析的能力
假設,在 IBM 技術套件的範圍內。 例如,DB2 存在聯機分析處理 (OLAP) 功能,它將維度分析引入到 數據庫 相同的 。

函數為 SQL 添加維度實用程序,同時獲得作為 DB2 自然組成部分的所有好處。 OLAP 集成的另一個例子是提取工具,DB2 OLAP Analyzer Server。 該技術允許快速自動掃描 DB2 OLAP Server 多維數據集,以定位和報告值 數據 對於交易分析師來說,任何多維數據集都是不尋常或意外的。 最後,DW Center 功能為架構師提供了一種方法來檢查 DB2 OLAP 多維數據集服務器的配置文件,作為 ETL 過程的自然組成部分。

空間分析空間分析

空間代表全景圖所需的一半分析錨點(傳導)
廣義解析(時間代表另一半)。 如圖 1.1 所示,原子級的倉庫包括時間和空間的基礎。 時間戳按時間錨定分析,地址信息按空間錨定分析。 時間戳按時間分析,地址信息按空間分析。 該圖顯示了地理編碼——將地址轉換為地圖中的點或空間中的點的過程,以便可以在分析中使用距離和內部/外部等概念——在原子級別進行,並為分析人員提供空間分析。 IBM 提供與環境系統研究所 (ESRI) 共同開發的空間擴展,al 數據庫 DB2 使空間對象可以作為正常的一部分來維護 數據庫 關係的。 數據庫

Spatial Extenders,還提供所有 SQL 擴展以利用空間分析。 例如,要查詢的 SQL 擴展
地址之間的距離或一個點是在定義的多邊形區域內還是外部,都是 Spatial Extender 的分析標準。 有關詳細信息,請參閱第 16 章。

數據庫-常駐工具工具 數據庫-居民

DB2 有許多 SQL BI 常駐功能,可以幫助執行解析操作。 這些包括:

  • 執行分析的遞歸函數,例如“找到所有可能的飛行路徑 舊金山 a 紐約“。
  • 用於排名、累積、立方體和匯總函數的分析函數,以促進通常僅通過 OLAP 技術發生的任務,現在是引擎的自然組成部分 數據庫
  • 創建包含結果的表的能力
    的賣家 數據庫 領導者將更多的 BI 功能混合在 數據庫 相同。
    主要供應商 數據庫 他們正在混合更多的 BI 功能 數據庫 相同。
    這為 BI 解決方案提供了更好的性能和更多的執行選項。
    以下章節將詳細討論 DB2 V8 的特性和功能:
    技術架構和數據管理基礎(第 5 章)
  • DB2 BI 基礎(第 6 章)
  • DB2 物化查詢表(第 7 章)
  • DB2 OLAP 函數(第 13 章)
  • DB2 增強的 BI 特性和功能(第 15 章) 簡化的數據傳輸系統 輸送系統 數據 簡化的

圖 1.1 中描繪的體系結構包括許多結構 數據 身體的。 一個是倉庫 數據 操作。 通常,ODS 是面向對象的、集成的和最新的。 例如,您可以構建一個 ODS 來支持銷售辦公室。 消耗臭氧層物質的銷售將補充 數據 來自許多不同的系統,但只會保留,例如,今天的交易。 ODS 也可以一天更新多次。 同時,進程推送 i 數據 集成到其他應用程序中。 這種結構是專門設計來集成 數據 當前和動態的,可能是支持實時分析的候選者,例如提供服務代理 客戶 通過從庫存本身中提取銷售趨勢信息來獲取客戶當前的銷售信息。 圖 1.1 所示的另一個結構是 dw 的正式狀態。 這不僅是執行必要集成的地方,也是質量的地方 數據, 以及 的轉變 數據 進貨倉庫,也是一個可靠的臨時存儲區 數據 可用於實時分析的複制。 如果您決定使用 ODS 或臨時區域,填充這些結構的最佳工具之一 數據 使用不同的操作源是 DB2 的異構分佈式查詢。 此功能由稱為 DB2 Relational Connect(僅查詢)的可選 DB2 特性和 DB2 DataJoiner(一個單獨的產品,為異構分佈式 RDBMS 提供查詢、插入、更新和刪除功能)提供。

該技術允許建築師 數據 打結 數據 生產與分析過程。 該技術不僅可以適應實時分析可能出現的幾乎任何復制需求,而且還可以連接到各種各樣的 數據 最流行的,包括 DB2、Oracle、Sybase、SQL Server、Informix 等。 DB2 DataJoiner 可用於填充結構 數據 正式的,例如 ODS,甚至是倉庫中代表的永久表,旨在快速恢復即時更新或出售。 當然,這些結構本身 數據 可以使用填充

另一項旨在復制的重要技術 數據, IBM DataPropagator 關係型。 (DataPropagator 是中央系統的獨立產品。DB2 UNIX、Linux、Windows 和 OS/2 包括複製服務 數據 作為標準功能)。
另一種移動方法 數據 圍繞企業運行的是企業應用程序集成商,也稱為消息代理。這種獨特的技術允許對目標和移動進行無與倫比的控制 數據 公司周邊。 IBM 擁有使用最廣泛的消息代理、MQSeries 或包含以下要求的產品變體: 電子商務, IBM WebSphere MQ。
有關如何利用 MQ 支援倉庫和 BI 環境的更多討論,請訪問 網站 這本書的。現在,只需說該技術是一種極好的捕獲和轉換方法(使用 MQSeries Integrator) 數據 為 BI 解決方案招聘的有針對性的操作員。 MQ 技術已經集成並封裝在 UDB V8 中,這意味著消息隊列現在可以像管理 DB2 表一樣進行管理。 焊接隊列消息的概念和宇宙 數據庫 關係指向一個強大的交付環境 數據.

零延遲 零延遲

IBM 的最終戰略目標是零延遲分析。 定義為
Gartner 認為,BI 系統必須能夠為分析師按需推斷、攝取和提供信息。 當然,挑戰在於如何混合 數據 當前和實時的必要的歷史信息,例如我 數據 相關趨勢/模式,或提取的洞察力,例如客戶分析。

此類信息包括,例如,身份證明 客戶 高或低風險或哪些產品我 客戶 如果他們的購物車中已經有奶酪,他們很可能會購買。

獲得零延遲實際上取決於兩個基本機制:

  • 完全結合 數據 使用既定技術和 BI 創建的工具進行分析
  • 一個交付系統 數據 高效確保實時分析真正可用 這些零延遲的先決條件與 IBM 建立並在上面描述的兩個目標沒有什麼不同。 的緊耦合 數據 它是 IBM 無縫集成計劃的一部分。 並創建一個交付系統 數據 高效完全取決於簡化交付過程的可用技術 數據. 因此,IBM 的三個目標中有兩個對於實現第三個目標至關重要。 IBM 正在有意識地開發其技術,以確保零延遲成為倉庫工作的現實。 總結/綜合 您的 BI 組織提供了構建環境的路線圖
    迭代地。 必須對其進行調整以反映您當前和未來的業務需求。 如果沒有廣泛的架構願景,倉庫迭代只不過是中央倉庫的隨意實施,對創建大型、信息豐富的企業無濟於事。 項目負責人面臨的第一個障礙是如何證明發展 BI 組織所需的投資是合理的。 雖然 ROI 計算仍然是庫存成就的支柱,但準確預測變得越來越困難。 這導致了其他方法來確定您是否物有所值。 例如,投資價值 2 (VOI) 是作為解決方案採購的。 建築師有責任 數據 項目規劃者故意生成信息並將其提供給用戶協會,而不是簡單地提供服務 數據. 兩者之間存在巨大差異。 信息會影響決策制定和效率; 相對地,我 數據 它們是獲取該信息的基石。

即使批評來源 數據 為了滿足業務需求,BI 環境應該在創建信息內容方面發揮更大的作用。 我們必須採取額外的步驟來清理、集成、轉換或以其他方式創建用戶可以採取行動的信息內容,然後我們必須確保這些行動和決策在合理的情況下反映在 BI 環境中。 如果我們將倉庫降級為僅服務於 數據, 請放心,用戶協會將創建採取行動所需的信息內容。 這確保了他們的社區能夠做出更好的決策,但企業卻缺乏他們所利用的知識。 拿督 儘管架構師和項目規劃人員在 BI 環境中啟動特定項目,但他們仍然對整個企業負責。 BI 迭代的這種雙面特徵的一個簡單示例可以在源代碼中找到 數據. 一切 數據 收到的特定商業請求必須填充在第一個原子層中。 這確保了企業信息資產的開發,以及管理、解決迭代中定義的特定用戶請求。

什麼是數據倉庫?

數據倉庫 自 1990 年以來一直是信息系統架構的核心,並通過提供可靠的集成平台來支持信息流程 數據 歷史作為後續分析的基礎。 這 數據倉庫 它們可以輕鬆集成到不兼容的應用程序系統世界中。 數據倉庫 它已經發展成為一種時尚。 數據倉庫 組織和記憶我 數據 基於長期歷史時間觀點的信息和分析過程所必需的。 所有這一切都需要在建造和維護 數據倉庫.

那麼什麼是 數據倉庫? 一 數據倉庫 是:

  • ▪ 主題導向
  • ▪ 綜合系統
  • ▪ 時間變化
  • ▪ 非易失性(不取消)

的集合 數據 用於支持流程實施中的管理決策。
I 數據 插入 數據倉庫 它們在大多數情況下源自操作環境。 這 數據倉庫 它由一個存儲單元組成,在物理上與它包含的系統的其餘部分分開 數據 以前由對來自操作環境的信息進行操作的應用程序進行轉換。

a的字面定義 數據倉庫 它值得一個徹底的解釋,因為有重要的動機和潛在的含義來描述倉庫的特徵。

學科方向 專題

A的第一個特徵 數據倉庫 是面向公司的主要科目。 通過過程的指導 數據 它與更經典的方法形成對比,後者規定應用程序面向流程和功能,這是大多數較新的管理系統所共享的方法。

運營世界是圍繞金融機構的貸款、儲蓄、銀行卡和信託等應用程序和功能而設計的。 dw 的世界是圍繞客戶、賣家、產品和活動等主要主題組織的。 圍繞主題的對齊會影響設計和實施 數據 在dw中找到。 最重要的是,主題影響關鍵結構中最重要的部分。

應用程序的世界同時受到數據庫設計和流程設計的影響。 dw 的世界只專注於視頻建模 數據 並在設計上 數據庫. 流程設計(以其經典形式)不是 dw 環境的一部分。

過程/功能應用程序的選擇與主題的選擇之間的差異也顯示為內容的差異 數據 在詳細的層面上。 這 數據 del dw 不包括我 數據 申請時不會用於處理 DSS

操作導向 數據 包含我 數據 立即滿足可能對 DSS 分析師有用或無用的功能/處理要求。
面向操作的應用程序的另一個重要方式 數據 與......不同 數據 dw 在報告中 數據。 我 數據 操作員根據活動的業務規則維護兩個或多個表之間的持續關係。 這 數據 dw 的時間跨度很大,在 dw 中發現的報告很多。 許多貿易規則(以及相應的許多報告 數據 ) 代表的股票 數據 在兩個或多個表之間。

(對於如何在之間的關係的詳細解釋 數據 在 DW 中進行管理,請參閱有關該問題的技術主題。)
除了功能/流程應用程序選擇和主題選擇之間的根本區別之外,沒有其他角度來看,操作系統和操作系統之間是否存在重大區別? 數據 和德國之聲。

整合整合

dw 環境最重要的方面是我 數據 在 dw 中發現很容易集成。 總是。 無一例外。 dw 環境的本質是我 數據 包含在倉庫範圍內的是集成的。

集成以許多不同的方式展現自身——一致的確定約定、一致的變量測量、一致的編碼結構、物理屬性 數據 一致,等等。

多年來,各種應用程序的設計者已經就應如何開發應用程序做出了許多決定。 設計者應用程序的風格和個性化設計決策以一百種方式揭示:編碼差異、密鑰結構、物理特性、標識約定等。 許多應用程序設計人員創建不一致的應用程序的集體能力是傳奇。 圖 3 揭示了應用程序設計方式中的一些最重要的差異。

編碼: 編碼:

應用程序設計人員以多種方式選擇了字段編碼——性別。 設計師將性別表示為“m”和“f”。 另一位設計師將性別表示為“1”和“0”。 另一位設計師將性別表示為“x”和“y”。 另一位設計師將性別表示為“男性”和“女性”。 性別如何進入 DW 真的無關緊要。 “M”和“F”可能與任何表示一樣好。

重要的是,無論性場來自何處,該場都會以一致的整合狀態到達 DW。 因此,當該字段從應用程序加載到 DW 時,該應用程序在外部以“M”和“F”格式表示該字段, 數據 必須轉換為 DW 格式。

屬性的測量:測量 屬性:

多年來,應用程序設計人員選擇了多種方式來測量管道。 設計師商店我 數據 以厘米為單位的管道。 另一個應用程序設計器存儲 數據 以英寸為單位的管道。 另一個應用程序設計器存儲 數據 以百萬立方英尺每秒為單位的管道。 另一位設計師以碼的形式存儲管道信息。 無論來源如何,當管道信息到達 DW 時,必須以相同的方式對其進行測量。

如圖 3 所示,集成問題幾乎影響到項目的每個方面——設備的物理特性 數據,擁有多個來源的困境 數據, 識別樣本不一致的問題, 格式 數據 不一致,等等。

無論設計論點如何,結果都是一樣的——我 數據 必須以唯一且全局可接受的方式存儲在 DW 中,即使底層操作系統存儲 i 數據.

當 DSS 分析師查看 DW 時,分析師的重點應該是利用 數據 哪些在倉庫裡,

而不是懷疑 數據.

時差

所有 數據 在 DW 中,它們準確到某個時刻。 的這個基本特徵 數據 在 DW 中與 數據 在運行環境中發現。 這 數據 操作環境的信息與訪問時一樣準確。 也就是說,在訪問一個單元時的運行環境 數據, 它應該反映與訪問時一樣準確的值。 為什麼我 數據 DW 中的數據在某個時間點(即不是“現在”)是準確的,我 數據 在 DW 中發現的是“時間方差”。
的時間方差 數據 由 DW 以多種方式提及。
最簡單的方法是我 數據 DW的代表 數據 在很長一段時間內——五到十年。 為操作環境描繪的時間範圍比今天的當前值短最多六十九十分
需要良好運行並需要可用於事務處理的應用程序需要攜帶最少的 數據 如果它們允許任何程度的靈活性。 因此,運營應用程序的時間範圍很短,例如音頻應用程序設計主題。
DW 中出現“時間變化”的第二種方式是在密鑰結構中。 DW中的每個關鍵結構都隱式或顯式地包含一個時間元素,如日、週、月等。 時間元素幾乎總是位於 DW 中連接鍵的底部。 在這些情況下,時間元素將隱式存在,例如在月末或季度末複製整個文件的情況。
顯示時間方差的第三種方式是 i 數據 剛剛正確註冊的 DW 無法更新。 這 數據 出於所有實際目的,DW 的大部分是一長串快照。 當然,如果快照拍攝不正確,則可以修改快照。 但假設快照拍攝正確,它們不會在拍攝後立即更改。 在一些

在某些情況下,修改 DW 中的快照可能是不道德的,甚至是無效的。 這 數據 可操作的,與訪問時一樣準確,可以根據需要進行更新。

不易揮發

DW的第四個重要特性是它是非易失性的。
在逐個記錄的基礎上,定期對操作環境進行更新、插入、刪除和更改。 但是基本的操縱 數據 DW 中需要的要容易得多。 在 DW 中只有兩種操作發生——初始加載 數據 和訪問 數據。 沒有更新 數據 (一般意義上的更新)在DW中作為一個正常的處理操作。 運算處理和 DW 處理之間的這種基本差異會產生一些非常強大的結果。 在設計層面,需要謹慎對待 crash update 並不是 DW 的一個因素,因為更新 數據 它沒有執行。 這意味著在設計的物理層面上,可以自由地優化對 數據,特別是在處理規範化和物理反規範化的主題時。 DW 操作簡單的另一個結果是用於運行 DW 環境的底層技術。 必須支持在線記錄逐條更新(操作處理通常是這種情況)要求該技術在表面簡單的情況下具有非常複雜的基礎。
支持備份和恢復、事務和文件完整性的技術 數據 並且死鎖檢測和補救非常複雜並且對於DW處理是不必要的。 DW的特點、設計方向、集成度 數據 在 DW 內,時間差異和易於管理 數據,這一切都導致了一個與經典操作環境非常非常不同的環境。 幾乎所有的來源 數據 DW是運行環境。 人們很容易認為存在大量冗餘 數據 兩種環境之間。
確實很多人的第一印象就是冗餘度高 數據 在操作環境和環境之間

DW 擴展名。 這種解釋是膚淺的,表明對 DW 中發生的事情缺乏了解。
確實有最少的冗餘 數據 操作環境和我之間 數據 德國之聲。 考慮以下幾點:我 數據 他們被過濾 拿督 你從運行環境切換到DW環境。 許多 數據 他們永遠不會離開操作環境。 只有我 數據 DSS處理所需的在環境中找到它們的方向

▪ 時間範圍 數據 從一個環境到另一個環境是非常不同的。 這 數據 在操作環境上他們都很新鮮。 這 數據 在德國之聲中,他們的年齡要大得多。 僅從時間範圍的角度來看,操作環境和 DW 之間幾乎沒有重疊。

▪ DW 包含 數據 環境中不存在的摘要

▪ 我 數據 當他們過渡到圖 3 時,他們經歷了根本性的轉變,說明大多數 數據 如果它們被選中並移動到 DW,它們將被顯著修改。 換句話說,大多數 數據 當它被移入 DW 時,它在物理上和根本上發生了變化。 從集成的角度來看,它們是不一樣的 數據 駐留在操作環境中。 鑑於這些因素,冗餘 數據 兩個環境之間的冗餘很少見,導致兩個環境之間的冗餘度不到 1%。 倉庫結構 DW 具有獨特的結構。 有不同級別的摘要和詳細信息來劃分 DW。
DW 的各個組件是:

  • 元數據
  • 當前詳細信息
  • 舊的細節
  • 略作總結
  • 高度總結

到目前為止,主要關注的是我 數據 目前的細節。 這是主要問題,因為:

  • I 數據 當前的詳細信息反映了最近發生的事件,這些事件總是引起人們的極大興趣並且
  • i 數據 當前的詳細數據是大量的,因為它存儲在最低級別的粒度和
  • i 數據 當前的詳細信息幾乎總是存儲在磁盤內存中,訪問速度快,但從我的角度來看既昂貴又復雜 數據 細節較舊 數據 存儲在某些內存中 . 它被偶爾訪問並存儲在與 數據 目前的細節。 雖然存儲在替代存儲介質上不是強制性的,但由於大量 數據 結合零星的訪問 數據,存儲介質為 數據 較舊的細節通常不會存儲在磁盤上。 這 數據 簡單總結一下他們是 數據 它們是從發現的低詳細程度到當前詳細程度的提煉。 這個級別的 DW 幾乎總是存儲在磁盤內存中。 呈現給建築師的設計問題 數據 在構建這個級別的DW中有:
  • 上面做的匯總是什麼時間單位
  • 什麼內容,屬性會稍微總結一下內容 數據 下一級 數據 在DW中找到的是 數據 高度概括。 這 數據 高度總結的內容緊湊且易於訪問。 這 數據 高度總結有時在DW環境和其他情況下我 數據 在託管 DW 的技術的直接牆外發現了高度抽象的內容。 (無論如何,我 數據 高度總結是 DW 的一部分,無論我在哪裡 數據 物理安置)。 DW 的最後一個組件是元數據組件。 在許多方面,元數據與其他方面不同 數據 DW 的,因為元數據不包含任何 拿督 直接取自操作環境。 元數據在DW中有著特殊且非常重要的作用。 元數據用作:
  • 幫助 DSS 分析師定位 DW 內容的目錄,
  • 映射指南 數據 我如何 數據 已經從運行環境轉為DW環境,
  • 用於 i 之間匯總的算法指南 數據 當前詳細信息 ei 數據 稍微總結一下,我 數據 高度總結,元數據在 DW 環境中扮演的角色比它在操作環境中扮演的角色要大得多 舊的細節存儲介質 磁帶可以用來存儲那種 數據. 確實有各種各樣的存儲介質應該被考慮用於存儲舊的 數據 的細節。 取決於體積 數據、訪問頻率、工具成本和訪問類型,其他工具很可能需要 DW 中的舊級別詳細信息。 數據流 有一個正常的和可預測的流量 數據 在 DW 內。
    I 數據 他們從運行環境進入DW。 (注意:這條規則有一些非常有趣的例外。但是,幾乎所有 數據 從運行環境進入DW)。 拿督數據 他們從運行環境進入DW,就如上文所述進行改造。 如果你輸入 DW,我 數據 輸入當前的詳細程度,如圖所示。 它駐留在那裡並一直使用,直到發生以下三個事件之一:
  • 被淨化,
  • 被總結,和/或 ▪ 是 DW 內的過時進程移動 i 數據 當前詳細信息 數據 細節老,根據年齡 數據. 過程

總結使用的細節 數據 計算 數據 略概括和高度概括的層次 數據. 顯示的流程有一些例外情況(稍後討論)。 然而,通常,對於絕大多數 數據 在 DW 中找到,流 數據 它是代表。

使用數據倉庫

毫不奇怪,各種級別的 數據 在 DW 中,它們沒有得到不同級別的使用。 通常,摘要級別越高,我 數據 他們被使用。
許多用途發生在 數據 高度總結,而舊的 數據 細節幾乎從未使用過。 有充分的理由將組織轉變為資源利用模式。 我總結的比較多 數據,到達的速度越快,效率越高 數據。如果一個 發現它對DW做了大量的細節級別的處理,那麼相應消耗了大量的機器資源。 這麼高的總結,盡快處理,符合大家的最大利益。

對於許多商店,DW 前環境中的 DSS 分析師使用 數據 在細節層面。 在許多方面到達 數據 detailed 看起來像安全毯,即使在其他級別的摘要可用時也是如此。 建築師的活動之一 數據 是讓 DSS 用戶不再經常使用 數據 在最低層次的細節。 架構師有兩種動機 數據:

  • 安裝計費系統,最終用戶為消耗的資源付費
  • 這表明當行為與 i 時可以獲得非常好的響應時間 數據 處於高水平的總結,而較差的響應時間來自於 數據 在低水平 其他考慮因素 還有一些其他的 DW 構建和管理注意事項。
    首先要考慮的是指數。 這 數據 在更高級別的摘要中,它們可以自由索引,而我 數據

在較低的細節層次上,它們非常龐大,以至於可以節制地索引它們。 出於同樣的原因,我 數據 在高層次的細節上可以相對容易地重組,而體積 數據 在較低的層次上,它是如此之大,以至於我 數據 它們不容易翻新。 因此,模型的 數據 設計完成的正式工作為幾乎完全應用於當前詳細級別的 DW 奠定了基礎。 換言之,建模活動 數據 在幾乎所有情況下,它們都不適用於摘要級別。 另一個結構考慮是細分 數據 由德國之聲。

分區可以在兩個級別上完成——在級別 數據庫 和應用程序級別。 在師級 數據庫中, 數據庫 被告知這些部門並相應地控制它們。 在應用程序級劃分的情況下,只有程序員知道這些劃分並且他們的管理責任留給了他

低於水平 數據庫,很多工作都是自動完成的。 部門的自我管理存在很多不靈活之處。 在部門級應用的情況下 數據 德爾 數據倉庫,很多工作都落在了程序員身上,但最終的結果是管理的靈活性 數據數據倉庫

其他異常

而組件的 數據倉庫 幾乎所有的工作描述 數據, 有一些有用的例外需要討論。 一個例外是 數據 公共摘要(公共摘要數據)。 這些都是 數據 已計算出的摘要 數據倉庫 但它們被社會所利用。 這 數據 公共摘要存儲和管理在 數據倉庫,儘管如上所述,它們已被計算出來。 會計師致力於製作這樣的季刊 數據 例如收入、季度支出、季度利潤等。 會計師所做的工作是外部的 數據倉庫. 但是,我 數據 在公司內部「內部」使用 – 從 市場營銷、銷售等另一個不被討論的異常現像是 數據 埃斯特尼。

另一種傑出的類型 數據 可以在 數據倉庫 是永久詳細數據。 這些導致需要永久存儲 數據 出於道德或法律原因的詳細級別。 如果一家公司讓其員工接觸有害物質,則有必要這樣做 數據 詳細和永久的。 如果公司生產涉及公共安全的產品,例如飛機零件,則需要 數據 永久細節,以及公司是否簽訂了危險合同。

公司不能忽視細節,因為在接下來的幾年裡,如果發生訴訟、召回、有爭議的建築缺陷等, 公司的風險敞口可能很大。 因此,有一種獨特的類型 數據 稱為永久詳細數據。

摘要

Un 數據倉庫 它是面向對象的、集成的、時態的變體,是 數據 穩定地支持行政部門的決策需求。 A的每一個顯著功能 數據倉庫 有其含義。 此外還有四個等級 數據 德爾 數據倉庫:

  • 舊細節
  • 當前詳細信息
  • 略作總結
  • 高度概括的元數據也是 數據倉庫. 抽象的 存儲的概念 數據 它最近受到了很多關注,並成為了90年代的一種趨勢。這歸功於 數據倉庫 克服決策支持系統(DSS)和執行信息系統(EIS)等管理支持系統的局限性。 雖然這個概念 數據倉庫 看起來很有前途,實施我 數據倉庫 由於大規模的倉儲過程,可能會出現問題。 儘管倉儲項目的複雜性 數據, 許多庫存的供應商和顧問 數據 認為存儲 數據 目前沒有問題。 然而,在這項研究立項之初,幾乎沒有任何獨立、嚴謹和系統的研究。 因此很難說,當它們建成時,行業中實際發生了什麼 數據倉庫. 本研究探討了倉儲實踐 數據 旨在加深對澳大利亞實踐的理解的同時代人。 文獻綜述為實證研究提供了背景和基礎。 這項研究有許多結果。 首先,這項研究揭示了在發展過程中發生的活動 數據倉庫. 在很多領域,我 數據 收集證實了文獻中報導的做法。 二、可能影響發展的議題和問題 數據倉庫 被這項研究確定。 最後,澳大利亞組織獲得的與使用 數據倉庫 已被揭露。

第1章

搜索上下文

數據倉庫的概念受到廣泛關注,並在 90 年代成為新興趨勢(McFadden 1996、TDWI 1996、Shah 和 Milstein 1997、Shanks 等人 1997、Eckerson 1998、Adelman 和 Oates 2000)。 這可以從商業出版物中關於數據倉庫的文章數量不斷增加中看出(Little 和 Gibson 1999)。 許多文章(例如,參見 Fisher 1995、Hackathorn 1995、Morris 1995a、Bramblett 和 King 1996、Graham 等人 1996、Sakaguchi 和 Frolick 1996、Alvarez 1997、Brousell 1997、Clarke 1997、McCarthy 1997、O' Donnell 1997, Edwards 1998, TDWI 1999) 已經報告了實施的組織顯著的好處 數據倉庫. 他們用成功實施的軼事證據、高投資回報率 (ROI) 數據以及提供開髮指南或方法來支持他們的理論 數據倉庫

(Shanks 等人 1997 年,Seddon 和 Benjamin 1998 年,Little 和 Gibson 1999 年)。 在極端情況下,Graham 等人。 (1996) 報導了 401% 的三年投資平均回報率。

然而,當前的許多文獻都忽視了開展此類項目所涉及的複雜性。 的項目 數據倉庫 它們通常是複雜和大規模的,因此如果不小心控制,失敗的可能性很高(Shah 和 Milstein 1997 年,Eckerson 1997 年,Foley 1997b,Zimmer 1997 年,Bort 1998 年,Gibbs 和 Clymer 1998 年,Rao 1998 年)。 它們需要大量的人力和財力資源、時間和精力來構建它們(Hill 1998,Crofts 1998)。 所需的典型時間和經濟手段分別約為兩年和兩三百萬美元(Braly 1995,Foley 1997b,Bort 1998,Humphries 等人 1999)。 這需要時間和財務手段來控制和整合數據倉庫的許多不同方面(Cafasso 1995,Hill 1998)。 除了硬件和軟件考慮因素外,其他功能與提取不同 數據 加載過程 數據,管理更新和元的內存容量 數據 對於用戶培訓,必須加以考慮。

在這個研究項目開始的時候,在數據倉庫領域進行的學術研究非常少,尤其是在澳大利亞。 從期刊或當時其他學術著作發表的關於數據倉庫的文章很少,這一點就很明顯了。 許多可用的學術著作描述了美國的經驗。 數據倉庫領域缺乏學術研究導致了對嚴謹研究和實證研究的需求(McFadden 1996,Shanks 等人 1997,Little 和 Gibson 1999)。 特別是對實施過程的研究 數據倉庫 需要做的是擴展關於實施的一般知識 數據倉庫 並將作為未來研究的基礎 (Shanks et al. 1997, Little and Gibson 1999)。

因此,本研究的目的是調查當組織實施和使用 i 數據倉庫 在澳大利亞。 具體來說,這項研究將涉及對開發一個完整過程的分析。 數據倉庫,從啟動和設計開始,通過設計和實施以及隨後在澳大利亞組織內的使用。 此外,該研究還將通過確定可以進一步改進實踐以及可以最小化或避免低效率和風險的領域來促進當前實踐。 此外,它將作為其他研究的基礎 數據倉庫 在澳大利亞,將填補目前文獻中存在的空白。

研究問題

本研究的目的是研究實施過程中涉及的活動 數據倉庫 以及澳大利亞組織對它們的使用。 特別是,研究了有關項目規劃、開發、運營、使用和所涉及風險的要素。 所以本研究的問題是:

“目前的做法如何 數據倉庫 在澳大利亞?”

為了有效地回答這個問題,需要一些附屬的研究問題。 特別是,從第 2 章中介紹的文獻中確定了三個子問題來指導該研究項目: 數據倉庫 澳大利亞組織? 遇到什麼問題?

體驗有什麼好處?
在回答這些問題時,使用了採用調查的探索性研究設計。 作為一項探索性研究,上述問題的答案並不完整(Shanks 等人 1993 年,Denscombe 1998 年)。 在這種情況下,需要進行一些三角測量以改進對這些問題的回答。 然而,調查將為今後研究這些問題的工作奠定堅實的基礎。 第 3 章詳細討論了研究方法論證和設計。

研究項目的結構

該研究項目分為兩部分:數據倉庫概念的背景研究和實證研究(見圖 1.1),下面將對每一部分進行討論。

第一部分:情境研究

研究的第一部分包括對各種類型數據倉庫的當前文獻的回顧,包括決策支持系統(DSS)、執行信息系統(EIS)、案例研究 數據倉庫 和概念 數據倉庫。 另外,論壇的結果 數據倉庫 由莫納什 DSS 研究小組領導的專家和從業者會議小組為本階段的研究做出了貢獻,該階段旨在深入了解 數據倉庫 並確定採用它們所涉及的風險。 在此期間的背景研究中,建立了對問題領域的理解,為後續的實證調查提供了知識基礎。 然而,隨著研究的進行,這是一個持續的過程。

第二部分:實證研究

相對較新的數據倉庫概念,尤其是在澳大利亞,需要進行調查以全面了解使用體驗。 一旦通過廣泛的文獻回顧確定了問題域,就會執行這一部分。 在上下文研究階段形成的數據倉庫概念被用作本研究初始問卷的輸入。 在此之後,對問捲進行了審查。 你是專家嗎 數據倉庫 參加了測試。 測試初始問卷的目的是檢查問題的完整性和準確性。 根據測試結果,修改問卷並將修改後的版本郵寄給調查參與者。 然後對返回的問捲進行分析 數據 表格、圖表和其他格式。 這

的分析結果 數據 形成澳大利亞數據倉庫實踐的快照。

數據倉庫概述

數據倉庫的概念隨著計算機技術的改進而發展。
它旨在克服決策支持系統(DSS)和執行信息系統(EIS)等應用支持組遇到的問題。

過去這些應用程式的最大障礙是這些應用程式無法提供 數據庫 分析所必需的。
這主要是由於管理層的工作性質所致。 公司管理層的利益因所涵蓋的領域而不斷變化。 因此我 數據 這些應用程序的基礎必須能夠根據要處理的部分快速變化。
這意味著我 數據 必須以適當的形式提供所需的分析。 事實上,應用程序支持小組過去發現收集和集成非常困難 數據 來自複雜多樣的來源。

本節的其餘部分概述了數據倉庫的概念,並討論瞭如何 數據倉庫 可以克服應用程序支持組的問題。
術語“數據倉庫由 William Inmon 在 1990 年推廣。他經常引用的定義看到了 數據倉庫 作為一個集合 數據 面向主題的、集成的、非易失的和隨時間變化的,以支持管理決策。

使用這個定義 Inmon 指出我 數據 居住在 數據倉庫 必須具備以下4個特徵:

  • ▪ 主題導向
  • ▪ 集成
  • ▪ 非揮發性
  • ▪ 隨時間變化 面向主題的 Inmon 意味著我 數據數據倉庫 在最大的組織領域

在模型中定義 數據. 例如所有 數據 關於我 客戶 包含在主題區域中 客戶. 同樣所有 數據 與產品相關的信息包含在主題區域產品中。

通過 Integrated Inmon 意味著我 數據 來自不同平台、系統和位置的信息被組合併存儲在一個地方。 因此 數據 相似的必須轉換成一致的格式,以便輕鬆添加和比較。
例如,男性和女性在一個系統中用字母 M 和 F 表示,在另一個系統中用 1 和 0 表示。 要正確集成它們,必須轉換一種或兩種格式,使兩種格式相等。 在這種情況下,我們可以將 M 更改為 1,將 F 更改為 0,反之亦然。 面向學科和綜合性表明 數據倉庫 旨在提供功能性和橫向性的視覺 數據 由公司。

通過非易失性,他的意思是我 數據數據倉庫 保持一致和更新 數據 沒有必要。 相反,任何改變 數據 原件被添加到 數據庫 德爾 數據倉庫. 這意味著歷史學家 數據 包含在 數據倉庫.

對於具有時間的變量 Inmon 表示 i 數據數據倉庫 始終包含速度指示器 ei 數據 他們通常跨越一定的時間範圍。 例如一個
數據倉庫 可以包含5年的歷史價值 客戶 從 1993 年到 1997 年。 數據 允許您分析趨勢。

Un 數據倉庫 他可以自己收集 數據 來自 OLTP 系統;來自起源 數據 組織外部和/或其他特殊誘捕系統項目 數據.
I 數據 提取物可以經過清洗過程,在這種情況下我 數據 在存儲之前進行轉換和集成 數據庫 德爾 數據倉庫. 然後我 數據

居住在 數據庫 德爾 數據倉庫 可供最終用戶登錄和恢復工具使用。 使用這些工具,最終用戶可以訪問組織的集成視圖 數據.

I 數據 居住在 數據庫 德爾 數據倉庫 它們以詳細和摘要格式存儲。
摘要的級別可能取決於摘要的性質 數據。 我 數據 詳細可能包括 數據 當前和 數據 歷史學家
I 數據 真正的不包括在 數據倉庫 直到我 數據數據倉庫 重新更新。
除了存儲 數據 他們自己,一個 數據倉庫 它還可以存儲不同類型的 拿督 稱為描述我的元數據 數據 住在他的 數據庫.
元數據有兩種類型:開發元數據和分析元數據。
開發元數據用於管理和自動化提取、清理、映射和上傳過程 數據數據倉庫.
開發元數據中包含的信息可以包含操作系統的詳細信息、要提取的元素的詳細信息、模型 數據 德爾 數據倉庫 和轉換數據的業務規則 數據.

第二種類型的元數據,稱為分析元數據,使最終用戶能夠探索 數據倉庫 找到我 數據 可用,並以清晰的非技術術語表達它們的含義。

因此,分析元數據充當了 數據倉庫 和最終用戶應用程序。 該元數據可以包含業務模型、描述 數據 對應於業務模型、預定義的查詢和報告、用戶訪問信息和索引。

分析和開發元數據必須合併為一個集成的包含元數據才能正常運行。

不幸的是,許多現有工具都有自己的元數據,目前還沒有現成的標準

允許數據倉庫工具集成此元數據。 為了糾正這種情況,許多領先數據倉庫工具的供應商組成了元數據委員會,後來成為元數據聯盟。

該聯盟的目標是建立一個標準的元數據集,允許不同的數據倉庫工具將元數據轉換為
他們的努力促成了元數據交換規範 (MDIS) 的誕生,它將允許 Microsoft 檔案和相關 MDIS 文件之間的信息交換。

的存在 數據 總結/索引和詳細信息,它使用戶能夠從 數據 索引到詳細的,反之亦然。 的存在 數據 詳細的歷史允許創建隨時間變化的趨勢分析。 此外,分析元數據可以用作 del 目錄 數據庫 德爾 數據倉庫 幫助最終用戶找到我 數據 必要的。

與 OLTP 系統相比,它們具有支持分析的能力 數據 和報告, 數據倉庫 它被視為更適合信息處理的系統,例如提出和回答查詢以及生成報告。 下一節將詳細介紹這兩個系統的區別。

數據倉庫 針對 OLTP 系統

組織內的許多信息系統旨在支持日常運營。 這些稱為 OLTP 系統的系統捕獲不斷更新的日常事務。

I 數據 在這些系統中,它們經常被修改、添加或刪除。 例如,客戶的地址隨著他從一個地方移動到另一個地方而改變。 在這種情況下,將通過修改地址字段來註冊新地址 數據庫. 這些系統的主要目標是降低交易成本,同時減少處理時間。 OLTP 系統的示例包括關鍵操作,例如訂單日誌記錄、工資單、發票、製造、客戶服務 客戶.

與為基於事務和事件的流程創建的 OLTP 系統不同,我 數據倉庫 旨在提供基於分析的流程支持 數據 以及決策過程。

這通常是通過集成 i 數據 來自各種 OLTP 和外部系統的單個“容器”中 數據,如前一節所述。

莫納什數據倉庫流程模型

過程模型為 數據倉庫 Monash 由 Monash DSS 研究小組的研究人員開發,基於 數據倉庫,在開發支持系統領域的經驗,與應用程序供應商的討論以供使用 數據倉庫, 一組專家在使用 數據倉庫.

這些階段是:啟動、規劃、開發、運營和解釋。 該圖解釋了開發一個 數據倉庫 使用放置在不同階段之間的雙向箭頭進行處理。 在這種情況下,“迭代”和“進化”意味著在過程的每個步驟中,實施活動總是可以向後傳播到前一個階段。 這是由於項目的性質 數據倉庫 最終用戶的額外請求隨時發生。 例如,在流程的開發階段 數據倉庫如果最終用戶請求新的主題大小或區域,這不是原始計劃的一部分,則必須將其添加到系統中。 這會導致項目發生變化。 結果是設計團隊必須更改到目前為止在設計階段創建的文檔的要求。 在許多情況下,項目的當前狀態必須一直追溯到必須添加和記錄新需求的設計階段。 最終用戶必須能夠看到審查過的特定文檔以及在開發階段所做的更改。 在此開發週期結束時,項目需要從開發團隊和用戶團隊獲得良好的反饋。 然後再利用反饋來改進未來的項目。

容量規劃
dw 往往非常大並且增長非常快(Best 1995,Rudin 1997a),因為 數據 他們從他們的持續時間保存下來的歷史。 增長也可能是由於 數據 用戶要求增加價值的附加組件 數據 他們已經擁有了。 因此,存儲要求 數據 可以顯著增強 (Eckerson 1997)。 因此,必須通過進行容量規劃來確保要構建的系統能夠隨著需求的增長而增長(Best 1995、LaPlante 1996、Lang 1997、Eckerson 1997、Rudin 1997a、Foley 1997a)。
在規劃數據倉庫可伸縮性時,必須了解倉庫大小的預期增長、可能提出的問題類型以及支持的最終用戶數量(Best 1995、Rudin 1997b、Foley 1997a)。 構建可擴展的應用程序需要結合可擴展的服務器技術和可擴展的應用程序設計技術(Best 1995,Rudin 1997b。兩者都是構建高度可擴展的應用程序所必需的。可擴展的服務器技術可以輕鬆且經濟高效地添加存儲、內存和 CPU,而無需降低性能(Lang 1997,Telephony 1997)。

有兩種主要的可擴展服務器技術:對稱多處理 (SMP) 和大規模並行處理 (MPP) (IDC 1997, Humphries et al. 1999)。 SMP 服務器通常有多個共享內存、系統總線和其他資源的處理器 (IDC 1997, Humphries et al. 1999)。 可以添加額外的處理器來提升其 動力 計算的。 另一種增加的方法 動力 SMP服務器的計算,就是把無數個SMP機器組合起來。 這種技術被稱為聚類 (Humphries et al. 1999)。 另一方面,MPP 服務器有多個處理器,每個處理器都有自己的內存、總線系統和其他資源(IDC 1997,Humphries 等人 1999)。 每個處理器稱為一個節點。 的增加 動力 計算可得

向 MPP 服務器添加額外的節點 (Humphries et al. 1999)。

SMP 服務器的一個弱點是過多的輸入輸出 (I/O) 操作會導致總線系統擁塞 (IDC 1997)。 MPP 服務器中不會出現此問題,因為每個處理器都有自己的總線系統。 但是,每個節點之間的互連通常比 SMP 總線系統慢得多。 此外,MPP 服務器可以為應用程序開發人員增加一層額外的複雜性 (IDC 1997)。 因此,SMP 和 MPP 服務器之間的選擇可能受到許多因素的影響,包括應用程序的複雜性、性價比、所需的吞吐量、阻止的 dw 應用程序以及服務器規模的增加。 數據庫 dw 和最終用戶的數量。

在容量規劃中可以採用許多可擴展的應用程序設計技術。 人們使用各種報告期,例如天、週、月和年。 有不同的通知期, 數據庫 可以分成可管理的分組塊(Inmon et al. 1997)。 另一種技術是使用通過匯總 數據 da 數據 詳細的。 因此,我 數據 摘要比詳細的更緊湊,需要更少的內存空間。 所以 數據 詳細信息可以存檔到更便宜的存儲單元,從而節省更多存儲空間。 雖然使用匯總表可以節省存儲空間,但需要付出大量努力才能使其保持最新狀態並符合業務需求。 然而,這種技術被廣泛使用,並且經常與以前的技術結合使用(Best 1995,Inmon 1996a,Chauduri 和 Dayal
1997)。

定義 數據倉庫 技術架構 dw 架構技術的定義

數據倉庫的早期採用者主要設想了一個集中式數據倉庫實施,所有 數據,包括我 數據 外部,被集成到一個單一的,
物理存儲庫(Inmon 1996a,Bresnahan 1996,Peacock 1998)。

這種方法的主要優點是最終用戶能夠訪問企業範圍的視圖 數據 組織(Ovum 1998)。 另一個優點是它提供標準化 數據 整個組織,這意味著存儲庫元數據中使用的每個術語只有一個版本或定義(Flanagan 和 Safdie 1997,Ovum 1998)。 另一方面,這種方法的缺點是昂貴且難以構建(Flanagan 和 Safdie 1997,Ovum 1998,Inmon 等人 1998)。 不久後的存儲架構 數據 中心化開始流行,挖掘神的最小子集的概念演變 數據 支持特定應用程序的需求(Varney 1996,IDC 1997,Berson 和 Smith 1997,peacock 1998)。 這些小系統是從大系統派生出來的 數據倉庫 集中。 他們被命名為 數據倉庫 員工部門或員工數據集市。 依賴數據集市架構被稱為三層架構,其中第一層由 數據倉庫 集中的,第二個包括存款 數據 部門和第三個包括訪問 數據 和分析工具 (Demarest 1994, Inmon et al. 1997)。

數據集市通常是在 數據倉庫 集中式是為了滿足特定單位的需要而建立的(White 1995,Varney 1996)。
數據集市存儲 i 數據 與特定單位相關 (Inmon et al. 1997, Inmon et al. 1998, IA 1998)。

這種方法的好處是不會有 拿督 沒有整合,我 數據 數據集市內的冗餘將減少,因為所有 數據 來自存款 數據 融合的。 另一個優勢是每個數據集市與其來源之間的鏈接會更少 數據 因為每個數據集市只有一個來源 數據. 加上這種架構,最終用戶仍然可以訪問 數據

企業組織。 這種方法被稱為自上而下的方法,數據集市是在 數據倉庫 (孔雀 1998 年,高夫 1998 年)。
由於越來越需要儘早顯示結果,一些組織已經開始構建獨立的數據集市(Flanagan 和 Safdie 1997,White 2000)。 在這種情況下,數據集市得到他們的 數據 直接從基礎 數據 OLTP 和非 OLTP 來自集中和集成的存儲庫,從而消除了對中央存儲庫的需求。

每個數據集市至少需要一個指向其來源的鏈接 數據. 每個數據集市都有多個鏈接的一個缺點是,與前兩種架構相比,過多的 數據 顯著增加。

每個數據集市都必須存儲所有 數據 本地要求對 OLTP 系統沒有影響。 這導致我 數據 它們存儲在不同的數據集市中(Inmon et al. 1997)。 這種體系結構的另一個缺點是它會導致在數據集市及其數據源之間創建複雜的互連。 數據 難以實施和控制(Inmon et al. 1997)。

另一個缺點是最終用戶可能無法訪問公司信息概覽,因為我 數據 不同數據集市的數據沒有集成(Ovum 1998)。
另一個缺點是數據集市中使用的每個術語可能有多個定義,這會產生數據不一致。 數據 在組織中(Ovum 1998)。
儘管有上面討論的缺點,獨立數據集市仍然吸引了許多組織的興趣 (IDC 1997)。 使它們具有吸引力的一個因素是它們可以更快地開發並且需要更少的時間和資源(Bresnahan 1996,Berson 和 Smith 1997,Ovum 1998)。 因此,它們主要用作測試設計,可用於快速識別設計中的優點和/或缺點(Parsaye 1995,Braly 1995,Newing 1996)。 在這種情況下,試點項目中要實施的部分必須很小但對組織很重要(Newing 1996,Mansell-Lewis 1996)。

通過檢查原型,最終用戶和管理層可以決定是繼續還是停止項目(Flanagan 和 Safdie 1997)。
如果決定繼續,其他行業的數據集市應該一次建立一個。 根據最終用戶構建獨立數據矩陣的需要,有兩種選擇:集成/聯合和未集成(Ovum 1998)

在第一種方法中,每個新的數據集市都應該基於當前的數據集市和模型來構建 數據 被公司使用(Varney 1996,Berson 和 Smith 1997,Peacock 1998)。 使用模型的必要性 數據 企業化意味著必須確保跨數據集市使用的每個術語只有一個定義,還要確保可以合併不同的數據集市以提供企業信息的概覽(Bresnahan 1996)。 這種方法稱為自下而上方法,最好在經濟手段和時間受到限制時使用(Flanagan 和 Safdie 1997 年,Ovum 1998 年,peacock 1998 年,Goff 1998 年)。 第二種方式,建立的數據集市只能滿足特定單位的需要。 聯合數據集市的一個變體是 數據倉庫 分佈於其中 數據庫 中心服務器中間件用於將許多數據集市合併到一個存儲庫中 數據 分佈(White 1995)。 在這種情況下,我 數據 業務分佈在幾個數據集市中。 最終用戶請求被轉發到 數據庫 中心服務器中間件,提取所有 數據 數據集市請求並將結果反饋給最終用戶應用程序。 此方法向最終用戶提供業務信息。 但是,獨立數據集市的問題依然沒有消除。 還有另一種架構可以使用,稱為 數據倉庫 虛擬(White 1995)。 但是,圖 2.9 中描述的這種架構不是數據存儲架構 數據 真實的,因為它不會將負載從 OLTP 系統轉移到 數據倉庫 (Demarest 1994)。

事實上,要求 數據 最終用戶將它們傳遞給 OLTP 系統,該系統在處理用戶請求後返回結果。 雖然此架構允許最終用戶生成報告並提出請求,但它無法提供

數據 公司信息的歷史和概述,因為我 數據 因為不同的 OLTP 系統沒有集成。 因此,該架構不能滿足分析 數據 比如預測。

選擇訪問和數據恢復應用程序 數據

建設目的 數據倉庫 是向最終用戶傳達信息(Inmon et al. 1997, Poe 1996, McFadden 1996, Shanks et al. 1997, Hammergren 1998); 一個或多個訪問和恢復應用程序 數據 必須提供。 迄今為止,有各種各樣的此類應用程序供用戶選擇(Hammergren 1998,Humphries 等人 1999)。 選定的應用程序決定了倉儲工作的成功 數據 在一個組織中,因為應用程序是最明顯的部分 數據倉庫 最終用戶 (Inmon et al. 1997, Poe 1996)。 要想成功 數據倉庫, 必須能夠支持數據分析活動 數據 最終用戶(Poe 1996,Seddon 和 Benjamin 1998,Eckerson 1999)。 因此,必須確定最終用戶想要的“級別”(Poe 1996,Mattison 1996,Inmon 等人 1997,Humphries 等人 1999)。

一般來說,最終用戶可以分為三類:執行用戶、業務分析師和高級用戶(Poe 1996,Humphries 等人 1999)。 執行用戶需要輕鬆訪問預定義的報告集(Humphries 等人,1999 年)。 這些報告可以通過菜單導航輕鬆訪問(Poe 1996)。 此外,報告應使用表格和模板等圖形表示形式呈現信息,以快速傳達信息(Humphries 等人,1999 年)。 業務分析師可能不具備自己從頭開始開發報告的技術能力,他們需要能夠修改當前報告以滿足他們的特定需求(Poe 1996,Humphries 等人 1999)。 另一方面,超級用戶是能夠從頭開始生成和編寫請求和報告的最終用戶類型(Poe 1996,Humphries 等人 1999)。 他們是那些

他們為其他類型的用戶建立關係 (Poe 1996, Humphries et al. 1999)。

一旦確定了最終用戶的需求,就必須選擇訪問和恢復應用程序 數據 在所有可用的(Poe 1996,Inmon 等人 1997)中。
進入 數據 檢索工具可分為4類:OLAP工具、EIS/DSS工具、查詢與報表工具、數據挖掘工具。

OLAP 工具允許用戶創建即席查詢以及在 數據庫 德爾 數據倉庫. 此外,這些產品允許用戶從 數據 一般到詳細。

EIS/DSS 工具提供執行報告,例如“假設”分析和對菜單驅動報告的訪問。 報告應預定義並與菜單合併以便於導航。
查詢和報告工具允許用戶生成預定義的和特定的報告。

數據挖掘工具用於識別關係,這些關係可以為被遺忘的操作提供新的思路 數據 的數據倉庫。

除了優化每種類型用戶的需求外,所選工具還必須直觀、高效且易於使用。 它們還需要與架構的其他部分兼容,並能夠與現有系統配合使用。 還建議選擇價格和性能合理的數據訪問和檢索工具。 其他需要考慮的標準包括工具供應商對支持其產品的承諾以及未來版本中的開發。 為了確保用戶參與使用數據倉庫,開發團隊讓用戶參與工具選擇過程。 在這種情況下,應該對用戶進行實際評估。

為了提高數據倉庫的價值,開發團隊還可以提供對其數據倉庫的 Web 訪問。 支持網絡的數據倉庫允許用戶訪問 數據 來自偏遠地區或旅行時。 資料也可以

通過降低培訓成本以較低的成本提供。

2.4.3 數據倉庫 運營階段

此階段包括三個活動:數據刷新策略的定義、數據倉庫活動的控制和數據倉庫安全性的管理。

數據刷新策略的定義

初始加載後,我 數據數據庫 必須定期刷新數據倉庫以重現對數據倉庫所做的更改 數據 原件。 因此,您必須決定何時刷新、刷新的頻率以及如何刷新 數據. 建議刷新一下 數據 系統何時可以脫機。 刷新率由開發團隊根據用戶需求確定。 刷新數據倉庫有兩種方法:完全刷新和持續上傳變化。

第一種方法,完全刷新,需要重新加載所有 數據 從頭開始。 這意味著所有的 數據 必須提取、清理、轉換並集成到每次更新中。 應盡可能避免這種方法,因為它既費時又耗費資源。

另一種方法是不斷上傳更改。 這增加了我 數據 自上次數據倉庫刷新周期以來發生了變化。 識別新的或更改的記錄顯著減少了 數據 必須在每次更新時將其傳播到數據倉庫,因為只有這些 數據 將被添加到 數據庫 的數據倉庫。

至少有 5 種方法可以用來提取 i 數據 新的或修改的。 實現高效的視頻刷新策略 數據 這些獲取系統中所有更改的方法的混合可能是有用的。

第一種方法使用時間戳,假設每個人都被分配了 數據 編輯並更新了時間戳,以便您可以輕鬆識別所有 數據 修改和新的。 然而,這種方法在今天的大多數操作系統中還沒有被廣泛使用。
第二種方法是使用應用程序生成的增量文件,該文件僅包含對 數據. 使用此文件還可以延長更新周期。 然而,即使是這種方法也沒有在許多應用中使用。
第三種方法是掃描日誌文件,該文件基本上包含與增量文件類似的信息。 唯一的區別是日誌文件是為恢復過程創建的,並且可能難以理解。
第四種方法是修改應用程序代碼。 但是,大多數應用程序代碼又舊又脆弱; 因此應該避免這種技術。
最後一種方法是比較 i 數據 主文件 dei 的來源 數據.

監控數據倉庫活動

一旦數據倉庫發布給用戶,就需要對其進行長期監控。 在這種情況下,數據倉庫管理員可以採用一種或多種管理和控制工具來監控數據倉庫的使用情況。 特別是,可以收集有關人員以及他們訪問數據倉庫的時間的信息。 快點 數據 收集後,可以創建所執行工作的配置文件,該配置文件可用作用戶計費實施的輸入。 Chargeback 允許用戶了解數據倉庫處理成本。

此外,數據倉庫審計還可用於識別查詢類型、查詢大小、每天的查詢次數、查詢反應時間、到達的扇區和數量 數據 處理。 進行數據倉庫審計的另一個目的是識別 數據 哪些沒有被使用。 這些 數據 它們可以從數據倉庫中刪除以縮短時間

查詢執行響應並控制增長 數據 誰居住在 數據庫 的數據倉庫。

數據倉庫安全管理

數據倉庫包含 數據 集成的、關鍵的、敏感的,可以很容易地達到。 因此,應防止未經授權的用戶使用它。 實現安全性的一種方法是使用 del 函數 DBMS 為不同類型的使用者指派不同的權限。這樣,必須為每種類型的使用者維護存取設定檔。保護資料倉儲的另一種方法是對其進行加密,如 數據庫 的數據倉庫。 進入 數據 並且檢索工具必須解密 數據 在將結果呈現給用戶之前。

2.4.4 數據倉庫 部署階段

它是數據倉庫實施週期的最後階段。 這一階段要進行的活動包括培訓用戶使用數據倉庫和對數據倉庫進行審查。

用戶培訓

訪問前應進行用戶培訓 數據 數據倉庫和檢索工具的使用。 一般來說,會議應該從介紹存儲的概念開始 數據, 數據倉庫的內容, 元 數據 以及工具的基本特徵。 然後,更高級的用戶可能還會研究數據訪問和檢索工具用戶的物理表和特性。

有很多方法可以進行用戶培訓。 其中之一涉及根據他們的領導能力和溝通技巧從用戶池中選擇許多用戶或分析師。 這些人都接受過個人培訓,了解他們熟悉該系統所需了解的一切。 培訓結束後,他們回到自己的工作崗位,開始教其他用戶如何使用該系統。 在

根據他們所學的內容,其他用戶可以開始探索數據倉庫。
另一種方法是同時培訓許多用戶,就像在教室裡培訓一樣。 這種方法適用於需要同時訓練的用戶較多的情況。 另一種方法是單獨培訓每個用戶,一個接一個。 此方法適用於用戶較少的情況。

用戶培訓的目的是讓您熟悉訪問 數據 和檢索工具以及數據倉庫內容。 然而,一些用戶可能會對培訓課程期間提供的大量信息感到不知所措。 然後需要進行一些複習會議以獲得持續支持並回答特定問題。 在某些情況下,會形成一個用戶組來提供此類支持。

收集反饋

推出數據倉庫後,用戶可以使用 i 數據 出於各種目的駐留在數據倉庫中。 大多數情況下,分析師或用戶使用 i 數據 在數據倉庫中用於:

  1. 1 確定公司趨勢
  2. 2 分析採購概況 客戶
  3. 3 分割我 客戶 和我
  4. 4 提供最好的服務 客戶 – 定制服務
  5. 5 制定策略 市場營銷
  6. 6 為成本分析和幫助控制提供有競爭力的報價
  7. 7 支持戰略決策
  8. 8 確定出現的機會
  9. 9 提高當前業務流程的質量
  10. 10 查看利潤

根據數據倉庫的發展方向,可以對系統進行一系列的審查以獲得反饋

由開發團隊和最終用戶社區共同完成。
獲得的結果可以考慮用於下一個開發週期。

由於數據倉庫採用增量方法,因此必須從以前開發的成功和錯誤中吸取教訓。

2.5 總結

本章討論了文獻中的方法。 在第 1 節中,討論了數據倉庫的概念及其在決策科學中的作用。 第 2 節描述了數據倉庫和 OLTP 系統之間的主要區別。 第 3 節討論了第 4 節中用於描述開發數據倉庫過程中涉及的活動的 Monash 數據倉庫模型,這些聲明並非基於嚴格的研究。 現實中發生的事情可能與文獻報導的大相徑庭,但是這些結果可以用來創建一個基本包袱,強調本研究的數據倉庫概念。

第3章

研究與設計方法

本章介紹本研究的研究方法和設計方法。 第一部分展示了可用於信息檢索的研究方法的一般觀點,此外還討論了為特定研究選擇最佳方法的標準。 在第 2 節中,將討論根據上述標準選擇的兩種方法; 出於第 3 節所述的原因,將選擇並採用其中一項標準,該部分還列出了排除其他標準的原因。 第 4 節介紹了研究項目和第 5 節的結論。

3.1 信息系統研究

信息系統研究不僅限於技術領域,還必須擴展到包括行為和組織目標。
我們將此歸功於從社會科學到自然科學的各個學科的論文; 這導致需要一定範圍的研究方法,包括用於信息系統的定量和定性方法。
所有可用的研究方法都很重要,事實上,一些研究人員如 Jenkins (1985)、Nunamaker 等人。 (1991) 和 Galliers (1992) 認為,在信息系統的各個領域進行研究沒有特定的通用方法; 事實上,一種方法可能適用於特定的研究,但不適用於其他研究。 這導致我們需要選擇一種適合我們特定研究項目的方法:為此選擇 Benbasat 等人。 (1987) 指出應該考慮研究的性質和目的。

3.1.1 研究性質

各種基於自然的研究方法可以分為信息科學中三個廣為人知的傳統:實證研究、解釋研究和批判研究。

3.1.1.1 實證研究

實證研究也被稱為科學或實證研究。 它試圖:“通過觀察構成社會世界的元素之間的規律性和因果關係來解釋和預測社會世界中將發生的事情”(Shanks et al 1993)。

實證主義研究的另一個特點是可重複性、簡化和反駁。 此外,實證主義研究承認所研究的現象之間存在先驗關係。
Galliers(1992)認為分類學是實證主義範式中包含的一種研究方法,但不僅限於此,實際上還有實驗室實驗、現場實驗、案例研究、定理論證、預測和模擬。 使用這些方法,研究人員承認可以客觀和嚴格地觀察所研究的現象。

3.1.1.2 解釋性研究

解釋性研究,通常被稱為現象學或反實證主義,Neuman (1994) 將其描述為“通過對自然情境中的人進行直接和詳細的觀察,對行為的社會意義進行系統的分析,以達到理解和理解人們如何創造和維持他們的社會世界的解釋”。 解釋性研究拒絕假設觀察到的現象可以客觀地觀察到。 事實上,它們是基於主觀解釋。 此外,解釋性研究人員不會將先驗意義強加於他們研究的現象。

這種方法包括主觀/論證研究、行動研究、描述/解釋研究、未來研究和角色扮演。 除了這些調查和案例研究之外,這種方法還可能包括這些調查和案例研究,因為它們涉及在復雜的現實世界情況下對個人或組織的研究。

3.1.1.3 批判性研究

批判性搜索是社會科學中鮮為人知的方法,但最近受到信息系統領域研究人員的關注。 社會現實是由人們以及社會系統及其行為和相互作用在歷史上產生和再生產的哲學假設。 然而,他們的能力受到許多社會、文化和政治因素的影響。

與解釋性研究一樣,批判性研究認為實證主義研究與社會背景無關,並且忽略了它對人類行為的影響。
另一方面,批判性研究批評解釋性研究過於主觀並且沒有著手幫助人們改善生活。 批判性研究與其他兩種方法的最大區別在於其評價維度。 實證主義和解釋性傳統的客觀性是預測或解釋現狀或社會現實,而批判性研究旨在批判性地評估和改造所研究的社會現實。

批判性研究人員通常反對現狀,以消除社會差異並改善社會狀況。 批判性研究致力於對感興趣的現象進行過程觀察,因此通常是縱向的。 研究方法的例子有長期歷史研究和民族志研究。 然而,批判性搜索尚未廣泛用於信息系統研究

3.1.2 研究目的

連同研究的性質,其目的可用於指導研究人員選擇特定的研究方法。 研究項目的範圍與研究在研究週期中的位置密切相關,研究週期包括三個階段:理論構建、理論測試和理論提煉。 因此,基於與研究週期相關的動量,研究項目可以具有解釋性、描述性、探索性或預測性目的。

3.1.2.1 探索性研究

探索性研究旨在調查一個全新的主題,並為未來的研究提出問題和假設。 此類研究用於理論構建,以獲得新領域的初步參考。 通常使用定性研究方法,例如案例研究或現象學研究。

然而,也可以採用定量技術,例如探索性調查或實驗。

3.1.3.3 描述性搜索

描述性研究旨在非常詳細地分析和描述特定情況或組織實踐。 這適用於構建理論,也可用於確認或挑戰假設。 描述性研究通常涉及測量和样本的使用。 合適的研究方法包括調查和背景分析。

3.1.2.3 解釋性研究

解釋性研究試圖解釋事情發生的原因。 它建立在已經研究過的事實之上,並試圖找出這些事實的原因。
因此,解釋性研究通常建立在探索性或描述性研究之上,並且輔助於檢驗和提煉理論。 解釋性研究通常採用案例研究或基於調查的研究方法。

3.1.2.4 先發製人的研究

先發製人的研究旨在預測正在研究的觀察到的事件和行為(Marshall 和 Rossman 1995)。 預測是對真理的標準科學檢驗。 這種類型的研究通常採用調查或數據分析 數據 歷史學家。 (尹1989)

上述討論表明,在特定研究中可以使用多種可能的研究方法。 然而,必須有一種特定的方法比其他方法更適合特定類型的研究項目。 (Galliers 1987,Yin 1989,De Vaus 1991)。 因此,每個研究人員都需要仔細評估各種方法的優缺點,以採取與研究項目相適應的最合適的研究方法。 (Jenkins 1985,Pervan 和 Klass 1992,Bonomia 1985,Yin 1989,Hamilton 和 Ives 1992)。

3.2. 可能的搜索方法

該項目的目的是研究澳大利亞組織的經驗 數據 存儲與開發 數據倉庫. 拿督 目前,澳大利亞在數據倉儲領域缺乏研究,本研究項目仍處於研究週期的理論階段,具有探索性目的。 探索澳大利亞組織採用數據倉庫的經驗需要解讀現實社會。 因此,該研究項目的哲學假設遵循傳統的解釋。

在對可用方法進行嚴格檢查後,確定了兩種可能的研究方法:調查和案例研究,可用於探索性研究(Shanks 等,1993)。 Galliers(1992)在他修訂的分類法中論證了這兩種方法對於這項特定研究的適用性,稱它們適合理論構建。 以下兩小節詳細討論每種方法。

3.2.1 調查研究方法

調查研究方法來源於古代人口普查方法。 人口普查是從整個人口中收集信息。 這種方法既昂貴又不切實際,特別是在人口眾多的情況下。 因此,與人口普查相比,調查通常側重於收集少數人口代表或樣本的信息(Fowler 1988,Neuman 1994)。 樣本反映了從中抽取的總體,其準確度各不相同,具體取決於樣本結構、大小和所使用的選擇方法(Fowler 1988,Babbie 1982,Neuman 1994)。

調查方法被定義為“通過問卷或訪談對特定時間點的做法、情況或觀點進行快照,從中可以得出推論”。
製作”(Galliers 1992:153)[通過問卷或訪談對特定時間點的實踐、情況或觀點進行快照拍攝,從中可以做出推論]。 調查涉及通過提問從一些參與者那裡收集有關研究某些方面的信息(Fowler 1988)。 這些問卷調查和訪談,包括面對面的電話訪談和結構化訪談,也是收集技術 數據 用於調查(Blalock 1970,Nachmias 和 Nachmias 1976,Fowler 1988),可以使用觀察和分析(Gable 1994)。 在所有這些收集神靈的方法中 數據,使用調查問卷是最流行的技術,因為它可以確保我 數據

收集到的信息是結構化和格式化的,從而有利於信息的分類(Hwang 1987,de Vaus 1991)。

在分析我 數據,調查策略通常採用定量技術,例如統計分析,但也可以採用定性技術(Galliers 1992,Pervan

和 Klass 1992,Gable 1994)。 通常,我 數據 收集的數據用於分析關聯的分佈和模式(Fowler 1988)。

儘管調查通常適用於處理“什麼?”問題的搜索。 (什麼)或派生詞,例如“Quanto”(多少)和“Quant”è(多少),可以通過“為什麼”問題來詢問(Sonquist 和 Dunkelberg 1977,Yin 1989)。 根據 Sonquist 和 Dunkelberg (1977) 的說法,研究探究的目的是提出嚴格的假設、評估計劃、描述人口和開發人類行為模型。 此外,調查還可用於研究特定人群的意見、狀況、信仰、特徵、期望,甚至過去或現在的行為(Neuman 1994)。

調查使研究人員能夠發現人口關係,並且結果通常比其他方法更普遍(Sonquist 和 Dunkelberg 1977,Gable 1994)。 調查使研究人員能夠覆蓋更廣泛的地理區域並接觸到大量受訪者(Blalock 1970、Sonquist 和 Dunkelberg 1977、Hwang 和 Lin 1987、Gable 1994、Neuman 1994)。 最後,調查可以提供其他地方無法提供的信息或分析所需形式的信息(Fowler 1988)。

然而,進行調查也有一些限制。 缺點是研究人員無法獲得有關研究對象的大量信息。 這是因為調查僅在特定時間進行,因此研究人員可以選擇的變量和人員數量有限。

研究(Yin 1989,de Vaus 1991,Gable 1994,Denscombe 1998)。 另一個缺點是進行調查在時間和資源方面可能非常昂貴,特別是如果涉及面對面訪談(Fowler 1988)。

3.2.2. 探究式研究法

探究性研究方法涉及在規定的時間內在實際背景下對特定情況進行深入研究,研究人員無需進行任何干預(Shanks & C. 1993、Eisenhardt 1989、Jenkins 1985)。 該方法主要用於描述特定情況下所研究的變量之間的關係(Galliers 1992)。 調查可以涉及單個或多個案件,具體取決於分析的現象(Franz 和 Robey 1987,Eisenhardt 1989,Yin 1989)。

探究研究方法被定義為“一種實證調查,使用從一個或多個實體(例如人、群體或組織)中挑選的多種來源,在其實際背景下調查當代現象”(Yin 1989)。 該現象與其背景之間沒有明顯的分離,也沒有對變量進行控製或實驗操縱(Yin 1989,Benbasat 等人 1987)。

收集神器的技巧有很多種 數據 調查方法可採用直接觀察、檔案記錄審查、問卷調查、文件審查和結構化訪談等。 擁有多種收穫技術 數據,調查使研究人員能夠處理這兩個問題 數據 同時進行定性和定量(Bonoma 1985,Eisenhardt 1989,Yin 1989,Gable 1994)。 與調查方法的情況一樣,調查研究人員充當觀察者或研究人員,而不是所研究組織的積極參與者。

Benbasat 等人(1987)斷言,探究方法特別適合於研究理論構建,該理論構建始於研究問題並繼續進行培訓。

收集過程中的理論 數據。 也適合舞台

在理論構建過程中,Franz 和 Robey (1987) 提出探究方法也可以用於復雜理論階段。 在這種情況下,根據收集的證據,驗證或反駁給定的理論或假設。 此外,探究也適用於處理“如何”或“為什麼”問題的研究(Yin 1989)。

與其他方法相比,調查使研究人員能夠更詳細地捕獲重要信息(Galliers 1992,Shanks et al. 1993)。 此外,調查使研究人員能夠了解所研究過程的性質和復雜性(Benbasat 等人,1987)。

查詢方法有四個主要缺點。 首先是缺乏受控扣除。 研究者的主觀性可以改變研究的結果和結論(Yin 1989)。 第二個缺點是缺乏受控觀察。 與實驗方法不同,探究研究者無法控制所研究的現象,因為它們是在自然背景下進行檢查的(Gable 1994)。 第三個缺點是缺乏可複制性。 這是因為研究人員不太可能觀察到相同的事件,並且無法驗證特定研究的結果(Lee 1989)。 最後,由於不可重複性,很難概括從一項或多項調查中獲得的結果(Galliers 1992,Shanks et al. 1993)。 然而,所有這些問題都不是不可克服的,事實上,研究人員可以通過採取適當的行動將其最小化(Lee 1989)。

3.3. 證明研究方法的合理性 採用

從本研究的兩種可能的研究方法來看,調查法被認為是最合適的。 經過仔細考慮相關內容後,調查性申請被駁回

優點和缺點。 下面討論本研究中每種方法的便利性或不適當性。

3.3.1. 研究方法不當 詢問的

探究方法需要對一個或多個組織在一段時間內的特定情況進行深入研究(Eisenhardt 1989)。 在這種情況下,該期限可能會超出本研究給出的時間範圍。 不採用詢問法的另一個原因是結果可能缺乏嚴謹性(Yin 1989)。 研究人員的主觀性會影響結果和結論。 另一個原因是這種方法更適合“如何”或“為什麼”類型的研究問題(Yin 1989),而本研究的研究問題是“什麼”類型。 最後但並非最不重要的一點是,僅憑一項或幾項調查的結果很難概括(Galliers 1992,Shanks et al. 1993)。 基於此,本研究不選擇調查研究方法。

3.3.2. 便捷的搜索方式 調查

當進行這項研究時,數據倉庫的實踐尚未被澳大利亞組織廣泛採用。 因此,關於它們在澳大利亞組織內實施的信息並不多。 可用信息來自已經實施或使用了 數據倉庫。 在這種情況下,調查研究方法是最合適的,因為它可以獲取其他地方無法獲得的信息或分析所需形式的信息(Fowler 1988)。 此外,探究研究方法使研究人員能夠深入了解特定時間的實踐、情況或觀點(Galliers 1992,Denscombe 1998)。 要求進行概述,以提高對澳大利亞數據倉庫經驗的認識。

此外,Sonquist 和 Dunkelberg (1977) 指出,調查研究結果比其他方法更普遍。

3.4. 調查研究設計

數據倉庫實踐調查於 1999 年進行。目標人群包括對數據倉庫研究感興趣的澳大利亞組織,因為他們可能已經意識到 數據 他們存儲這些信息,因此可以為本研究提供有用的信息。 通過對“數據倉庫研究所”(Tdwi-aap) 的所有澳大利亞成員進行初步調查,確定了目標人群。 本節討論本研究實證研究階段的設計。

3.4.1. 採集技術 數據

從調查研究中常用的三種技術(即郵寄問卷、電話訪談和個人訪談)中(Nachmias 1976,Fowler 1988,de Vaus 1991),本研究採用了郵寄問卷。 採用後者的第一個原因是它可以覆蓋地理上分散的人群(Blalock 1970,Nachmias 和 Nachmias 1976,Hwang 和 Lin 1987,de Vaus 1991,Gable 1994)。 其次,郵寄問卷適合受過高等教育的參與者(Fowler 1988)。 本研究的郵件調查問卷是發送給數據倉庫項目發起人、主管和/或項目經理的。 第三,當有安全的地址列表可用時,郵寄調查問卷是合適的(Salant and Dilman 1994)。 在本例中,TDWI 是一個值得信賴的數據倉庫協會,提供了其澳大利亞成員的郵件列表。 與電話問卷或個人訪談相比,郵寄調查問卷的另一個優點是,它允許受訪者更準確地回答,特別是當受訪者需要查閱記錄或與其他人討論問題時(Fowler 1988)。

一個潛在的缺點可能是通過郵寄進行調查問卷需要時間。 通常,郵寄調查問卷按以下順序進行:郵寄信件,等待回复,然後發送確認(Fowler 1988,Bainbridge 1989)。 因此,總時間可能比面對面訪談或電話訪談所需的時間更長。 然而,總時間可以提前知道(Fowler 1988,Denscombe 1998)。 進行個人訪談所花費的時間無法提前得知,因為每次訪談的時間各不相同(Fowler 1988)。 電話訪談可能比郵寄問捲和個人訪談更快,但由於某些人無法聯繫到,因此未答复率可能很高(Fowler 1988)。 此外,電話採訪通常僅限於相對較短的問題清單(Bainbridge 1989)。

郵寄問卷的另一個弱點是較高的無答复率(Fowler 1988、Bainbridge 1989、Neuman 1994)。 然而,採取了對策,將這項研究與可信數據倉庫機構(即 TDWI)聯繫起來(Bainbridge 1989,Neuman 1994),該機構向未答复者發出兩封提醒信(Fowler 1988,Neuman 1994),並且還包括一封附加信解釋研究的目的(Neuman 1994)。

3.4.2. 分析單元

本研究的目的是獲取有關數據倉庫實施及其在澳大利亞組織內使用的信息。 目標人群是所有已經實施或正在實施的澳大利亞組織 數據倉庫。 然後對各個組織進行註冊。 調查問卷已郵寄給有興趣採用的組織 數據倉庫。 這種方法確保收集的信息來自每個參與組織最合適的資源。

3.4.3. 調查樣本

調查參與者的郵件列表是從 TDWI 獲得的。 從這份名單中,選出了 3000 個澳大利亞組織作為抽樣的基礎。 我們向樣本發送了一封解釋該項目和調查目的的後續信函,以及一份答复表和一個用於寄回填妥的調查問卷的預付信封。 在 3000 個組織中,有 198 個組織同意參與這項研究。 預計回複數量如此之少 拿督 許多澳大利亞組織當時已經或正在其組織內採用數據倉庫策略。 因此,本研究的目標人群僅包括 198 個組織。

3.4.4. 問卷內容

問卷設計基於 Monash 數據倉庫模型(前面已在 2.3 部分討論)。 調查問卷的內容基於第 2 章中介紹的文獻綜述。郵寄給調查參與者的調查問卷副本可在附錄 B 中找到。調查問卷由六個部分組成,遵循所涵蓋模型的步驟。 以下六段簡要總結了每個部分的內容。

A 部分:有關組織的基本信息
本節包含與參與組織的概況有關的問題。 此外,一些問題與參與者的數據倉庫項目的狀態有關。 調查分析中未披露組織名稱等機密信息。

B 部分:開始
本節中的問題與數據倉庫入門相關。 詢問了有關項目發起人、贊助商、所需的技能和知識、數據倉庫開發的目標以及最終用戶的期望的問題。

C 部分:設計
本節包含與規劃活動相關的問題 數據倉庫。 特別是,問題涉及實施範圍、項目持續時間、項目成本以及成本/效益分析。

D 部分:發展
在開發部分,有與開發活動相關的問題 數據倉庫:收集最終用戶需求、來源 數據,邏輯模型 數據、原型、容量規劃、技術架構和數據倉庫開發工具的選擇。

E 部分:操作
與操作和可擴展性相關的操作問題 數據倉庫,隨著它在下一發展階段的發展。 那裡 數據質量, 的刷新策略 數據,粒度 數據,可擴展性 數據倉庫 和安全問題 數據倉庫 是所提出問題的類型之一。

F 部分:發展
本節包含與使用相關的問題 數據倉庫 由最終用戶。 研究人員對它的目的和實用性很感興趣 數據倉庫、所採取的審查和培訓策略以及控制策略 數據倉庫 通過了。

3.4.5。 反應速度

儘管郵寄調查因回复率低而受到批評,但已採取措施提高回复率(如上文第 3.4.1 節所述)。 “答复率”一詞是指特定調查樣本中對問卷做出答复的人數百分比(Denscombe 1998)。 使用以下公式計算本研究的響應率:

回复人數
回复率 = ——————————————————————————– X 100 發送問卷總數

3.4.6。 試飛員

在將問捲髮送給樣本之前,按照 Luck 和 Rubin (1987)、Jackson (1988) 和 de Vaus (1991) 的建議,通過進行試點試驗來測試問題。 試點試驗的目的是揭示任何尷尬、模棱兩可的表達和難以解釋的問題,澄清所使用的任何定義和術語,並確定完成調查問卷所需的大致時間(Warwick 和 Lininger 1975,Jackson 1988,Salant和迪爾曼 1994)。 根據 Davis e 的建議,試點試驗是通過選擇具有與最終受試者相似特徵的受試者來進行的。 科森扎 (1993)。 在這項研究中,選擇了六名數據倉庫專業人員作為試點對象。 每次試點測試後,都進行了必要的修正。 通過試點測試,參與者對問卷的最終版本進行了重塑和重置。

3.4.7. 分析方法

I 數據 使用 SPSS 統計軟件包對從封閉式問卷中收集的調查數據進行分析。 許多答復是使用描述性統計數據進行分析的。 一些問卷返回的內容不完整。 這些都經過更仔細的處理,以確保我 數據 缺失並不是由​​於數據輸入錯誤造成的,而是因為問題不適合註冊人,或者註冊人決定不回答一個或多個具體問題。 解析數據時忽略了這些缺失的答案 數據 並被編碼為“-9”以確保將其排除在分析過程之外。

在準備調查問卷時,通過為每個選項分配一個數字來對封閉式問題進行預編碼。 然後用這個數字來訓練我 數據 分析期間(Denscombe 1998,Sapsford 和 Jupp 1996)。 例如,B部分問題1列出了六個選項:董事會、高級管理人員、IT部門、業務部門、顧問和其他。 在文件中 數據 SPSS 中,為“項目發起人”生成了一個變量,有六個值標籤:“1”代表“董事會”,“2”代表“高級管理人員”,以此類推。 在一些封閉式問題中使用李克廷量表也可以通過使用輸入 SPSS 的相應數值來輕鬆識別。 對於具有非詳盡答案(不互相排斥)的問題,每個選項都被視為具有兩個值標籤的單個變量:“1”表示“已選中”,“2”表示“未選中”。

開放式問題與封閉式問題的處理方式不同。 這些問題的答案尚未輸入 SPSS。 相反,它們是手工分析的。 使用此類問題可以獲取受訪者自由表達的想法和個人經歷的信息(Bainbridge 1989,Denscombe 1998)。 在可能的情況下,對答復進行了分類。

為了分析 數據使用簡單的統計分析方法,例如響應頻率、平均值、標準差和中位數(Argyrous 1996,Denscombe 1998)。
伽馬檢驗可用於獲得之間關聯的定量測量 數據 序數(Norusis 1983,Argyrous 1996)。 這些測試是合適的,因為所使用的序數量表沒有很多類別,並且可以在表格中顯示(Norusis 1983)。

3.5 總結

本章討論了本研究採用的研究方法和設計。

為特定研究選擇最合適的研究方法需要
考慮許多規則,包括研究的性質和類型,以及每種可能方法的優點和缺點(Jenkins 1985,Benbasat 等人 1097,Galliers 和 Land 1987,yin 1989,Hamilton 和 ives 1992,Galliers 1992 年,諾伊曼 1994 年)。 鑑於澳大利亞缺乏關於採用數據倉庫的現有知識和理論,本研究需要一種具有探索能力的解釋性研究方法來探索澳大利亞組織的經驗。 選擇的研究方法是為了收集有關澳大利亞組織採用數據倉庫概念的信息。 選擇郵寄問卷作為收集方法 數據。 研究方法和收集技術的理由 數據 本章將提供選擇。 並對分析單位、樣本、答題比例、問卷內容、問卷預測試以及問卷分析方法等進行了討論。 數據.

設計 數據倉庫:

結合實體關係和維度建模

摘要
商店我 數據 是許多組織當前面臨的主要問題。 倉儲發展的關鍵問題 數據 這是他的設計。
繪圖必須支持對概念的檢測 數據倉庫 遺留系統和其他來源 數據 以及實施過程中的簡單理解和效率 數據倉庫.
許多倉儲文獻 數據 建議使用實體關係建模或維度建模來表示設計 數據倉庫.
在本文中,我們展示瞭如何將這兩種表示形式結合起來設計 數據倉庫。 使用的方法是系統地

通過案例研究進行了研究,並確定了對專業人士的許多重要影響。

數據倉庫

Un 數據倉庫 它通常被定義為“支持管理層決策的面向主題的、集成的、隨時間變化的、非易失性的數據集合”(Inmon 和 Hackathorn,1994)。 學科導向和綜合性表明 數據倉庫 旨在跨越遺留系統的功能邊界,提供集成的視角 數據.
時變與視頻的歷史或時間序列性質有關 數據 在一個 數據倉庫,從而可以分析趨勢。 非易失性表明 數據倉庫 它不像 數據庫 OLTP 的。 相反,它會定期更新, 數據 來自內部和外部來源。 這 數據倉庫 它是專門為研究而不是更新完整性和操作性能而設計的。
存儲i的想法 數據 這並不新鮮,這是管理的目的之一 數據 自六十年代以來(Il Martin,1982)。
I 數據倉庫 他們提供基礎設施 數據 用於管理支持系統。 管理支持系統包括決策支持系統(DSS)和執行信息系統(EIS)。 DSS 是一種基於計算機的信息系統,旨在改進流程並從而改進人類決策。 EIS 通常是一個交付系統 數據 使企業高管能夠輕鬆訪問 數據.
A的一般架構 數據倉庫 突出了的作用 數據倉庫 在管理支持方面。 除了提供基礎設施外 數據 對於 EIS 和 DSS,al 數據倉庫 可以通過查詢直接訪問。 這 數據 包含在一個 數據倉庫 這些信息基於對管理信息需求的分析,從三個來源獲得:內部遺留系統、專用數據採集系統和外部數據源。 這 數據 內部遺留系統中的數據經常是冗餘的、不一致的、低質量的,並且以不同的格式存儲,因此必須在將它們加載到系統中之前對它們進行協調和清理。

數據倉庫 (英蒙,1992 年;麥克法登,1996 年)。 這 數據 來自存儲系統 數據 特別的和來自來源的 數據 外部通常用於增強(更新、替換)i 數據 來自遺留系統。

有許多令人信服的理由來開發 數據倉庫,其中包括通過有效利用更多信息來改進決策(Ives 1995)、支持關注整體事務(Graham 1996)以及降低決策成本 數據 對於 EIS 和 DSS(Graham 1996,McFadden 1996)。

最近的一項實證研究發現,平均而言,我的投資回報 數據倉庫 三年後增加了 401%(Graham,1996)。 然而,其他實證研究 數據倉庫 發現重大問題,包括難以衡量和分配效益、缺乏明確目的、低估存儲過程的範圍和復雜性 數據,特別是關於來源和清潔度 數據。 商店我 數據 可以被認為是管理問題的解決方案 數據 組織之間。 操縱 數據 作為一種社會資源,多年來它一直是全世界管理信息系統的關鍵問題之一(Brancheau et al. 1996, Galliers et al. 1994, Niederman et al. 1990, Pervan 1993)。

流行的資產管理方法 數據 八十年代開發了一個模型 數據 社會的。 模型 數據 Social 旨在為新應用系統的開發提供穩定的基礎 數據庫 以及遺留系統的重建和集成(Brancheau 等人,XNUMX)

1989 年,古德休等人。 1988:1992,Kim 和珠穆朗瑪峰 1994)。 然而,這種方法存在幾個問題,特別是每項任務的複雜性和成本,以及取得切實成果所需的長時間(Beynon-Davies 1994,Earl 1993,Goodhue et al. 1992,Periasamy 1994,Shanks 1997) )。

Il 數據倉庫 它是一個獨立的數據庫,與遺留數據庫共存,而不是取代它們。 因此,它允許您直接管理 數據 並避免昂貴的遺留系統重建。

現有的數據設計方法

倉庫

建立和完善的過程 數據倉庫 應該更多地將其理解為一個演進過程,而不是傳統的系統開發生命週期(代西奧,1995 年,Shanks、O'Donnell 和 Arnott 1997a)。 一個項目涉及很多流程 數據倉庫 如初始化、調度; 根據公司經理的要求獲得的信息; 來源、轉化、清潔 數據 以及來自遺留系統和其他來源的同步 數據; 正在開發的輸送系統; 監測 數據倉庫; 以及進化過程和建立一個毫無意義的 數據倉庫 (Stinchi、O'Donnell 和 Arnott 1997b)。 在這本雜誌中,我們重點關注如何繪製我 數據 存儲在這些其他進程的上下文中。 有多種視頻架構建議方法 數據倉庫 文獻中(Inmon 1994,Ives 1995,Kimball 1994,McFadden 1996)。 對每種方法都進行了簡要回顧,並分析了它們的優點和缺點。

Inmon (1994) 的方法 數據倉庫 設計

Inmon (1994) 提出了四個迭代步驟來設計 數據倉庫 (見圖2)。 第一步是設計模板 數據 社交來了解我如何 數據 可以通過細分來整合組織內的跨職能領域 數據 存放在地區。 模型 數據 它是為存儲而設計的 數據 與決策有關的,包括 數據 歷史性的,並包括 數據 扣除並彙總。 第二步是確定實施的主題領域。 這些是基於特定組織確定的優先級。 第三步是畫一個 數據庫 對於主題領域,要特別注意包括適當的粒度級別。 Inmon 建議使用實體和關係模型。 第四步,識別源系統 數據 需要並開發轉換流程來捕獲、清理和格式化我 數據.

Inmon 方法的優點在於該模型 數據 社會化為整合提供基礎 數據 在組織和規劃範圍內支持迭代開發 數據倉庫。 其缺點是設計模型的難度和成本 數據 社會,理解兩個模型中使用的實體和關係模型的困難, 數據 社會和 數據 按主題區域存儲,以及存儲的適當性 數據 的繪圖的 數據倉庫 為了實現 數據庫 相關但不適合 數據庫 多維的。

Ives (1995) 的方法 數據倉庫 設計

Ives(1995)提出了一種設計信息系統的四步方法,他認為該方法適用於設計 數據倉庫 (見圖 3)。 該方法很大程度上基於信息系統開發的信息工程(Martin 1990)。 第一步是確定您的目標、成功和關鍵因素以及關鍵績效指標。 對關鍵業務流程和必要的信息進行建模,以引導我們建立模型 數據 社會的。 第二步涉及開發定義架構 數據 按區域存儲, 數據庫 di 數據倉庫、所需的技術組件、實施和操作所需的組織支持集 數據倉庫。 第三步包括選擇所需的軟件包和工具。 第四步,詳細設計和施工 數據倉庫。 艾夫斯指出,商店 數據 這是一個受約束的迭代過程。

艾夫斯方法的優點是使用技術規範來確定信息需求,使用結構化流程來支持集成 數據倉庫,適當的硬件和軟件選擇,以及多種表示技術的使用 數據倉庫。 它的缺陷是複雜性所固有的。 其他包括難以發展許多水平 數據庫 All'interno del 數據倉庫 以合理的時間和成本。

Kimball (1994) 的方法 數據倉庫 設計

Kimball (1994) 提出了五個迭代步驟來設計 數據倉庫 (見圖 4)。 他的方法特別專注於獨奏的繪製 數據倉庫 以及優先使用維度模型而不是實體和關係模型。 Kimball 分析這些維度模型是因為企業領導者更容易理解業務,處理複雜的諮詢時效率更高,並且設計 數據庫 體力更有效(Kimball 1994)。 金博爾承認,開發 數據倉庫 是迭代的,並且 數據倉庫 分離的數據可以通過劃分為共同維度的表來整合。

第一步是確定需要完善的特定主題領域。 第二步和第三步涉及維度塑造。 在第二步中,這些措施識別主題領域中感興趣的事物並將它們分組到事實表中。 例如,在銷售主題區域中,感興趣的度量可能包括銷售的商品數量和作為銷售貨幣的美元。 第三步涉及確定維度,即對事實進行分組的方式。 在銷售主題區域中,相關維度可能包括項目、位置和時間段。 事實表具有將其鏈接到每個維度表的多部分鍵,並且通常包含大量事實。 相反,維度表包含有關維度和可用於對事實進行分組的其他屬性的描述性信息。 所提出的關聯事實和維度表由於其形狀而形成所謂的星型模式。 第四步涉及建立一個 數據庫 多維度完善星辰圖案。 最後一步是識別源系統 數據 需要並開發轉換流程來捕獲、清理和格式化我 數據.

Kimball 方法的優點包括使用維度模型來表示 i 數據 存儲起來,使其易於理解並實現高效的物理設計。 也可以輕鬆使用這兩個系統的維度模型 數據庫 關係可以完善或者係統 數據庫 多維的。 它的缺陷包括缺乏一些技術來促進在一個星型計劃中規劃或整合許多星型計劃。 數據倉庫 以及從維度模型中的極端非規範化結構進行設計的難度 數據 在遺留系統中。

McFadden (1996) 的數據方法 倉庫設計

McFadden (1996) 提出了一個五步法來繪製 數據倉庫 (見圖 5)。
他的方法基於對文獻中的想法的綜合,並專注於單一的設計 數據倉庫。 第一步涉及需求分析。 雖然沒有規定技術規範,但麥克法登的註釋確定了實體 數據 規範及其屬性,並參考讀者 Watson 和 Frolick (1993) 來捕獲需求。
第二步,繪製實體關係模型 數據倉庫 然後由公司高管進行驗證。 第三步涉及確定遺留系統和外部資源的映射 數據倉庫。 第四步涉及開發、部署和同步的流程 數據數據倉庫。 最後一步,開發系統的交付,重點是用戶界面。 麥克法登指出,繪圖過程通常是迭代的。

McFadden 方法的優勢在於業務領導者參與確定需求以及資源的重要性 數據他們的清潔和收集。 它的缺陷是缺乏一個劃分大項目的流程 數據倉庫 在許多綜合階段,並且有

難以理解設計中使用的實體和關係模型 數據倉庫.

我們不僅被身邊的人所選擇。

    0/5 (0 則評論)
    0/5 (0 則評論)
    0/5 (0 則評論)

    從線上網路代理處了解更多信息

    訂閱以透過電子郵件接收最新文章。

    作者頭像
    管理員 CEO
    👍線上網路代理|數位行銷和 SEO 的網路代理商專家。網路代理在線是一個網絡代理。對於Agenzia Web Online 而言,數位轉型的成功是基於Iron SEO 版本3 的基礎。專業:系統整合、企業應用程式整合、服務導向的架構、雲端運算、資料倉儲、商業智慧、大數據、入口網站、內部網路、Web 應用程式關係資料庫和多維資料庫的設計和管理數位媒體介面設計:可用性和圖形。線上網路代理商為公司提供以下服務: - Google、Amazon、Bing、Yandex 上的 SEO; - 網路分析:Google Analytics、Google 標籤管理器、Yandex Metrica; - 使用者轉換:Google Analytics、Microsoft Clarity、Yandex Metrica; -Google、Bing、亞馬遜廣告上的 SEM; -社群媒體行銷(Facebook、Linkedin、Youtube、Instagram)。
    我的敏捷隱私
    本網站使用技術和分析 cookie。 單擊接受即表示您授權所有分析 cookie。 通過單擊拒絕或 X,所有分析 cookie 都會被拒絕。 通過單擊自定義,可以選擇要激活的分析 cookie。
    本網站遵守《資料保護法》(LPD)、25 年 2020 月 2016 日瑞士聯邦法律以及 GDPR、歐盟第 679/XNUMX 號條例中有關個人資料保護以及此類資料自由流動的規定。