https://unimib.academia.edu/stefanofantin

https://unimib.academia.edu/stefanofantin

doi:https://unimib.academia.edu/stefanofantin

Kho dữ liệu và hoạch định nguồn lực doanh nghiệp | DWH và ERP

SẮP XẾP ĐẠT TRUNG TÂM: LỊCH SỬ ED SỰ TIẾN HÓA

Hai chủ đề nổi bật của công nghệ doanh nghiệp trong những năm 90 là tôi kho dữ liệu và ERP. Trong một thời gian dài, hai luồng mạnh mẽ này đã là một phần của CNTT doanh nghiệp mà không bao giờ có điểm giao nhau. Gần như thể chúng là vật chất và phản vật chất. Nhưng sự phát triển của cả hai hiện tượng chắc chắn đã dẫn đến giao điểm của chúng. Ngày nay các công ty đang phải đối mặt với vấn đề phải làm gì với ERP và kho dữ liệu. Bài viết này sẽ giải thích các vấn đề là gì và cách các công ty giải quyết chúng.

KHI BẮT ĐẦU…

Lúc đầu có kho dữ liệu. Kho dữ liệu nó được sinh ra để chống lại hệ thống ứng dụng xử lý giao dịch. Trong những ngày đầu ghi nhớ của dữ liệu nó có nghĩa là chỉ là một điểm đối lập với các ứng dụng xử lý giao dịch. Nhưng ngày nay có nhiều tầm nhìn phức tạp hơn về những gì một kho dữ liệu. Trong thế giới ngày nay các kho dữ liệu nó được chèn vào trong một cấu trúc có thể được gọi là Nhà máy Thông tin Công ty.

NHÀ MÁY THÔNG TIN DOANH NGHIỆP (CIF)

Corporate Information Factory có các thành phần kiến trúc tiêu chuẩn: lớp chuyển đổi và tích hợp mã tích hợp i dữ liệu trong khi tôi dữ liệu chúng di chuyển từ môi trường ứng dụng sang môi trường của kho dữ liệu của công ty; Một kho dữ liệu của công ty nơi dữ liệu các nhà sử học chi tiết và tích hợp. Các kho dữ liệu của doanh nghiệp đóng vai trò là nền tảng mà tất cả các phần khác của môi trường có thể được xây dựng trên đó. kho dữ liệu; một kho lưu trữ dữ liệu hoạt động (ODS). ODS là một cấu trúc lai có chứa một số khía cạnh của kho dữ liệu và các khía cạnh khác của môi trường OLTP; siêu thị dữ liệu, nơi các bộ phận khác nhau có thể có phiên bản riêng của họ về kho dữ liệu; a kho dữ liệu khám phá nơi các nhà tư tưởng của công ty có thể gửi các truy vấn kéo dài 72 giờ của họ mà không ảnh hưởng bất lợi đến kho dữ liệu; và một bộ nhớ dòng gần, trong đó dữ liệu cũ và dữ liệu chi tiết số lượng lớn có thể được lưu trữ trên giá rẻ.

ERP KẾT HỢP Ở ĐÂU VỚI THÔNG TIN DOANH NGHIỆP NHÀ MÁY

ERP hợp nhất với Corporate Information Factory ở hai nơi. Chủ yếu là một ứng dụng cơ bản cung cấp cho tôi dữ liệu của ứng dụng để kho dữ liệu. trong trường hợp này tôi dữ liệu, được tạo ra dưới dạng sản phẩm phụ của quy trình giao dịch, được tích hợp và tải vào kho dữ liệu của công ty. Liên kết thứ hai giữa ERP và CIF là ODS. Thật vậy, trong nhiều môi trường, ERP được sử dụng như một ODS cổ điển.

Trong trường hợp ERP được sử dụng như một ứng dụng cơ bản, ERP tương tự cũng có thể được sử dụng trong CIF dưới dạng ODS. Trong mọi trường hợp, nếu ERP được sử dụng trong cả hai vai trò, thì phải có sự phân biệt rõ ràng giữa hai thực thể. Nói cách khác, khi ERP đóng vai trò là ứng dụng cơ sở và ODS, hai thực thể kiến trúc phải được phân biệt. Nếu một triển khai ERP duy nhất cố gắng hoàn thành đồng thời cả hai vai trò thì chắc chắn sẽ có vấn đề trong thiết kế và triển khai khuôn khổ đó.

ODS RIÊNG VÀ ỨNG DỤNG CƠ BẢN

Có nhiều nguyên nhân dẫn đến sự chia cắt các cấu kiện kiến trúc. Có lẽ điểm đáng chú ý nhất trong việc tách biệt các thành phần khác nhau của một kiến trúc là mỗi thành phần của kiến trúc có cách nhìn riêng của nó. Ứng dụng cơ sở phục vụ mục đích khác với ODS. thử chồng lên nhau

chế độ xem ứng dụng cơ bản trên thế giới của ODS hoặc ngược lại không phải là cách làm việc hợp lý.

Do đó, vấn đề đầu tiên của ERP trong CIF là xác minh xem có sự khác biệt giữa các ứng dụng cơ bản và ODS hay không.

CÁC MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP THÔNG TIN NHÀ MÁY

Để đạt được sự gắn kết giữa các thành phần khác nhau của kiến trúc CIF, phải có một mô hình dữ liệu. Các mô hình của dữ liệu chúng phục vụ như một liên kết giữa các thành phần khác nhau của kiến trúc, chẳng hạn như các ứng dụng cơ sở và ODS. Các mô hình của dữ liệu chúng trở thành “lộ trình trí tuệ” để hiểu đúng nghĩa từ các thành phần kiến trúc khác nhau của CIF.

Song song với quan điểm này, ý tưởng là nên có một mô hình lớn và duy nhất. dữ liệu. Rõ ràng là phải có một khuôn mẫu dữ liệu cho từng thành phần và hơn nữa phải có một đường dẫn hợp lý kết nối các mô hình khác nhau. Mỗi thành phần của kiến trúc - ODS, ứng dụng cơ sở, kho dữ liệu của công ty, v.v.. – cần mô hình riêng của mình về dữ liệu. Và do đó, phải có một định nghĩa chính xác về cách thức các mô hình này dữ liệu chúng giao tiếp với nhau.

DI CHUYỂN TÔI ĐẠT CỦA ERP TRONG DỮ LIỆU Nhà kho

Nếu nguồn gốc của dữ liệu là một ứng dụng cơ bản và/hoặc một ODS, khi ERP chèn tôi dữ liệu trong kho dữ liệu, việc chèn này phải diễn ra ở mức "độ chi tiết" thấp nhất. Đơn giản chỉ cần tóm tắt hoặc tổng hợp tôi dữ liệu khi họ ra khỏi ứng dụng cơ sở ERP hoặc ERP ODS không phải là điều nên làm. CÁC dữ liệu chi tiết là cần thiết trong kho dữ liệu để hình thành cơ sở của quá trình DSS. Như là dữ liệu chúng sẽ được định hình lại theo nhiều cách bằng siêu thị dữ liệu và khám phá kho dữ liệu.

việc di chuyển của dữ liệu từ môi trường ứng dụng cơ sở ERP đến kho dữ liệu của công ty được thực hiện một cách thoải mái hợp lý. Việc di chuyển này xảy ra khoảng 24 giờ sau khi cập nhật hoặc tạo trong ERP. Thực trạng “lười” vận động của người dân dữ liệu trong kho dữ liệu của công ty cho phép dữ liệu đến từ ERP để "giải quyết". Một lần tôi dữ liệu được lưu trữ trong ứng dụng cơ sở, thì bạn có thể di chuyển ứng dụng một cách an toàn dữ liệu của ERP trong công ty. Một mục tiêu khác có thể đạt được nhờ phong trào "lười" của dữ liệu là sự phân định rõ ràng giữa quy trình tác nghiệp và DSS. Với sự chuyển động “nhanh” của dữ liệu ranh giới giữa DSS và hoạt động vẫn còn mơ hồ.

Il phimmento dei dữ liệu từ ODS của ERP đến kho dữ liệu của công ty được thực hiện định kỳ, thường là hàng tuần hoặc hàng tháng. Trong trường hợp này chuyển động của dữ liệu nó dựa trên nhu cầu "dọn dẹp" những cái cũ dữ liệu các nhà sử học. Đương nhiên, ODS chứa tôi dữ liệu mới hơn nhiều so với dữ liệu các nhà sử học tìm thấy trong kho dữ liệu.

việc di chuyển của dữ liệu trong kho dữ liệu nó hầu như không bao giờ được thực hiện "bán buôn" (theo cách bán buôn). Sao chép một bảng từ môi trường ERP sang kho dữ liệu nó chả có nghĩa gì cả. Một cách tiếp cận thực tế hơn nhiều là di chuyển các đơn vị được chọn của dữ liệu. Chỉ dữ liệu đã thay đổi kể từ lần cập nhật cuối cùng của kho dữ liệu là những thứ nên được chuyển vào kho dữ liệu. Một cách để biết cái nào dữ liệu đã thay đổi kể từ lần cập nhật cuối cùng là xem dấu thời gian của dữ liệu tìm thấy trong môi trường ERP. Nhà thiết kế chọn tất cả các thay đổi đã xảy ra kể từ lần cập nhật cuối cùng. Một cách tiếp cận khác là sử dụng các kỹ thuật nắm bắt thay đổi dữ liệu. Với những kỹ thuật này, nhật ký và băng ghi nhật ký được phân tích để xác định cái nào dữ liệu phải được chuyển từ môi trường ERP sang môi trường của kho dữ liệu. Những kỹ thuật này là tốt nhất vì có thể đọc nhật ký và băng ghi nhật ký từ tệp ERP mà không ảnh hưởng thêm đến các tài nguyên ERP khác.

CÁC BIẾN CHỨNG KHÁC

Một trong những vấn đề về ERP trong CIF là điều gì sẽ xảy ra với các nguồn ứng dụng khác hoặc ai dữ liệu của ODS mà họ phải đóng góp kho dữ liệu nhưng chúng không phải là một phần của môi trường ERP. Do tính chất khép kín của ERP, đặc biệt là SAP, việc cố gắng tích hợp các khóa từ các nguồn bên ngoài dữ liệu với tôi dữ liệu đến từ ERP tại thời điểm di chuyển tôi dữ liệu trong kho dữ liệu, đó là một thách thức lớn. Và chính xác xác suất mà tôi dữ liệu của các ứng dụng hoặc ODS bên ngoài môi trường ERP sẽ được tích hợp vào kho dữ liệu? Tỷ lệ cược thực sự rất cao.

TÌM THẤY ĐẠT LỊCH SỬ TỪ ERP

Một vấn đề khác với tôi dữ liệu của ERP là xuất phát từ nhu cầu phải có dữ liệu các nhà sử học trong kho dữ liệu. Thông thường kho dữ liệu anh ấy cần dữ liệu các nhà sử học. Và công nghệ ERP thường không lưu trữ những dữ liệu lịch sử, ít nhất là không đến mức cần thiết trong kho dữ liệu. Khi một lượng lớn dữ liệu nhật ký bắt đầu thêm vào trong môi trường ERP, môi trường đó cần được làm sạch. Ví dụ, giả sử một kho dữ liệu nên được nạp với năm năm dữ liệu lịch sử trong khi ERP giữ tối đa sáu tháng trong số này dữ liệu. Miễn là công ty hài lòng để thu thập một số dữ liệu lịch sử khi thời gian trôi qua, thì không có vấn đề gì khi sử dụng ERP làm nguồn cho kho dữ liệu. Nhưng khi kho dữ liệu phải quay ngược thời gian và lấy các vị thần dữ liệu lịch sử mà trước đó chưa được ERP thu thập và lưu lại, thì môi trường ERP trở nên kém hiệu quả.

ERP VÀ SIÊU DỮ LIỆU

Một cân nhắc khác để thực hiện về ERP e kho dữ liệu là một trong siêu dữ liệu hiện có trong môi trường ERP. Giống như siêu dữ liệu chuyển từ môi trường ERP sang kho dữ liệu, siêu dữ liệu phải được di chuyển theo cách tương tự. Ngoài ra, siêu dữ liệu phải được chuyển đổi thành định dạng và cấu trúc theo yêu cầu của cơ sở hạ tầng kho dữ liệu. Có sự khác biệt lớn giữa siêu dữ liệu hoạt động và siêu dữ liệu DSS. Siêu dữ liệu hoạt động chủ yếu dành cho nhà phát triển và cho

lập trình viên. Siêu dữ liệu DSS chủ yếu dành cho người dùng cuối. Siêu dữ liệu hiện có trong các ứng dụng ERP hoặc ODS cần được chuyển đổi và việc chuyển đổi này không phải lúc nào cũng dễ dàng và đơn giản.

TÌM NGUỒN DỮ LIỆU ERP

Nếu ERP được sử dụng như một nhà cung cấp dữ liệu cho kho dữ liệu phải có một giao diện chắc chắn di chuyển tôi dữ liệu từ môi trường ERP đến môi trường kho dữ liệu. Giao diện phải:

▪ dễ sử dụng
▪ cho phép truy cập vào dữ liệu của ERP
▪ nhận ra ý nghĩa của dữ liệu đang được chuyển đến kho dữ liệu
▪ biết những hạn chế của ERP có thể phát sinh khi truy cập vào dữ liệu của ERP:
▪ toàn vẹn tham chiếu
▪ quan hệ thứ bậc
▪ mối quan hệ logic tiềm ẩn
▪ quy ước ứng dụng
▪ tất cả các cấu trúc của dữ liệu được hỗ trợ bởi ERP, v.v…
▪ hiệu quả trong việc tiếp cận dữ liệu, bằng cách cung cấp:
▪ chuyển động trực tiếp của dữ liệu
▪ mua lại sự thay đổi dữ liệu
▪ hỗ trợ truy cập kịp thời vào dữ liệu
▪ hiểu định dạng của dữ liệu, và như thế… GIAO DIỆN VỚI SAP Giao diện có thể có hai loại, cây nhà lá vườn hoặc thương mại. Một số giao diện thương mại chính bao gồm:

▪ SAS
▪ Giải pháp chính
▪ D2k, v.v... NHIỀU CÔNG NGHỆ ERP Đối xử với môi trường ERP như thể nó là một công nghệ duy nhất là một sai lầm lớn. Có rất nhiều công nghệ ERP, mỗi công nghệ đều có thế mạnh riêng. Các nhà cung cấp nổi tiếng nhất trên thị trường là:

▪ SAP
▪ Tài chính Oracle
▪ PeopleSoft
JD Edwards
▪ Baan SAP SAP là phần mềm ERP lớn nhất và toàn diện nhất. Các ứng dụng của SAP bao gồm nhiều loại ứng dụng trong nhiều lĩnh vực. SAP nổi tiếng là:

▪ rất lớn
▪ rất khó thực hiện và tốn kém
▪ cần nhiều người và chuyên gia tư vấn để thực hiện
▪ cần người chuyên trách thực hiện
▪ cần nhiều thời gian để triển khai Ngoài ra SAP còn nổi tiếng về việc ghi nhớ dữ liệu chặt chẽ, gây khó khăn cho những người bên ngoài khu vực SAP truy cập chúng. Điểm mạnh của SAP là nó có khả năng nắm bắt và lưu trữ một lượng lớn dữ liệu. SAP gần đây đã công bố ý định mở rộng các ứng dụng của mình sang kho dữ liệu. Có nhiều ưu và nhược điểm khi sử dụng SAP làm nhà cung cấp kho dữ liệu. Một lợi thế là SAP đã được cài đặt sẵn và hầu hết các chuyên gia tư vấn đều đã quen thuộc với SAP.
Nhược điểm của việc có SAP làm nhà cung cấp kho dữ liệu rất nhiều: SAP không có kinh nghiệm trong thế giới kho dữ liệu Nếu SAP là nhà cung cấp của kho dữ liệu, cần phải "hạ gục" tôi dữ liệu từ SAP sang kho dữ liệu. Do một hồ sơ theo dõi của SAP về hệ thống khép kín, không dễ dàng đưa tôi từ SAP vào đó (???). Có nhiều môi trường kế thừa cung cấp năng lượng cho SAP, chẳng hạn như IMS, VSAM, ADABAS, ORACLE, DB2, v.v. SAP nhấn mạnh vào cách tiếp cận “không được phát minh ở đây”. SAP không muốn hợp tác với các nhà cung cấp khác để sử dụng hoặc tạo kho dữ liệu. SAP nhất quyết tự tạo ra tất cả phần mềm của mình.

Mặc dù SAP là một công ty lớn và mạnh, nhưng thực tế là việc cố gắng viết lại công nghệ của ELT, OLAP, quản trị hệ thống và thậm chí cả cơ sở mã của dbms nó thật điên rồ. Thay vì có thái độ hợp tác với các nhà cung cấp kho dữ liệu Từ lâu, SAP đã đi theo cách tiếp cận mà họ “biết rõ nhất”. Thái độ này cản trở sự thành công mà SAP có thể đạt được trong lĩnh vực kho dữ liệu.
SAP từ chối cho phép các nhà cung cấp bên ngoài truy cập nhanh chóng và duyên dáng của họ dữ liệu. Bản chất của việc sử dụng một kho dữ liệu là dễ dàng truy cập vào dữ liệu. Toàn bộ câu chuyện của SAP dựa trên việc gây khó khăn cho việc truy cập dữ liệu.
SAP thiếu kinh nghiệm trong việc xử lý khối lượng lớn dữ liệu; trong lĩnh vực kho dữ liệu có khối lượng dữ liệu chưa từng thấy từ SAP và để xử lý số lượng lớn này dữ liệu bạn cần phải có công nghệ phù hợp. SAP dường như không nhận thức được rào cản công nghệ này tồn tại để tham gia vào lĩnh vực kho dữ liệu.
Văn hóa doanh nghiệp của SAP: SAP đã xây dựng một doanh nghiệp trong việc dữ liệu từ hệ thống. Nhưng để làm được điều này bạn cần phải có một tâm lý khác. Theo truyền thống, các công ty phần mềm giỏi trong việc đưa dữ liệu vào một môi trường đã không giỏi trong việc đưa dữ liệu đi theo cách khác. Nếu SAP quản lý để thực hiện loại chuyển đổi này, thì đây sẽ là công ty đầu tiên làm như vậy.

Nói tóm lại, một câu hỏi đặt ra là liệu một công ty có nên chọn SAP làm nhà cung cấp kho dữ liệu. Một mặt có những rủi ro rất nghiêm trọng và mặt khác rất ít phần thưởng. Nhưng có một lý do khác không khuyến khích chọn SAP làm nhà cung cấp kho dữ liệu. Bởi vì mỗi công ty nên có như nhau kho dữ liệu của tất cả các công ty khác? Các kho dữ liệu nó là trung tâm của lợi thế cạnh tranh. Nếu mọi công ty đều áp dụng giống nhau kho dữ liệu sẽ rất khó, mặc dù không phải là không thể, để đạt được lợi thế cạnh tranh. SAP dường như nghĩ rằng một kho dữ liệu có thể được coi là một cookie và đây là một dấu hiệu khác cho thấy tâm lý “lấy dữ liệu trong” các ứng dụng của họ.

Không có nhà cung cấp ERP nào khác chiếm ưu thế như SAP. Chắc chắn sẽ có những công ty sẽ đi theo con đường SAP cho họ kho dữ liệu nhưng có lẽ những kho dữ liệu SAP sẽ lớn, tốn kém và tốn thời gian để tạo.

Những môi trường này bao gồm các hoạt động như xử lý giao dịch viên ngân hàng, quy trình đặt vé máy bay, quy trình khiếu nại bảo hiểm, v.v. Hệ thống giao dịch hoạt động càng tốt thì nhu cầu tách biệt giữa quy trình tác nghiệp và DSS (Hệ thống hỗ trợ ra quyết định) càng rõ ràng. Tuy nhiên, với hệ thống nhân sự và nhân sự, bạn không bao giờ phải đối mặt với khối lượng giao dịch lớn. Và, tất nhiên, khi một người được thuê hoặc rời khỏi công ty, đây là hồ sơ của một giao dịch. Nhưng so với các hệ thống khác, hệ thống nhân sự và nhân sự đơn giản là không có nhiều giao dịch. Do đó, trong các hệ thống nhân sự và nhân sự, không hoàn toàn rõ ràng là cần có DataWarehouse. Theo nhiều cách, các hệ thống này là sự hợp nhất của các hệ thống DSS.

Nhưng có một yếu tố khác phải được xem xét khi giao dịch với datawarehouse và PeopleSoft. Trong nhiều vòng tròn, tôi dữ liệu Nhân sự và nguồn lực cá nhân là thứ yếu đối với hoạt động kinh doanh chính của công ty. Hầu hết các công ty đang sản xuất, bán hàng, cung cấp dịch vụ, v.v. Hệ thống nhân sự và nhân sự thường là thứ yếu (hoặc hỗ trợ) cho ngành kinh doanh chính của công ty. Vì vậy, nó là không rõ ràng và bất tiện một kho dữ liệu riêng biệt để hỗ trợ nhân sự và tài nguyên cá nhân.

PeopleSoft rất khác với SAP về mặt này. Với SAP, bắt buộc phải có một kho dữ liệu. Với PeopleSoft, mọi thứ không rõ ràng như vậy. Kho dữ liệu là tùy chọn với PeopleSoft.

Điều tốt nhất có thể nói cho dữ liệu PeopleSoft là kho dữ liệu có thể được sử dụng để lưu trữ tôi dữ liệu liên quan đến nguồn nhân lực và cá nhân cũ. Lý do thứ hai khiến một công ty muốn sử dụng kho dữ liệu a

nhược điểm của môi trường PeopleSoft là cho phép truy cập và sử dụng miễn phí các công cụ phân tích, ai dữ liệu của PeopleSoft. Nhưng ngoài những lý do này, có thể có những trường hợp không nên có kho dữ liệu cho dữ liệu PeopleSoft.

Tóm tắt

Có rất nhiều ý tưởng liên quan đến việc xây dựng một kho dữ liệu bên trong một phần mềm ERP.
Một số trong số này là:

▪ Thật hợp lý khi có một kho dữ liệu ai trông giống ai khác trong ngành?
▪ ERP linh hoạt như thế nào kho dữ liệu phần mềm?
▪ Hệ thống ERP kho dữ liệu phần mềm có thể xử lý một khối lượng dữ liệu nằm trong mộtkho dữ liệu đấu trường"?
▪ Việc ghi nhật ký theo dõi mà nhà cung cấp ERP thực hiện là gì khi dễ dàng và không tốn kém, tốn thời gian, ai dữ liệu? (hồ sơ theo dõi của các nhà cung cấp ERP về việc cung cấp dữ liệu rẻ, đúng hạn, dễ truy cập là gì?)
▪ Hiểu biết của nhà cung cấp ERP về kiến trúc DSS và nhà máy thông tin doanh nghiệp là gì?
▪ Các nhà cung cấp ERP hiểu làm thế nào để có được dữ liệu trong môi trường, nhưng cũng hiểu làm thế nào để xuất chúng?
▪ Mức độ cởi mở của nhà cung cấp ERP đối với các công cụ lưu trữ dữ liệu?
Tất cả những cân nhắc này phải được thực hiện khi xác định nơi đặt kho dữ liệu nơi sẽ tổ chức tôi dữ liệu của ERP và những thứ khác dữ liệu. Nói chung, trừ khi có lý do thuyết phục để làm khác đi, việc xây dựng được khuyến nghị kho dữ liệu bên ngoài môi trường nhà cung cấp ERP. THỦ ĐÔ 1 Tổng quan về Tổ chức BI Các điểm chính:
Kho lưu trữ thông tin hoạt động theo cách ngược lại với kiến trúc kinh doanh thông minh (BI):
Văn hóa doanh nghiệp và CNTT có thể hạn chế sự thành công của việc xây dựng các tổ chức BI.

Công nghệ không còn là yếu tố hạn chế đối với các tổ chức BI. Vấn đề đối với các kiến trúc sư và các nhà quy hoạch dự án không phải là liệu công nghệ đó có tồn tại hay không, mà là liệu họ có thể triển khai hiệu quả công nghệ sẵn có hay không.

Đối với nhiều công ty một kho dữ liệu ít hơn một khoản tiền gửi thụ động phân phối tôi dữ liệu cho những người dùng cần nó. CÁC dữ liệu được trích xuất từ các hệ thống nguồn và được đưa vào các cấu trúc đích bằng cách kho dữ liệu. Tôi dữ liệu chúng cũng có thể được làm sạch nếu may mắn. Tuy nhiên, không có giá trị bổ sung nào được thêm vào hoặc thu thập bởi dữ liệu trong suốt quá trình này.

Về cơ bản, dw thụ động, tốt nhất, chỉ cung cấp i dữ liệu sạch sẽ và hoạt động cho các hiệp hội người dùng. Việc tạo thông tin và hiểu phân tích hoàn toàn phụ thuộc vào người dùng. Đánh giá liệu DW (Kho dữ liệu) cho dù một thành công là chủ quan. Nếu chúng ta đánh giá thành công dựa trên khả năng thu thập, tích hợp và làm sạch hiệu quả dữ liệu công ty trên cơ sở có thể dự đoán được, thì vâng, DW là một thành công. Mặt khác, nếu chúng ta xem xét việc thu thập, củng cố và khai thác thông tin của tổ chức như một tổng thể, thì DW là một thất bại. Một DW cung cấp ít hoặc không có giá trị thông tin. Do đó, người dùng buộc phải làm, do đó tạo ra các silo thông tin. Chương này trình bày một tầm nhìn toàn diện để tóm tắt lại kiến trúc BI (Business Intelligence) doanh nghiệp. Chúng tôi bắt đầu với mô tả về BI và sau đó chuyển sang thảo luận về thiết kế và phát triển thông tin, thay vì chỉ cung cấp dữ liệu cho người dùng. Các cuộc thảo luận sau đó tập trung vào việc tính toán giá trị của các nỗ lực BI của bạn. Chúng tôi kết luận bằng cách xác định cách IBM giải quyết các yêu cầu về kiến trúc BI của tổ chức bạn.

Mô tả kiến trúc của tổ chức BI

Các hệ thống thông tin định hướng giao dịch mạnh mẽ hiện là thứ tự trong ngày của mọi doanh nghiệp lớn, tạo sân chơi bình đẳng hiệu quả cho các tập đoàn trên toàn thế giới.

Tuy nhiên, việc duy trì khả năng cạnh tranh hiện nay đòi hỏi các hệ thống định hướng phân tích có thể cách mạng hóa khả năng của công ty trong việc khám phá lại và sử dụng thông tin họ đã có. Các hệ thống phân tích này bắt nguồn từ sự hiểu biết từ sự giàu có của dữ liệu có sẵn. BI có thể cải thiện hiệu suất trên tất cả thông tin trong toàn doanh nghiệp. Các công ty có thể cải thiện mối quan hệ giữa khách hàng và nhà cung cấp, cải thiện lợi nhuận của sản phẩm và dịch vụ, tạo ra các giao dịch mới và tốt hơn, kiểm soát rủi ro và trong số nhiều lợi ích khác, cắt giảm đáng kể chi phí. Với BI, công ty của bạn cuối cùng cũng bắt đầu sử dụng thông tin khách hàng như một tài sản cạnh tranh nhờ các ứng dụng có mục tiêu thị trường.

Có phương tiện kinh doanh phù hợp có nghĩa là có câu trả lời dứt khoát cho các câu hỏi chính như:

▪ Cái nào của chúng ta khách hàng Chúng khiến chúng ta kiếm được nhiều tiền hơn hay chúng khiến chúng ta mất tiền?
▪ Nơi chúng ta sống tốt nhất khách hàng liên quan đến cửa hàng/ kho họ thường xuyên?
▪ Sản phẩm và dịch vụ nào của chúng ta có thể được bán hiệu quả nhất và bán cho ai?
▪ Sản phẩm nào có thể được bán hiệu quả nhất và bán cho ai?
▪ Chiến dịch bán hàng nào thành công hơn và tại sao?
▪ Kênh bán hàng nào hiệu quả nhất cho sản phẩm nào?
▪ Làm thế nào chúng ta có thể cải thiện mối quan hệ với những người tốt nhất của chúng ta khách hàng? Hầu hết các công ty đều có dữ liệu thô để trả lời những câu hỏi này.
Hệ thống vận hành tạo ra số lượng lớn sản phẩm, khách hàng và chi phí dữ liệu từ các điểm bán hàng, đặt chỗ, dịch vụ khách hàng và hệ thống hỗ trợ kỹ thuật. Thách thức là trích xuất và khai thác thông tin này. Nhiều công ty chỉ kiếm được lợi nhuận từ một phần nhỏ của họ dữ liệu cho các phân tích chiến lược.
I dữ liệu còn lại, thường kết hợp với tôi dữ liệu lấy các nguồn bên ngoài như báo cáo của chính phủ và thông tin đã mua khác, là một mỏ vàng đang chờ được khám phá và dữ liệu chúng chỉ cần được tinh chỉnh trong bối cảnh thông tin của tổ chức của bạn.

Kiến thức này có thể được áp dụng theo nhiều cách, từ thiết kế chiến lược tổng thể của công ty đến giao tiếp cá nhân với nhà cung cấp, thông qua các trung tâm cuộc gọi, lập hoá đơn, Internet và các điểm khác. Môi trường kinh doanh ngày nay yêu cầu các giải pháp DW và BI liên quan phát triển vượt ra ngoài việc vận hành các cấu trúc kinh doanh truyền thống. dữ liệu chẳng hạn như tôi dữ liệu chuẩn hóa ở cấp độ nguyên tử và “trang trại sao/khối”.

Điều cần thiết để duy trì tính cạnh tranh là sự kết hợp giữa công nghệ truyền thống và công nghệ tiên tiến nhằm nỗ lực hỗ trợ bối cảnh phân tích rộng lớn.
Cuối cùng, môi trường chung phải nâng cao kiến thức về toàn bộ công ty, đảm bảo rằng các hành động được thực hiện do kết quả của các phân tích được thực hiện là hữu ích để mọi người đều được hưởng lợi.

Ví dụ: giả sử bạn xếp hạng của riêng mình khách hàng trong danh mục rủi ro cao hay thấp.
Cho dù thông tin này được tạo bởi mô hình khai thác hay các phương tiện khác, nó phải được đưa vào DW và có thể truy cập được đối với bất kỳ ai, bằng bất kỳ công cụ truy cập nào, chẳng hạn như báo cáo tĩnh, bảng tính, bảng biểu hoặc xử lý phân tích trực tuyến (OLAP).

Tuy nhiên, hiện tại, phần lớn loại thông tin này vẫn nằm trong silo. dữ liệu của các cá nhân hoặc bộ phận tạo ra các phân tích. Toàn bộ tổ chức có rất ít hoặc không có tầm nhìn để hiểu. Chỉ bằng cách kết hợp loại nội dung thông tin này vào DW doanh nghiệp của bạn, bạn mới có thể loại bỏ các silo thông tin và nâng cao môi trường DW của mình.
Có hai rào cản lớn để phát triển một tổ chức BI.
Đầu tiên, chúng ta có vấn đề về bản thân tổ chức và kỷ luật của nó.
Mặc dù chúng tôi không thể giúp thay đổi chính sách của tổ chức, nhưng chúng tôi có thể giúp hiểu các thành phần của BI của tổ chức, kiến trúc của nó và cách công nghệ của IBM tạo điều kiện cho sự phát triển của nó.
Rào cản thứ hai cần vượt qua là thiếu công nghệ tích hợp và kiến thức về phương pháp gọi toàn bộ không gian BI thay vì chỉ một thành phần nhỏ.

IBM đang đáp ứng những thay đổi trong việc tích hợp công nghệ. Bạn có trách nhiệm cung cấp thiết kế có ý thức. Kiến trúc này phải được phát triển với công nghệ được chọn để tích hợp không bị giới hạn, hoặc ít nhất, với công nghệ tuân thủ các tiêu chuẩn mở. Ngoài ra, ban quản lý công ty của bạn phải đảm bảo rằng doanh nghiệp Bi được thực hiện đúng tiến độ và không cho phép phát triển các silo thông tin phát sinh từ các chương trình hoặc mục tiêu tự phục vụ.
Điều này không có nghĩa là môi trường BI không nhạy cảm với việc phản ứng với các nhu cầu và yêu cầu khác nhau của những người dùng khác nhau; thay vào đó, điều đó có nghĩa là việc thực hiện các nhu cầu và yêu cầu riêng lẻ đó được thực hiện vì lợi ích của toàn bộ tổ chức BI.
Bạn có thể tìm thấy mô tả về kiến trúc của tổ chức BI trên Hình 9 ở trang 1.1. Kiến trúc thể hiện sự kết hợp phong phú giữa các công nghệ và kỹ thuật.
Từ quan điểm truyền thống, kiến trúc bao gồm các thành phần nhà kho sau

Lớp nguyên tử (Atomic Layer).

Đây là nền tảng, là trái tim của toàn bộ Dw và do đó là của báo cáo chiến lược.
I dữ liệu được lưu trữ ở đây sẽ giữ nguyên tính toàn vẹn lịch sử, các báo cáo về dữ liệu và bao gồm các số liệu dẫn xuất, cũng như được làm sạch, tích hợp và lưu trữ bằng các mô hình khai thác.
Tất cả các lần sử dụng sau này dữ liệu và thông tin liên quan được bắt nguồn từ cấu trúc này. Đây là một nguồn tuyệt vời để khai thác dữ liệu và cho các báo cáo có truy vấn SQL có cấu trúc

Kho hoạt động của dữ liệu hoặc cơ sở báo cáo của dữ liệu(Lưu trữ dữ liệu hoạt động (ODS) hoặc báo cáo cơ sở dữ liệu.)

Đây là một cấu trúc của dữ liệu được thiết kế đặc biệt cho báo cáo kỹ thuật.

I dữ liệu được lưu trữ và báo cáo ở trên các cấu trúc này cuối cùng có thể lan truyền vào kho thông qua khu vực tổ chức, nơi nó có thể được sử dụng để báo hiệu chiến lược.

Khu vực dàn dựng.

Điểm dừng đầu tiên cho hầu hết dữ liệu dành cho môi trường nhà kho là khu vực tổ chức.
Tôi đây dữ liệu được tích hợp, làm sạch và biến thành dữ liệu lợi nhuận sẽ tạo nên cấu trúc nhà kho

Ngày siêu thị.

Phần này của kiến trúc đại diện cho cấu trúc của dữ liệu được sử dụng riêng cho OLAP. Sự hiện diện của datamarts, nếu tôi dữ liệu chúng được lưu trữ trong các lược đồ sao mà chúng phủ lên dữ liệu đa chiều trong một môi trường quan hệ, hoặc trong các tập tin của dữ liệu độc quyền được sử dụng bởi công nghệ OLAP cụ thể, chẳng hạn như Máy chủ OLAP của DB2, không liên quan.

Hạn chế duy nhất là kiến trúc tạo điều kiện thuận lợi cho việc sử dụng dữ liệu đa chiều.
Kiến trúc cũng bao gồm các công nghệ và kỹ thuật Bi quan trọng được phân biệt là:

Phân tích không gian

Không gian là một nguồn thông tin bất ngờ cho nhà phân tích và rất quan trọng để giải quyết hoàn chỉnh. Không gian có thể đại diện cho thông tin về những người sống ở một địa điểm nhất định, cũng như thông tin về vị trí của địa điểm đó so với phần còn lại của thế giới.

Để thực hiện phân tích này, bạn phải bắt đầu bằng cách liên kết thông tin của mình với các tọa độ kinh độ và vĩ độ. Điều này được gọi là "mã hóa địa lý" và phải là một phần của quá trình trích xuất, biến đổi và tải (ETL) ở cấp độ nguyên tử của kho hàng của bạn.

Khai thác dữ liệu.

việc khai thác dữ liệu cho phép các công ty của chúng tôi phát triển số lượng khách hàng, để dự đoán xu hướng bán hàng và cho phép quản lý mối quan hệ với i khách hàng (CRM), trong số các sáng kiến BI khác.

việc khai thác dữ liệu do đó nó phải được tích hợp với các cấu trúc của dữ liệu kho và được hỗ trợ bởi các quy trình kho để xác định việc sử dụng công nghệ và các kỹ thuật liên quan một cách hiệu quả và hiệu quả.

Như đã chỉ ra trong kiến trúc BI, Dwhouse cấp độ nguyên tử, cũng như datamarts, là một nguồn tuyệt vời của dữ liệu để khai thác. Những tài sản tương tự đó cũng phải là người nhận kết quả trích xuất để đảm bảo khả dụng cho đối tượng rộng nhất.

Đại lý.

Có nhiều "đại lý" khác nhau để kiểm tra khách hàng về bất kỳ điểm nào, chẳng hạn như hệ điều hành của công ty và bản thân dw. Các tác nhân này có thể là các mạng thần kinh nâng cao được đào tạo để tìm hiểu về các xu hướng tại mỗi thời điểm, chẳng hạn như nhu cầu sản phẩm trong tương lai dựa trên các chương trình khuyến mại, các công cụ dựa trên quy tắc để phản ứng với một dữ liệu tập hợp các tình huống, hoặc thậm chí các tác nhân đơn giản báo cáo các trường hợp ngoại lệ cho các giám đốc điều hành hàng đầu. Các quá trình này thường xảy ra trong thời gian thực và do đó phải được kết hợp chặt chẽ với sự chuyển động của các quá trình. dữ liệu. Tất cả những cấu trúc này của dữ liệu, các công nghệ và kỹ thuật đảm bảo rằng bạn sẽ không mất nhiều thời gian để tạo ra một tổ chức BI của mình.

Hoạt động này sẽ được phát triển theo từng bước tăng dần, cho điểm nhỏ.
Mỗi bước là một nỗ lực dự án độc lập và được gọi là bước lặp lại trong BI dw hoặc sáng kiến của bạn. Việc lặp lại có thể bao gồm triển khai các công nghệ mới, bắt đầu với các kỹ thuật mới, thêm các khuôn khổ mới vào dữ liệu , đang tải tôi dữ liệu bổ sung hoặc với việc mở rộng phân tích môi trường của bạn. Đoạn này được thảo luận chi tiết hơn trong chương 3.

Ngoài các khung DW và công cụ BI truyền thống, còn có các khía cạnh khác trong tổ chức BI mà bạn cần thiết kế, chẳng hạn như:

Điểm tiếp xúc khách hàng (Customer touch điểm).

Như với bất kỳ tổ chức hiện đại nào, có một số điểm tiếp xúc khách hàng cho biết cách mang lại trải nghiệm tích cực cho bạn khách hàng. Có các kênh truyền thống như thương nhân, nhà điều hành tổng đài, thư trực tiếp, quảng cáo đa phương tiện và in ấn, cũng như các kênh hiện tại hơn như email và web, dữ liệu các sản phẩm có một số điểm tiếp xúc phải được mua, vận chuyển, làm sạch, xử lý và sau đó đưa vào cơ sở dữ liệu của BI.

căn cứ của dữ liệu các hiệp hội hoạt động và người dùng (Operational

cơ sở dữ liệu và cộng đồng người dùng).
Ở cuối các điểm tiếp xúc của khách hàng các nền tảng được tìm thấy dữ liệu ứng dụng của công ty và cộng đồng người dùng. CÁC dữ liệu hiện tại là dữ liệu truyền thống phải được kết hợp và kết hợp với dữ liệu chảy từ các điểm tiếp xúc để đáp ứng thông tin cần thiết.

Các nhà phân tích. (Nhà phân tích)

Người hưởng lợi chính của môi trường BI là nhà phân tích. Chính anh ta là người được hưởng lợi từ việc khai thác hiện tại dữ liệu hoạt động, tích hợp với các nguồn khác nhau của dữ liệu , được tăng cường với các tính năng như phân tích địa lý (mã hóa địa lý) và được trình bày trong các công nghệ BI cho phép khai thác, OLAP, báo cáo SQL nâng cao và phân tích địa lý. Giao diện chính cho nhà phân tích với môi trường báo cáo là cổng thông tin BI.

Tuy nhiên, nhà phân tích không phải là người duy nhất được hưởng lợi từ kiến trúc BI.
Giám đốc điều hành, hiệp hội người dùng lớn và thậm chí cả các thành viên, nhà cung cấp và tôi khách hàng nên tìm lợi ích trong BI doanh nghiệp.

Vòng lặp nguồn cấp dữ liệu trở lại.

Kiến trúc BI là một môi trường học tập. Một nguyên tắc đặc trưng của sự phát triển là cho phép các cấu trúc bền vững của dữ liệu được cập nhật bởi công nghệ BI được sử dụng và bởi hành động của người dùng được thực hiện. Một ví dụ là chấm điểm của khách hàng.

Nếu bộ phận bán hàng thực hiện một mô hình khai thác điểm số của khách hàng, chẳng hạn như sử dụng một dịch vụ mới, thì bộ phận bán hàng không phải là nhóm duy nhất được hưởng lợi từ dịch vụ đó.

Thay vào đó, khai thác mô hình nên được thực hiện như một phần tự nhiên của luồng dữ liệu trong doanh nghiệp và điểm số của khách hàng sẽ trở thành một phần tích hợp của bối cảnh thông tin kho hàng, hiển thị cho tất cả người dùng. Bộ IBM hai-bI-trung tâm bao gồm DB2 UDB, Máy chủ DB2 OLAP bao gồm hầu hết các thành phần công nghệ quan trọng, được định nghĩa trong hình 1.1.

Chúng tôi sử dụng kiến trúc như trong hình này từ cuốn sách để cung cấp cho chúng tôi mức độ liên tục và chứng minh cách mỗi sản phẩm của IBM phù hợp với sơ đồ BI tổng thể.

Cung cấp nội dung thông tin (Providing nội dung thông tin)

Thiết kế, phát triển và triển khai môi trường BI của bạn là một nhiệm vụ khó khăn. Thiết kế phải bao gồm cả yêu cầu kinh doanh hiện tại và tương lai. Bản vẽ kiến trúc phải toàn diện để bao gồm tất cả các kết luận được tìm thấy trong giai đoạn thiết kế. Việc thực thi phải duy trì cam kết với một mục đích duy nhất: phát triển kiến trúc BI như được trình bày chính thức trong thiết kế và dựa trên các yêu cầu kinh doanh.

Đặc biệt khó tranh luận rằng kỷ luật sẽ đảm bảo thành công tương đối.
Điều này đơn giản vì bạn không phát triển môi trường BI ngay lập tức mà theo từng bước nhỏ theo thời gian.

Tuy nhiên, việc xác định các thành phần BI trong kiến trúc của bạn rất quan trọng vì hai lý do: Bạn sẽ đưa ra tất cả các quyết định về kiến trúc kỹ thuật tiếp theo.
Bạn sẽ có thể lập kế hoạch một cách có ý thức về việc sử dụng công nghệ cụ thể mặc dù bạn có thể không lặp lại nhu cầu sử dụng công nghệ trong vài tháng.

Hiểu đầy đủ các yêu cầu kinh doanh của bạn sẽ ảnh hưởng đến loại sản phẩm bạn mua cho kiến trúc của mình.
Việc thiết kế và phát triển kiến trúc của bạn đảm bảo rằng nhà kho của bạn được

không phải là một sự kiện ngẫu nhiên, mà là một quảng cáo được xây dựng cẩn thận và được suy nghĩ kỹ lưỡng opera của nghệ thuật như một bức tranh khảm của công nghệ hỗn hợp.

Nội dung thông tin thiết kế

Tất cả thiết kế ban đầu phải tập trung và xác định các thành phần BI chính sẽ cần thiết cho môi trường tổng thể hiện tại và trong tương lai.
Biết các yêu cầu kinh doanh là quan trọng.

Ngay cả trước khi bất kỳ kế hoạch chính thức nào bắt đầu, người lập kế hoạch dự án thường có thể xác định ngay một hoặc hai thành phần.
Tuy nhiên, không thể dễ dàng tìm thấy sự cân bằng của các thành phần có thể được yêu cầu cho kiến trúc của bạn. Trong giai đoạn thiết kế, phần chính của kiến trúc liên kết phiên phát triển ứng dụng (JAD) vào nghiên cứu để xác định các yêu cầu kinh doanh.

Đôi khi những yêu cầu này có thể được giao phó cho các công cụ truy vấn và báo cáo.
Ví dụ: người dùng nói rằng nếu họ muốn tự động hóa báo cáo hiện tại, họ phải tạo thủ công bằng cách tích hợp hai báo cáo hiện tại và thêm các tính toán thu được từ sự kết hợp của các báo cáo hiện tại. dữ liệu.
Mặc dù yêu cầu này đơn giản nhưng nó xác định một chức năng tính năng nhất định mà bạn phải đưa vào khi mua các công cụ báo cáo cho tổ chức của mình.

Nhà thiết kế cũng phải theo đuổi các yêu cầu bổ sung để có được một bức tranh hoàn chỉnh. Người dùng có muốn đăng ký báo cáo này không?
Các tập hợp con báo cáo có được tạo và gửi qua email cho nhiều người dùng khác nhau không? Bạn muốn xem báo cáo này trong cổng thông tin công ty? Tất cả những yêu cầu này là một phần của nhu cầu đơn giản để thay thế một báo cáo thủ công theo yêu cầu của người dùng. Lợi ích của các loại yêu cầu này là mọi người, người dùng và nhà thiết kế, đều quen thuộc với khái niệm báo cáo.

Tuy nhiên, có những loại hình kinh doanh khác mà chúng ta cần lập kế hoạch. Khi các yêu cầu kinh doanh được nêu dưới dạng các câu hỏi kinh doanh chiến lược, người lập kế hoạch có kinh nghiệm sẽ dễ dàng phân biệt được các yêu cầu về khía cạnh và đo lường/thực tế.

Nếu người dùng JAD không biết cách trình bày các yêu cầu của họ dưới dạng một vấn đề nghiệp vụ, thì người thiết kế thường cung cấp các ví dụ để bỏ qua-bắt đầu phiên thu thập yêu cầu.
Chuyên gia lập kế hoạch có thể giúp người dùng hiểu không chỉ hoạt động kinh doanh chiến lược mà còn cả cách định hình nó.
Phương pháp thu thập yêu cầu được thảo luận trong chương 3; hiện tại chúng tôi chỉ muốn chỉ ra nhu cầu thiết kế cho tất cả các loại yêu cầu BI.

Một vấn đề kinh doanh chiến lược không chỉ là một yêu cầu kinh doanh, mà còn là một gợi ý thiết kế. Nếu bạn phải trả lời một câu hỏi đa chiều, thì bạn phải ghi nhớ, trình bày dữ liệu chiều, và nếu bạn cần ghi nhớ dữ liệu đa chiều, bạn cần quyết định loại công nghệ hoặc kỹ thuật nào bạn sẽ sử dụng.

Bạn có triển khai lược đồ sao khối dành riêng hay cả hai không? Như bạn có thể thấy, ngay cả một vấn đề kinh doanh đơn giản cũng có thể ảnh hưởng lớn đến thiết kế. Nhưng những loại yêu cầu kinh doanh này là phổ biến và tất nhiên, ít nhất là bởi các nhà hoạch định và thiết kế dự án có kinh nghiệm.

Đã có đủ cuộc tranh luận về các công nghệ và hỗ trợ OLAP, cũng như có sẵn nhiều giải pháp khác nhau. Cho đến nay, chúng tôi đã đề cập đến nhu cầu kết hợp báo cáo đơn giản với các yêu cầu kinh doanh theo chiều và cách các yêu cầu này ảnh hưởng đến các quyết định về kiến trúc kỹ thuật.

Nhưng những yêu cầu mà người dùng hoặc nhóm Dw không dễ hiểu là gì? Bạn có bao giờ cần phân tích không gian (analysisi không gian) không?
Các mô hình khai thác dữ liệu Họ sẽ là một phần cần thiết trong tương lai của bạn? Ai biết?

Điều quan trọng cần lưu ý là các loại công nghệ này không được cộng đồng người dùng nói chung và các thành viên nhóm DW biết rõ, một phần, điều này có thể là do chúng thường được xử lý bởi một số chuyên gia kỹ thuật nội bộ hoặc bên thứ ba. Đây là một trường hợp cạnh của các vấn đề mà các loại công nghệ này tạo ra. Nếu người dùng không thể mô tả các yêu cầu kinh doanh hoặc đóng khung chúng để cung cấp hướng dẫn cho các nhà thiết kế, họ có thể không được chú ý hoặc tệ hơn là bị bỏ qua.

Vấn đề trở nên nghiêm trọng hơn khi nhà thiết kế và nhà phát triển không thể nhận ra ứng dụng của một trong những công nghệ tiên tiến nhưng quan trọng này.
Như chúng ta thường nghe các Nhà thiết kế nói: “Ồ, tại sao chúng ta không cất nó đi cho đến khi chúng ta có được thứ khác? “Họ có thực sự quan tâm đến các ưu tiên không, hay họ chỉ đơn giản là trốn tránh những yêu cầu mà họ không hiểu? Nó rất có thể là giả định sau. Giả sử nhóm bán hàng của bạn đã truyền đạt một yêu cầu kinh doanh, như đã nêu trong Hình 1.3, như bạn có thể thấy, yêu cầu được đóng khung dưới dạng một vấn đề kinh doanh. Sự khác biệt giữa vấn đề này và vấn đề kích thước điển hình là khoảng cách. Trong trường hợp này, nhóm bán hàng muốn biết, hàng tháng, tổng doanh thu từ các sản phẩm, nhà kho và khách hàng những người sống trong vòng 5 dặm xung quanh nhà kho nơi họ mua sắm.

Đáng buồn thay, các nhà thiết kế hoặc kiến trúc sư có thể đơn giản bỏ qua thành phần không gian bằng cách nói: "Chúng tôi có khách hàng, sản phẩm và dữ liệu của tiền gửi. Hãy giữ khoảng cách cho đến khi lặp lại khác.

"Câu trả lời sai. Loại vấn đề kinh doanh này là tất cả về BI. Nó thể hiện sự hiểu biết sâu sắc hơn về hoạt động kinh doanh của chúng tôi và một không gian phân tích mạnh mẽ cho các nhà phân tích của chúng tôi. BI không chỉ là truy vấn đơn giản hoặc báo cáo tiêu chuẩn, hoặc thậm chí là OLAP. Điều đó không có nghĩa là những công nghệ này không quan trọng đối với BI của bạn, nhưng bản thân chúng không đại diện cho môi trường BI.

Thiết kế cho bối cảnh thông tin (Thiết kế nội dung thông tin)

Bây giờ chúng ta đã xác định được các Yêu cầu nghiệp vụ phân biệt các thành phần cốt lõi khác nhau, chúng cần được đưa vào một bản vẽ kiến trúc tổng thể. Một số thành phần BI là một phần trong những nỗ lực ban đầu của chúng tôi, trong khi một số thành phần sẽ không được triển khai trong vài tháng.

Tuy nhiên, tất cả các yêu cầu đã biết đều được phản ánh trong thiết kế để khi chúng tôi cần triển khai một công nghệ cụ thể, chúng tôi sẵn sàng thực hiện. Một cái gì đó về dự án sẽ phản ánh suy nghĩ truyền thống.

bộ này dữ liệu được sử dụng để hỗ trợ việc sử dụng sau này dữ liệu chiều được thúc đẩy bởi các vấn đề kinh doanh mà chúng tôi đã xác định. Khi các tài liệu bổ sung được tạo ra, chẳng hạn như phát triển dự án của dữ liệu, chúng tôi sẽ bắt đầu bằng cách chính thức hóa như tôi dữ liệu chúng phát tán trong môi trường. Chúng tôi đã xác định sự cần thiết phải đại diện cho tôi dữ liệu theo chiều, phân chia chúng (theo nhu cầu cụ thể cụ thể) thành các kho dữ liệu.

Câu hỏi tiếp theo cần trả lời là: Những siêu thị dữ liệu này sẽ được xây dựng như thế nào?
Bạn xây dựng các ngôi sao để hỗ trợ các hình khối, hay chỉ các hình khối, hay chỉ các ngôi sao? (hoặc hình khối bên phải, hoặc ngôi sao bên phải). Tạo kiến trúc cho các kho dữ liệu phụ thuộc yêu cầu một lớp nguyên tử cho tất cả dữ liệu bạn có được không? Cho phép các siêu thị dữ liệu độc lập có được i dữ liệu trực tiếp từ hệ điều hành?

Công nghệ Cube nào bạn sẽ cố gắng tiêu chuẩn hóa?

Bạn có số lượng lớn các vị thần dữ liệu cần thiết để phân tích thứ nguyên hay bạn cần khối lực lượng bán hàng quốc gia của mình hàng tuần hay cả hai? Bạn có xây dựng một đối tượng mạnh mẽ như Máy chủ DB2 OLAP cho tài chính hoặc khối Cognos PowerPlay cho tổ chức bán hàng của mình hay cả hai không? Đây là những quyết định thiết kế kiến trúc lớn sẽ tác động đến môi trường BI của bạn trong tương lai. Có, bạn đã xác định được nhu cầu về OLAP. Bây giờ bạn sẽ thực hiện loại kỹ thuật và công nghệ đó như thế nào?

Làm thế nào để một số công nghệ tiên tiến hơn ảnh hưởng đến thiết kế của bạn? Giả sử bạn đã xác định được nhu cầu về không gian trong tổ chức của mình. Bây giờ bạn phải nhớ lại các ấn bản vẽ kiến trúc ngay cả khi bạn không có kế hoạch tạo các thành phần không gian trong vài tháng. Kiến trúc sư ngày nay phải thiết kế dựa trên những gì cần thiết. Dự đoán nhu cầu phân tích không gian để tạo, lưu trữ, duy trì và cung cấp quyền truy cập vào dữ liệu không gian. Đến lượt nó, điều này sẽ đóng vai trò là một hạn chế liên quan đến loại công nghệ phần mềm và thông số kỹ thuật nền tảng mà bạn hiện có thể xem xét. Ví dụ, hệ thống quản lý của cơ sở dữ liệu quan hệ (RDBMS) mà bạn duy trì cho lớp nguyên tử của mình phải có sẵn phạm vi không gian mạnh mẽ. Điều này sẽ đảm bảo hiệu suất tối đa khi bạn sử dụng các đối tượng hình học và không gian trong các ứng dụng phân tích của mình. Nếu RDBMS của bạn không thể xử lý dữ liệu (lấy không gian làm trung tâm) trong nội bộ, vì vậy bạn sẽ phải thiết lập một cơ sở dữ liệu (không gian trung tâm) bên ngoài. Điều này làm phức tạp thêm việc quản lý vấn đề và ảnh hưởng đến hiệu suất tổng thể của bạn, chưa kể đến các vấn đề bổ sung mà nó tạo ra cho các DBA của bạn, vì họ có thể có hiểu biết tối thiểu về những điều cơ bản của dữ liệu không gian là tốt. Mặt khác, nếu công cụ RDMBS của bạn xử lý tất cả các thành phần không gian và trình tối ưu hóa của nó nhận thức được các nhu cầu đặc biệt (ví dụ: lập chỉ mục) của các đối tượng không gian, thì DBA của bạn có thể dễ dàng xử lý các vấn đề quản lý và bạn có thể tối đa hóa hiệu suất.

Ngoài ra, bạn cần điều chỉnh khu vực tổ chức và lớp môi trường nguyên tử để bao gồm dọn dẹp địa chỉ (a

yếu tố chính để phân tích không gian), cũng như việc lưu các đối tượng không gian sau đó. Sự kế thừa của các phiên bản thiết kế vẫn tiếp tục khi chúng tôi đã giới thiệu khái niệm về độ sạch của địa chỉ. Đối với một điều, ứng dụng này sẽ chỉ ra loại phần mềm bạn cần cho nỗ lực ETL của mình.

Bạn có cần các sản phẩm như Trillium để cung cấp cho bạn địa chỉ rõ ràng hay nhà cung cấp ETL mà bạn chọn để cung cấp chức năng đó không?
Hiện tại, điều quan trọng là bạn phải đánh giá cao mức độ thiết kế phải được hoàn thành trước khi bạn bắt đầu bảo trì nhà kho của mình. Các ví dụ trên sẽ chứng minh vô số các quyết định thiết kế phải tuân theo việc xác định bất kỳ yêu cầu kinh doanh cụ thể nào. Khi được đưa ra một cách chính xác, các quyết định thiết kế này thúc đẩy sự phụ thuộc lẫn nhau giữa các cấu trúc vật lý trong môi trường của bạn, việc lựa chọn công nghệ được sử dụng và luồng lan truyền nội dung thông tin. Nếu không có kiến trúc BI thông thường này, tổ chức của bạn sẽ phải chịu sự kết hợp hỗn loạn của các công nghệ hiện có, tốt nhất là kết hợp lỏng lẻo với nhau để mang lại sự ổn định rõ ràng.

Giữ nguyên nội dung thông tin

Mang lại giá trị của thông tin cho tổ chức của bạn là một nhiệm vụ rất khó khăn. Nếu không có đủ hiểu biết và kinh nghiệm, hoặc kỹ thuật và thiết kế phù hợp, thì ngay cả những đội giỏi nhất cũng sẽ thất bại. Mặt khác, nếu bạn có trực giác tuyệt vời và thiết kế chi tiết nhưng không có kỷ luật để thực hiện, bạn chỉ lãng phí thời gian và tiền bạc vì nỗ lực của bạn sẽ thất bại. Thông điệp phải rõ ràng: Nếu bạn thiếu một hoặc nhiều kỹ năng, hiểu biết/kinh nghiệm hoặc lập kế hoạch/thiết kế hoặc kỷ luật triển khai, điều này sẽ dẫn đến làm tê liệt hoặc phá hủy tòa nhà của tổ chức BI.

Nhóm của bạn đã chuẩn bị đầy đủ chưa? Có ai trong nhóm BI của bạn hiểu bối cảnh phân tích rộng lớn có sẵn trong môi trường BI cũng như các kỹ thuật và công nghệ cần thiết để duy trì bối cảnh đó không? Có ai trong nhóm của bạn có thể cho biết sự khác biệt trong việc áp dụng nâng cao

báo cáo tĩnh và OLAP hoặc sự khác biệt giữa ROLAP và OLAP? Một trong các thành viên trong nhóm của bạn có nhận ra rõ ràng cách thức khai thác và cách nó có thể tác động đến kho hoặc cách kho có thể hỗ trợ hiệu suất khai thác không? Một thành viên trong nhóm hiểu được giá trị của dữ liệu không gian hoặc công nghệ dựa trên đại lý? Bạn có ai đó đánh giá cao ứng dụng công cụ độc đáo của công nghệ ETL vs Message Broker không? Nếu bạn không có nó, hãy lấy một cái. BI lớn hơn nhiều so với lớp nguyên tử chuẩn hóa, OLAP, lược đồ sao và ODS.

Có hiểu biết và kinh nghiệm để nhận ra các yêu cầu BI và giải pháp của họ là điều cần thiết để bạn có thể chính thức hóa đúng nhu cầu của người dùng cũng như thiết kế và triển khai các giải pháp của họ. Nếu cộng đồng người dùng của bạn gặp khó khăn trong việc mô tả các yêu cầu, thì việc cung cấp hiểu biết đó tùy thuộc vào nhóm kho hàng. Nhưng nếu đội kho

không nhận ra ứng dụng cụ thể của BI - ví dụ: khai thác dữ liệu - thì không phải tốt nhất là môi trường BI thường bị giới hạn ở các kho lưu trữ thụ động. Tuy nhiên, việc bỏ qua những công nghệ này không làm giảm tầm quan trọng của chúng và ảnh hưởng của chúng đối với sự xuất hiện của các khả năng kinh doanh thông minh trong tổ chức của bạn, cũng như tài sản thông tin mà bạn dự định quảng bá.

Thiết kế phải bao gồm khái niệm về bản vẽ và cả hai đều yêu cầu một cá nhân có năng lực. Ngoài ra, việc lập kế hoạch đòi hỏi triết lý làm việc theo nhóm và tuân thủ các tiêu chuẩn. Ví dụ: nếu công ty của bạn đã thiết lập một tiêu chuẩn nền tảng hoặc đã xác định một RDBMS cụ thể mà công ty muốn chuẩn hóa trên nền tảng, thì mọi người trong nhóm bắt buộc phải tuân thủ các tiêu chuẩn đó. Nói chung, một nhóm bày tỏ nhu cầu tiêu chuẩn hóa (đối với cộng đồng người dùng), nhưng bản thân nhóm không sẵn sàng tuân thủ các tiêu chuẩn được thiết lập trong các lĩnh vực khác của công ty hoặc thậm chí có thể trong các công ty tương tự. Điều này không chỉ là đạo đức giả mà còn khiến công ty không có khả năng khai thác các nguồn lực và đầu tư hiện có. Điều đó không có nghĩa là không có tình huống đảm bảo nền tảng hoặc công nghệ không được tiêu chuẩn hóa; Tuy nhiên, những nỗ lực của kho

họ nên bảo vệ một cách ghen tị các tiêu chuẩn của doanh nghiệp cho đến khi các yêu cầu kinh doanh quy định khác.

Thành phần quan trọng thứ ba cần thiết để xây dựng một tổ chức BI là kỷ luật.
Nó phụ thuộc tổng thể, bình đẳng vào các cá nhân và vào môi trường. Các nhà hoạch định dự án, nhà tài trợ, kiến trúc sư và người dùng phải đánh giá cao tính kỷ luật cần thiết để xây dựng tài sản thông tin của công ty. Các nhà thiết kế phải hướng những nỗ lực thiết kế của họ để bổ sung cho những nỗ lực khác cần thiết trong xã hội.

Ví dụ: giả sử công ty của bạn xây dựng một ứng dụng ERP có thành phần kho hàng.
Do đó, trách nhiệm của các nhà thiết kế ERP là cộng tác với nhóm môi trường kho hàng để không cạnh tranh hoặc sao chép công việc đã bắt đầu.

Kỷ luật cũng là một chủ đề cần được giải quyết bởi toàn bộ tổ chức và thường được thiết lập và bắt buộc ở cấp điều hành.
Các giám đốc điều hành có sẵn sàng tuân theo một cách tiếp cận được thiết kế không? Một cách tiếp cận hứa hẹn tạo ra nội dung thông tin cuối cùng sẽ mang lại giá trị cho tất cả các lĩnh vực của doanh nghiệp, nhưng có thể ảnh hưởng đến các chương trình nghị sự của cá nhân hoặc bộ phận? Hãy nhớ câu nói “Nghĩ về mọi thứ quan trọng hơn nghĩ về một thứ”. Câu nói này đúng với các tổ chức BI.

Thật không may, nhiều nhà kho tập trung nỗ lực vào việc cố gắng nhắm mục tiêu và mang lại giá trị cho một bộ phận cụ thể hoặc người dùng cụ thể mà ít quan tâm đến tổ chức nói chung. Giả sử người quản lý yêu cầu hỗ trợ từ nhóm nhà máy. Nhóm phản hồi với nỗ lực trong 90 ngày không chỉ bao gồm việc cung cấp các yêu cầu về thông báo do người điều hành xác định mà còn đảm bảo rằng tất cả dữ liệu cơ sở được trộn vào cấp độ nguyên tử trước khi được đưa vào công nghệ khối được đề xuất.
Việc bổ sung kỹ thuật này đảm bảo rằng doanh nghiệp nhà máy sẽ được hưởng lợi từ dữ liệu cần thiết của người quản lý.
Tuy nhiên, giám đốc điều hành đã nói chuyện với các công ty tư vấn bên ngoài, những người đã đề xuất một ứng dụng tương tự với thời gian giao hàng trong vòng chưa đầy 4 tuần.

Giả sử nhóm quản lý nội bộ có năng lực, giám đốc điều hành có quyền lựa chọn. Ai có thể hỗ trợ kỷ luật kỹ thuật bổ sung cần thiết để phát triển tài sản thông tin doanh nghiệp hoặc có thể chọn xây dựng giải pháp của riêng họ một cách nhanh chóng. Loại thứ hai dường như được chọn quá thường xuyên và chỉ được sử dụng để tạo các thùng chứa thông tin có lợi cho một số ít hoặc cá nhân.

Mục tiêu ngắn hạn và dài hạn

Kiến trúc sư và nhà hoạch định dự án phải chính thức hóa tầm nhìn dài hạn về kiến trúc tổng thể và kế hoạch phát triển tổ chức BI. Sự kết hợp giữa lợi ích ngắn hạn và kế hoạch dài hạn là hai mặt của nỗ lực BI. Doanh thu ngắn hạn là khía cạnh của BI được liên kết với các lần lặp lại kho hàng của bạn.

Đây là nơi các nhà quy hoạch, kiến trúc sư và nhà tài trợ tập trung vào việc đáp ứng các yêu cầu kinh doanh cụ thể. Ở cấp độ này, các cấu trúc vật chất được xây dựng, công nghệ được mua và các kỹ thuật được triển khai. Chúng hoàn toàn không được tạo ra để giải quyết các yêu cầu cụ thể như được xác định bởi các cộng đồng người dùng cụ thể. Mọi thứ được thực hiện với mục đích giải quyết các yêu cầu cụ thể được xác định bởi một cộng đồng cụ thể.
Tuy nhiên, lập kế hoạch tầm xa là khía cạnh khác của BI. Đây là nơi các kế hoạch và thiết kế đảm bảo rằng bất kỳ cấu trúc vật lý nào được xây dựng, các công nghệ được lựa chọn và các kỹ thuật được thực hiện đều hướng tới doanh nghiệp. Chính việc lập kế hoạch dài hạn mang lại sự gắn kết cần thiết để đảm bảo rằng lợi ích của công ty có được từ bất kỳ lợi ích ngắn hạn nào được tìm thấy.

Chứng minh nỗ lực BI của bạn

Un kho dữ liệu bản thân nó không có giá trị cố hữu. Nói cách khác, không có giá trị vốn có giữa công nghệ kho hàng và kỹ thuật triển khai.

Giá trị của bất kỳ nỗ lực kho hàng nào được tìm thấy trong các hành động được thực hiện do môi trường kho hàng và nội dung thông tin được trau dồi theo thời gian. Đây là một điểm quan trọng cần hiểu trước khi bạn cố gắng ước tính giá trị của bất kỳ sáng kiến ở đâu.

Thông thường, các kiến trúc sư và nhà quy hoạch cố gắng áp dụng giá trị cho các thành phần vật chất và kỹ thuật của nhà kho trong khi thực tế giá trị đó dựa trên các quy trình kinh doanh chịu tác động tích cực của nhà kho và thông tin được nắm bắt tốt.

Đây là thách thức đối với việc thành lập BI: Làm thế nào để bạn biện minh cho khoản đầu tư? Nếu bản thân kho chứa không có giá trị nội tại, thì các nhà lập kế hoạch dự án phải điều tra, xác định và chính thức hóa các lợi ích cho những cá nhân sẽ sử dụng kho để nâng cao các quy trình kinh doanh cụ thể hoặc giá trị của thông tin được bảo vệ hoặc cả hai.

Để làm phức tạp thêm vấn đề, bất kỳ quy trình kinh doanh nào bị ảnh hưởng bởi các nỗ lực của nhà kho đều có thể mang lại lợi ích “đáng kể” hoặc “nhẹ”. Lợi ích đáng kể cung cấp thước đo hữu hình để đo lường lợi tức đầu tư (ROI) – ví dụ: quay vòng hàng tồn kho thêm thời gian trong một khoảng thời gian cụ thể hoặc giảm chi phí vận chuyển cho mỗi lô hàng. Thật khó để xác định những lợi ích tinh tế, chẳng hạn như khả năng tiếp cận thông tin được cải thiện, về mặt giá trị hữu hình.

Kết nối dự án của bạn để biết yêu cầu kinh doanh

Quá thường xuyên, các nhà hoạch định dự án cố gắng liên kết giá trị kho hàng với các mục tiêu doanh nghiệp vô định hình. Bằng cách tuyên bố rằng "giá trị của một nhà kho dựa trên khả năng đáp ứng các yêu cầu chiến lược của chúng tôi", chúng tôi mở đầu cuộc thảo luận một cách vui vẻ. Nhưng chỉ điều đó thôi là chưa đủ để xác định xem việc đầu tư vào nhà kho có hợp lý hay không. Tốt nhất là kết nối các đại diện kho hàng với các yêu cầu và ghi chú kinh doanh cụ thể.

Đo lường ROI

Việc tính toán ROI trong cài đặt kho hàng có thể đặc biệt khó khăn. Nó đặc biệt khó khăn nếu dẫn đầu

của một sự lặp lại cụ thể là một cái gì đó vô hình hoặc dễ đo lường. Một nghiên cứu cho thấy rằng người dùng nhận thấy hai lợi ích chính của các sáng kiến BI:

▪ Tạo khả năng ra quyết định
▪ Tạo quyền truy cập thông tin
Những lợi ích này là lợi ích mềm (hoặc nhẹ). Thật dễ dàng để thấy cách chúng ta có thể tính toán ROI dựa trên lợi ích cố định (hoặc lớn hơn) như giảm chi phí vận chuyển, nhưng làm cách nào để đo lường khả năng đưa ra quyết định tốt hơn?
Đây chắc chắn là một thách thức đối với các nhà hoạch định dự án khi họ đang cố gắng thuyết phục công ty đầu tư vào một kho hàng cụ thể. Tăng doanh thu hoặc giảm chi phí không còn là chủ đề chính thúc đẩy môi trường BI.
Thay vào đó, bạn đang tìm kiếm các yêu cầu kinh doanh để truy cập thông tin tốt hơn để một bộ phận cụ thể có thể đưa ra quyết định nhanh hơn. Đây là những động lực chiến lược có tầm quan trọng không kém đối với doanh nghiệp nhưng mơ hồ hơn và khó mô tả hơn trong một thước đo hữu hình. Trong trường hợp này, việc tính toán ROI có thể gây hiểu nhầm, nếu không muốn nói là không liên quan.
Các nhà thiết kế dự án phải có khả năng chứng minh giá trị hữu hình để các nhà điều hành quyết định xem khoản đầu tư vào một bước lặp cụ thể có xứng đáng hay không. Tuy nhiên, chúng tôi sẽ không đề xuất một phương pháp mới để tính ROI, chúng tôi cũng sẽ không đưa ra bất kỳ lập luận nào ủng hộ hay phản đối phương pháp đó.
Có rất nhiều bài báo và sách thảo luận về các nguyên tắc cơ bản của việc tính toán ROI. Có những đề xuất giá trị đặc biệt như giá trị đầu tư (VOI), được cung cấp bởi các nhóm như Gartner, mà bạn có thể nghiên cứu. Thay vào đó, chúng tôi sẽ tập trung vào các khía cạnh cốt lõi của bất kỳ ROI hoặc đề xuất giá trị nào khác mà bạn cần xem xét. Áp dụng ROI Ngoài tranh luận về lợi ích “cứng” so với “mềm” liên quan đến nỗ lực BI, còn có những vấn đề khác cần xem xét khi áp dụng ROI. Ví dụ:

Phân bổ quá nhiều khoản tiết kiệm cho những nỗ lực của DW dù sao cũng sẽ đến
Giả sử công ty của bạn chuyển từ kiến trúc máy tính lớn sang môi trường UNIX phân tán. Vì vậy, bất kỳ khoản tiết kiệm nào có thể (hoặc có thể không) được thực hiện từ nỗ lực đó không nên chỉ được quy cho nhà kho, nếu có (?).

Không kế toán cho tất cả mọi thứ là tốn kém. Và có rất nhiều điều cần tính đến. Hãy xem xét danh sách sau:

▪ Chi phí khởi động, bao gồm cả tính khả thi.
▪ Chi phí phần cứng chuyên dụng có liên quan đến lưu trữ và liên lạc
▪ Chi phí của phần mềm, bao gồm cả việc quản lý dữ liệu và tiện ích mở rộng máy khách/máy chủ, phần mềm ETL, công nghệ DSS, công cụ trực quan hóa, ứng dụng quy trình và lập lịch biểu cũng như phần mềm giám sát, .
▪ Chi phí thiết kế kết cấu dữ liệu, với việc tạo và tối ưu hóa
▪ Chi phí phát triển phần mềm liên quan trực tiếp đến nỗ lực BI
▪ Chi phí hỗ trợ tại nhà, bao gồm tối ưu hóa hiệu suất, bao gồm kiểm soát phiên bản phần mềm và hoạt động trợ giúp Áp dụng ROI “Big-Bang”. Việc xây dựng nhà kho là một nỗ lực khổng lồ chắc chắn sẽ thất bại, do đó, hãy tính toán ROI cho một sáng kiến của doanh nghiệp lớn. Tại sao các nhà hoạch định cố gắng đặt một giá trị tiền tệ vào sáng kiến kinh doanh nếu nó được biết đến rộng rãi và chấp nhận rằng việc ước tính các lần lặp lại cụ thể là khó khăn? Làm thế nào là nó có thể? Nó là không thể với một vài ngoại lệ. Đừng làm thế. Bây giờ chúng ta đã thiết lập những điều không nên làm khi tính toán ROI, sau đây là một vài điểm sẽ giúp bạn thiết lập một quy trình đáng tin cậy để ước tính giá trị của các nỗ lực BI của bạn.

Có được sự đồng ý của ROI. Bất kể bạn lựa chọn kỹ thuật nào để ước tính giá trị của các nỗ lực BI của mình, nó phải được sự đồng ý của tất cả các bên, bao gồm cả người lập kế hoạch dự án, nhà tài trợ và giám đốc điều hành công ty.

Chia ROI thành các phần có thể xác định được. Một bước cần thiết để tính toán ROI hợp lý là tập trung tính toán đó vào một dự án cụ thể. Điều này sau đó cho phép bạn ước tính giá trị dựa trên các yêu cầu kinh doanh cụ thể được đáp ứng

Xác định chi phí. Như đã đề cập, nhiều chi phí cần phải được xem xét. Ngoài ra, chi phí phải bao gồm không chỉ những chi phí liên quan đến từng lần lặp lại mà còn cả chi phí liên quan đến việc đảm bảo tuân thủ các tiêu chuẩn doanh nghiệp.

Xác định lợi ích. Bằng cách liên kết rõ ràng ROI với các yêu cầu kinh doanh cụ thể, chúng tôi sẽ có thể xác định những lợi ích sẽ dẫn đến việc đáp ứng các yêu cầu.

Giảm chi phí và lợi ích trong lợi nhuận sắp xảy ra. Đó là cách tốt nhất để định giá dựa trên giá trị hiện tại ròng (NPV) thay vì cố gắng dự đoán giá trị tương lai trong thu nhập trong tương lai.

Giữ thời gian để phân chia ROI của bạn ở mức tối thiểu. Nó được ghi chép đầy đủ về lâu dài, nó đã được sử dụng trong ROI của bạn.

Sử dụng nhiều hơn một công thức ROI. Có rất nhiều phương pháp để dự đoán ROI và bạn nên lập kế hoạch sử dụng một hoặc nhiều phương pháp trong số đó, bao gồm giá trị hiện tại ròng, tỷ lệ hoàn vốn nội bộ (IRR) và hoàn vốn.

Định nghĩa quá trình lặp lại. Điều này rất quan trọng để tính toán bất kỳ giá trị dài hạn nào. Một quy trình có thể lặp lại duy nhất nên được ghi lại cho tất cả các chuỗi con tiếp theo của dự án.

Các vấn đề được liệt kê là những vấn đề phổ biến nhất được xác định bởi các chuyên gia môi trường washouse. Sự khăng khăng của ban quản lý về việc mang lại ROI “Big-Bang” là rất khó hiểu. Nếu bạn bắt đầu tất cả các tính toán ROI của mình bằng cách chia nhỏ chúng thành các phần hữu hình, có thể xác định được, thì bạn có cơ hội tốt để ước tính ước tính ROI chính xác.

Câu hỏi về lợi ích ROI

Bất kể lợi ích của bạn là gì, mềm hay cứng, bạn có thể sử dụng một số câu hỏi cơ bản để xác định giá trị của chúng. Ví dụ: sử dụng một hệ thống thang điểm đơn giản, từ 1 đến 10, bạn có thể đo lường tác động của bất kỳ nỗ lực nào bằng cách sử dụng các câu hỏi sau:

Bạn đánh giá mức độ hiểu biết về dữ liệu sau dự án này của công ty bạn?
Bạn đánh giá như thế nào về những cải tiến quy trình do dự án này mang lại?
Làm cách nào để bạn đo lường tác động của những hiểu biết và suy luận mới hiện có sẵn bằng cách lặp lại này
Tác động của môi trường máy tính mới và tốt hơn là kết quả của những gì đã học được? Nếu ít câu trả lời cho những câu hỏi này, có thể doanh nghiệp đó không đáng để đầu tư. Các câu hỏi đạt điểm cao chỉ ra những lợi ích đáng kể về giá trị và sẽ đóng vai trò là hướng dẫn cho việc điều tra thêm. Ví dụ: điểm cao cho các cải tiến quy trình sẽ khiến các nhà thiết kế kiểm tra xem các quy trình đã được cải thiện như thế nào. Bạn có thể thấy rằng một số hoặc tất cả lợi nhuận thu được là hữu hình và do đó có thể dễ dàng áp dụng giá trị tiền tệ. Tận dụng tối đa lần lặp lại đầu tiên của kho Phần thưởng lớn nhất cho nỗ lực doanh nghiệp của bạn thường là trong một vài lần lặp lại đầu tiên. Những nỗ lực ban đầu này thường thiết lập nội dung thông tin hữu ích nhất cho công chúng và giúp thiết lập nền tảng công nghệ cho các ứng dụng BI tiếp theo. Thông thường mỗi dãy con tiếp theo của dữ liệu của các dự án nhà kho mang lại ngày càng ít giá trị bổ sung cho toàn bộ doanh nghiệp. Điều này đặc biệt đúng nếu việc lặp lại không thêm chủ đề mới hoặc đáp ứng nhu cầu của cộng đồng người dùng mới.

Tính năng lưu trữ này cũng áp dụng cho các ngăn xếp ngày càng tăng của dữ liệu các nhà sử học. Khi những nỗ lực tiếp theo đòi hỏi nhiều hơn dữ liệu và làm thế nào nhiều hơn nữa dữ liệu được đổ vào kho theo thời gian, hầu hết dữ liệu nó trở nên ít liên quan hơn đến phân tích được sử dụng. Những cái này dữ liệu họ thường được gọi là dữ liệu không hoạt động và luôn tốn kém để giữ chúng vì chúng hầu như không được sử dụng.

Điều này có ý nghĩa gì đối với các nhà tài trợ dự án? Về cơ bản, các nhà tài trợ đầu tiên chia sẻ nhiều hơn chi phí đầu tư. Điều này là chính bởi vì chúng là động lực để thiết lập lớp môi trường tài nguyên và công nghệ rộng lớn của kho, bao gồm cả hữu cơ.

Nhưng những bước đầu tiên này mang lại giá trị lớn nhất và do đó, các nhà hoạch định dự án thường phải biện minh cho khoản đầu tư.
Các dự án được thực hiện sau sáng kiến BI của bạn có thể có chi phí trực tiếp và thấp hơn (so với dự án đầu tiên), nhưng mang lại ít giá trị hơn cho doanh nghiệp.

Và chủ sở hữu tổ chức cần bắt đầu xem xét loại bỏ sự tích tụ dữ liệu và các công nghệ ít liên quan hơn.

Khai thác dữ liệu : Khai thác Cho

Nhiều thành phần kiến trúc yêu cầu các biến thể của công nghệ và kỹ thuật khai thác dữ liệu—
ví dụ: các "tác nhân" khác nhau để kiểm tra các điểm quan tâm của khách hàng, hệ điều hành của công ty và cho cùng một dw. Các tác nhân này có thể là các mạng thần kinh tiên tiến được đào tạo về các xu hướng nồi, chẳng hạn như nhu cầu sản phẩm trong tương lai dựa trên các chương trình khuyến mại; các công cụ dựa trên quy tắc để phản ứng với một tập hợp dữ liệu về các tình huống, ví dụ, các khuyến nghị về chẩn đoán và điều trị y tế; hoặc thậm chí là các đại lý đơn giản với vai trò báo cáo các trường hợp ngoại lệ cho các giám đốc điều hành hàng đầu. Nói chung các quá trình khai thác này dữ liệu si

xác minh trong thời gian thực; do đó, họ phải thống nhất hoàn toàn với phong trào của dữ liệu chúng tôi.

Xử lý phân tích trực tuyến Xử lý

phân tích trực tuyến

Khả năng cắt, xúc xắc, cuộn, đi sâu và thực hiện phân tích
what-if, nằm trong phạm vi, phạm vi của bộ công nghệ IBM. Ví dụ: các chức năng xử lý phân tích trực tuyến (OLAP) tồn tại cho DB2 mang phân tích thứ nguyên vào công cụ của cơ sở dữ liệu như nhau .

Các hàm bổ sung tiện ích về chiều cho SQL trong khi gặt hái tất cả các lợi ích của việc trở thành một phần tự nhiên của DB2. Một ví dụ khác về tích hợp OLAP là công cụ trích xuất, Máy chủ phân tích OLAP DB2. Công nghệ này cho phép các khối DB2 OLAP Server được quét nhanh chóng và tự động để định vị và báo cáo về các giá trị của dữ liệu bất thường hoặc bất ngờ đối với bất kỳ khối lập phương nào đối với nhà phân tích giao dịch. Và cuối cùng, các chức năng của Trung tâm DW cung cấp một phương tiện để các kiến trúc sư kiểm tra, trong số những thứ khác, hồ sơ của máy chủ khối DB2 OLAP như một phần tự nhiên của các quy trình ETL.

Phân tích không gian Phân tích không gian

Không gian đại diện cho một nửa số neo phân tích (dẫn truyền) cần thiết cho toàn cảnh
phân tích rộng (thời gian đại diện cho nửa còn lại). Cấp độ nguyên tử của nhà kho, được minh họa trong Hình 1.1, bao gồm các nền tảng cho cả thời gian và không gian. Phân tích neo tem thời gian theo thời gian và phân tích neo thông tin địa chỉ theo không gian. Dấu thời gian tiến hành phân tích theo thời gian và thông tin địa chỉ tiến hành phân tích theo không gian. Sơ đồ cho thấy mã hóa địa lý–quá trình chuyển đổi địa chỉ thành các điểm trong bản đồ hoặc các điểm trong không gian để các khái niệm như khoảng cách và bên trong/bên ngoài có thể được sử dụng trong phân tích–được tiến hành ở cấp độ nguyên tử và phân tích không gian được cung cấp cho nhà phân tích. IBM cung cấp các tiện ích mở rộng không gian, được phát triển cùng với Viện Nghiên cứu Hệ thống Môi trường (ESRI), al cơ sở dữ liệu DB2 để các đối tượng không gian có thể được duy trì như một phần bình thường của cơ sở dữ liệu quan hệ. db2

Bộ mở rộng không gian, cũng cung cấp tất cả các phần mở rộng SQL để tận dụng lợi thế của phân tích không gian. Ví dụ: phần mở rộng SQL để truy vấn trên
khoảng cách giữa các địa chỉ hoặc một điểm nằm trong hay ngoài một khu vực đa giác xác định, đều là tiêu chuẩn phân tích với Spatial Extender. Xem chương 16 để biết thêm thông tin.

Cơ sở dữ liệu-Công cụ thường trú Công cụ Cơ sở dữ liệu-Người dân

DB2 có nhiều tính năng thường trú SQL BI hỗ trợ trong hành động phân tích cú pháp. Bao gồm các:

Các hàm đệ quy để thực hiện phân tích, chẳng hạn như “tìm tất cả các đường bay có thể từ San Francisco a Newyork".
Các chức năng phân tích cho các chức năng xếp hạng, tích lũy, lập phương và tổng số để hỗ trợ các tác vụ thường chỉ xảy ra với công nghệ OLAP, hiện là một phần tự nhiên của động cơ của cơ sở dữ liệu
Khả năng tạo bảng chứa kết quả
Những người bán của cơ sở dữ liệu các nhà lãnh đạo kết hợp nhiều tính năng BI hơn trong cơ sở dữ liệu chính nó.
Các nhà cung cấp chính của cơ sở dữ liệu họ đang kết hợp nhiều tính năng BI hơn trong cơ sở dữ liệu chính nó.
Điều này mang lại hiệu suất tốt hơn và nhiều tùy chọn thực thi hơn cho các giải pháp BI.
Các tính năng và chức năng của DB2 V8 được thảo luận chi tiết trong các chương sau:
Nền tảng kiến trúc kỹ thuật và quản lý dữ liệu (Chương 5)

Nguyên tắc cơ bản về BI của DB2 (Chương 6)
Các bảng truy vấn cụ thể hóa của DB2 (Chương 7)
Hàm DB2 OLAP (Chương 13)
Các tính năng và chức năng BI nâng cao của DB2 (Chương 15) Hệ thống phân phối dữ liệu đơn giản hóa Hệ thống phân phối của dữ liệu giản thể

Kiến trúc được mô tả trong Hình 1.1 bao gồm nhiều cấu trúc dữ liệu thuộc vật chất. Một là nhà kho của dữ liệu điều hành. Nói chung, ODS là hướng đối tượng, tích hợp và hiện hành. Ví dụ, bạn sẽ xây dựng một ODS để hỗ trợ văn phòng bán hàng. Doanh số ODS sẽ bổ sung dữ liệu từ nhiều hệ thống khác nhau nhưng sẽ chỉ giữ lại, ví dụ, các giao dịch ngày nay. ODS cũng có thể được cập nhật nhiều lần trong ngày. Đồng thời, các tiến trình đẩy tôi dữ liệu tích hợp vào các ứng dụng khác. Cấu trúc này được thiết kế đặc biệt để tích hợp dữ liệu hiện tại và năng động và sẽ là một ứng cử viên có khả năng hỗ trợ phân tích thời gian thực, chẳng hạn như cung cấp các đại lý dịch vụ khách hàng thông tin bán hàng hiện tại của khách hàng bằng cách trích xuất thông tin xu hướng bán hàng từ chính hàng tồn kho. Một cấu trúc khác trong hình 1.1 là trạng thái chính thức của dw. Đây không chỉ là nơi thực hiện sự tích hợp cần thiết, chất lượng của dữ liệu, và sự biến đổi của dữ liệu của kho đến, nhưng cũng là một khu vực lưu trữ tạm thời và đáng tin cậy cho dữ liệu bản sao có thể được sử dụng trong phân tích thời gian thực. Nếu bạn quyết định sử dụng ODS hoặc khu vực tổ chức, một trong những công cụ tốt nhất để đưa vào các cấu trúc này dữ liệu sử dụng các nguồn hoạt động khác nhau là truy vấn phân tán không đồng nhất của DB2. Khả năng này được cung cấp bởi tính năng DB2 tùy chọn được gọi là Kết nối quan hệ DB2 (chỉ truy vấn) và thông qua DB2 DataJoiner (một sản phẩm riêng biệt cung cấp khả năng truy vấn, chèn, cập nhật và xóa cho các RDBMS phân tán không đồng nhất).

Công nghệ này cho phép các kiến trúc sư dữ liệu để buộc dữ liệu của quá trình sản xuất với các quá trình phân tích. Công nghệ không chỉ có thể thích ứng với hầu như bất kỳ nhu cầu sao chép nào có thể phát sinh với phân tích thời gian thực mà còn có thể kết nối với nhiều loại khác nhau. dữ liệu phổ biến nhất, bao gồm DB2, Oracle, Sybase, SQL Server, Informix và những thứ khác. DB2 DataJoiner có thể được sử dụng để điền vào một cấu trúc dữ liệu chính thức, chẳng hạn như ODS hoặc thậm chí là một bảng cố định được trình bày trong kho được thiết kế để khôi phục nhanh các bản cập nhật tức thời hoặc để bán. Tất nhiên, bản thân các cấu trúc này dữ liệu có thể được phổ biến bằng cách sử dụng

một công nghệ quan trọng khác được thiết kế để sao chép dữ liệu, IBM DataPropagator Quan hệ. (DataPropagator là một sản phẩm riêng biệt dành cho các hệ thống trung tâm. DB2 UNIX, Linux, Windows và OS/2 bao gồm các dịch vụ sao chép của dữ liệu như một tính năng tiêu chuẩn).
Một phương pháp khác để di chuyển dữ liệu hoạt động xung quanh doanh nghiệp là một nhà tích hợp ứng dụng doanh nghiệp hay còn được gọi là nhà môi giới tin nhắn. Công nghệ độc đáo này cho phép kiểm soát chưa từng có đối với việc nhắm mục tiêu và di chuyển dữ liệu xung quanh công ty. IBM có trình chuyển tin nhắn được sử dụng rộng rãi nhất, MQSeries, hoặc một biến thể của sản phẩm bao gồm các yêu cầu đối với thương mại điện tử, IBM WebSphere MQ.
Để thảo luận thêm về cách tận dụng MQ để hỗ trợ môi trường kho và BI, hãy truy cập trang web của cuốn sách. Hiện tại, chỉ cần nói rằng công nghệ này là một phương tiện tuyệt vời để nắm bắt và chuyển đổi (sử dụng MQSeries Integrator) dữ liệu các hợp tác xã mục tiêu được tuyển dụng cho các giải pháp BI. Công nghệ MQ đã được tích hợp và đóng gói trong UDB V8, điều đó có nghĩa là hàng đợi tin nhắn giờ đây có thể được quản lý như thể chúng là các bảng DB2. Khái niệm về tin nhắn hàng đợi hàn và vũ trụ của cơ sở dữ liệu quan hệ hướng tới một môi trường mạnh mẽ để phân phối dữ liệu.

Độ trễ bằng không Độ trễ bằng không

Mục tiêu chiến lược cuối cùng của IBM là phân tích độ trễ bằng không. Như được xác định bởi
Gartner, một hệ thống BI phải có khả năng suy luận, nhập và cung cấp thông tin cho các nhà phân tích theo yêu cầu. Tất nhiên, thách thức là làm thế nào để kết hợp dữ liệu hiện tại và thời gian thực với thông tin lịch sử cần thiết, chẳng hạn như tôi dữ liệu xu hướng/mô hình liên quan hoặc thông tin chi tiết được trích xuất, chẳng hạn như hồ sơ khách hàng.

Những thông tin như vậy bao gồm, ví dụ, việc xác định khách hàng rủi ro cao hay thấp hoặc sản phẩm nào tôi khách hàng rất có thể họ sẽ mua nếu họ đã có phô mai trong giỏ hàng của mình.

Để có được độ trễ bằng XNUMX thực sự phụ thuộc vào hai cơ chế cơ bản:

Hoàn thành liên minh của dữ liệu được phân tích với các kỹ thuật đã thiết lập và với các công cụ do BI tạo ra
Một hệ thống phân phối của dữ liệu hiệu quả để đảm bảo rằng các phân tích theo thời gian thực thực sự khả dụng. Các điều kiện tiên quyết để có độ trễ bằng không này không khác gì hai mục tiêu do IBM thiết lập và được mô tả ở trên. Sự liên kết chặt chẽ của dữ liệu nó là một phần của chương trình tích hợp liền mạch của IBM. Và tạo ra một hệ thống phân phối của dữ liệu hiệu quả hoàn toàn phụ thuộc vào công nghệ có sẵn giúp đơn giản hóa quy trình giao hàng dữ liệu. Do đó, hai trong số ba mục tiêu của IBM là rất quan trọng để đạt được mục tiêu thứ ba. IBM đang phát triển công nghệ của mình một cách có ý thức để đảm bảo hiện thực độ trễ bằng XNUMX đối với các nỗ lực của nhà kho. Tổng hợp/Tổng hợp Tổ chức BI của bạn cung cấp một lộ trình để xây dựng môi trường của bạn
lặp đi lặp lại. Nó phải được điều chỉnh để phản ánh nhu cầu của doanh nghiệp bạn, cả hiện tại và tương lai. Nếu không có tầm nhìn kiến trúc rộng lớn, việc lặp lại kho hàng chỉ là những triển khai ngẫu nhiên của nhà kho trung tâm, ít có tác dụng tạo ra một doanh nghiệp lớn, nhiều thông tin. Rào cản đầu tiên đối với các nhà lãnh đạo dự án là làm thế nào để biện minh cho khoản đầu tư cần thiết để phát triển tổ chức BI. Mặc dù tính toán ROI vẫn là trụ cột chính của thành tích kiểm kê, nhưng việc dự đoán chính xác ngày càng trở nên khó khăn hơn. Điều này đã dẫn đến các phương pháp khác để xác định xem bạn có nhận được giá trị tiền của mình hay không. Ví dụ, Giá trị trên Khoản đầu tư2 (VOI) được mua như một giải pháp. Đó là nhiệm vụ của các kiến trúc sư của dữ liệu và trên các nhà hoạch định dự án cố tình tạo và cung cấp thông tin cho các hiệp hội người dùng chứ không chỉ đơn giản là cung cấp dịch vụ trên dữ liệu. Có một sự khác biệt rất lớn giữa hai người. Thông tin là thứ tạo ra sự khác biệt trong việc ra quyết định và tính hiệu quả; tương đối, tôi dữ liệu họ đang xây dựng các khối để lấy thông tin đó.

Ngay cả khi chỉ trích nguồn dữ liệu để giải quyết nhu cầu kinh doanh, môi trường BI sẽ đóng vai trò lớn hơn trong việc tạo nội dung thông tin. Chúng tôi phải thực hiện các bước bổ sung để làm sạch, tích hợp, biến đổi hoặc tạo nội dung thông tin mà người dùng có thể hành động, sau đó chúng tôi phải đảm bảo rằng những hành động và quyết định đó, nếu hợp lý, được phản ánh trong môi trường BI. Nếu chúng tôi chuyển nhà kho chỉ phục vụ trên dữ liệu, hãy yên tâm rằng các hiệp hội người dùng sẽ tạo ra nội dung thông tin cần thiết để thực hiện hành động. Điều này đảm bảo rằng cộng đồng của họ sẽ có thể đưa ra quyết định tốt hơn, nhưng doanh nghiệp lại thiếu kiến thức mà họ đã sử dụng. Do rằng các kiến trúc sư và nhà hoạch định dự án bắt đầu các dự án cụ thể trong môi trường BI, họ vẫn chịu trách nhiệm trước toàn bộ doanh nghiệp. Một ví dụ đơn giản về tính năng hai mặt này của các lần lặp BI được tìm thấy trong nguồn dữ liệu. Tất cả dữ liệu nhận được cho các yêu cầu thương mại cụ thể phải được điền vào lớp nguyên tử đầu tiên. Điều này đảm bảo sự phát triển của tài sản thông tin doanh nghiệp, cũng như quản lý, giải quyết các yêu cầu cụ thể của người dùng được xác định trong lần lặp.

Kho dữ liệu là gì?

Kho dữ liệu đã là trung tâm của kiến trúc hệ thống thông tin từ năm 1990 và hỗ trợ các quy trình thông tin bằng cách cung cấp một nền tảng tích hợp vững chắc của dữ liệu lịch sử làm cơ sở cho các phân tích tiếp theo. CÁC kho dữ liệu chúng mang lại khả năng tích hợp dễ dàng vào thế giới của các hệ thống ứng dụng không tương thích. Kho dữ liệu nó đã phát triển để trở thành một mốt nhất thời. Kho dữ liệu tổ chức và ghi nhớ tôi dữ liệu cần thiết cho các quá trình thông tin và phân tích trên cơ sở quan điểm lịch sử lâu dài về thời gian. Tất cả điều này liên quan đến một nỗ lực đáng kể và liên tục trong việc xây dựng và bảo trì các kho dữ liệu.

Vì vậy, những gì là một kho dữ liệu? Một kho dữ liệu và:

▪ định hướng chủ đề
▪ hệ thống tích hợp
▪ biến đổi thời gian
▪ không bay hơi (không hủy bỏ)

một bộ sưu tập của dữ liệu được sử dụng để hỗ trợ các quyết định quản lý trong việc thực hiện các quy trình.
I dữ liệu chèn vào kho dữ liệu chúng xuất phát trong hầu hết các trường hợp từ môi trường hoạt động. Các kho dữ liệu nó được làm từ một đơn vị lưu trữ, tách biệt về mặt vật lý với phần còn lại của hệ thống mà nó chứa dữ liệu được biến đổi trước đây bởi các ứng dụng hoạt động dựa trên thông tin xuất phát từ môi trường hoạt động.

Định nghĩa theo nghĩa đen của một kho dữ liệu nó xứng đáng được giải thích thấu đáo vì có những động lực quan trọng và ý nghĩa cơ bản mô tả các đặc điểm của nhà kho.

ĐỊNH HƯỚNG MÔN HỌC ĐỊNH HƯỚNG CHỦ ĐỀ

Đặc điểm đầu tiên của một kho dữ liệu là nó được định hướng tới các đối tượng chính của một công ty. Hướng dẫn các quy trình thông qua dữ liệu nó trái ngược với phương pháp cổ điển hơn cung cấp định hướng của các ứng dụng đối với các quy trình và chức năng, một phương pháp được hầu hết các hệ thống quản lý ít sử dụng gần đây chia sẻ.

Thế giới hoạt động được thiết kế xung quanh các ứng dụng và chức năng như cho vay, tiết kiệm, thẻ ngân hàng và ủy thác cho một tổ chức tài chính. Thế giới của dw được tổ chức xung quanh các chủ đề chính như khách hàng, người bán, sản phẩm và hoạt động. Sự liên kết xung quanh các chủ đề ảnh hưởng đến việc thiết kế và thực hiện dữ liệu tìm thấy trong dw. Quan trọng nhất, chủ đề chính ảnh hưởng đến phần quan trọng nhất của cấu trúc chính.

Thế giới ứng dụng bị ảnh hưởng bởi cả thiết kế cơ sở dữ liệu và thiết kế quy trình. Thế giới của dw chỉ tập trung vào mô hình video dữ liệu và về thiết kế của cơ sở dữ liệu. Thiết kế quy trình (ở dạng cổ điển) không phải là một phần của môi trường dw.

Sự khác biệt giữa việc lựa chọn ứng dụng quy trình/chức năng và lựa chọn chủ đề cũng được bộc lộ dưới dạng sự khác biệt về nội dung của dữ liệu ở mức độ chi tiết. CÁC dữ liệu del dw không bao gồm tôi dữ liệu sẽ không được sử dụng để xử lý DSS trong khi các ứng dụng

định hướng hoạt động dữ liệu chứa tôi dữ liệu để đáp ứng ngay các yêu cầu về chức năng/xử lý có thể có hoặc không có bất kỳ tác dụng nào đối với nhà phân tích DSS.
Một cách quan trọng khác mà các ứng dụng định hướng hoạt động cho dữ liệu khác với dữ liệu của dw là trong các báo cáo của dữ liệu. Tôi dữ liệu các tác nhân duy trì mối quan hệ đang diễn ra giữa hai hoặc nhiều bảng dựa trên quy tắc kinh doanh đang hoạt động. CÁC dữ liệu của dw kéo dài trong một khoảng thời gian và có rất nhiều báo cáo được tìm thấy trong dw. Nhiều quy tắc thương mại (và tương ứng, nhiều báo cáo về dữ liệu ) được thể hiện trong kho của dữ liệu giữa hai hay nhiều bảng.

(Để được giải thích chi tiết về mối quan hệ giữa dữ liệu được quản lý trong DW, vui lòng tham khảo Chủ đề công nghệ về vấn đề đó.)
Không có quan điểm nào khác ngoài quan điểm về sự khác biệt cơ bản giữa lựa chọn ứng dụng chức năng/quy trình và lựa chọn chủ đề, liệu có sự khác biệt lớn giữa hệ điều hành và dữ liệu và DW.

TÍCH HỢP TÍCH HỢP

Khía cạnh quan trọng nhất của môi trường dw là tôi dữ liệu được tìm thấy trong dw được tích hợp dễ dàng. LUÔN LUÔN. KHÔNG CÓ NGOẠI LỆ. Bản chất của môi trường dw là tôi dữ liệu chứa trong giới hạn của kho được tích hợp.

Tích hợp thể hiện theo nhiều cách khác nhau – trong các quy ước được xác định nhất quán, trong phép đo nhất quán của các biến, trong các cấu trúc được mã hóa nhất quán, trong các thuộc tính vật lý của dữ liệu nhất quán, và như vậy.

Qua nhiều năm, các nhà thiết kế của các ứng dụng khác nhau đã đưa ra nhiều quyết định về cách phát triển một ứng dụng. Phong cách và các quyết định thiết kế được cá nhân hóa trong các ứng dụng của nhà thiết kế được tiết lộ theo hàng trăm cách: khác biệt về mã hóa, cấu trúc khóa, đặc điểm vật lý, quy ước nhận dạng, v.v. Khả năng chung của nhiều nhà thiết kế ứng dụng để tạo ra các ứng dụng không nhất quán là huyền thoại. Hình 3 cho thấy một số khác biệt quan trọng nhất trong cách các ứng dụng được thiết kế.

Mã hóa: Mã hóa:

Các nhà thiết kế ứng dụng đã chọn mã hóa trường - giới tính - theo nhiều cách. Một nhà thiết kế đại diện cho giới tính là "m" và "f". Một nhà thiết kế khác đại diện cho giới tính là "1" và "0". Một nhà thiết kế khác đại diện cho giới tính là "x" và "y." Một nhà thiết kế khác đại diện cho giới tính là "nam" và "nữ". Làm thế nào giới tính vào DW thực sự không quan trọng. “M” và “F” có thể tốt như bất kỳ đại diện nào.

Điều quan trọng là bất kể trường giới tính đến từ nguồn nào, thì trường đó đến DW ở trạng thái tích hợp nhất quán. Do đó, khi trường được tải vào DW từ một ứng dụng mà nó đã được trình bày bên ngoài ở định dạng “M” và “F”, thì dữ liệu phải được chuyển đổi sang định dạng DW.

Đo lường thuộc tính: Đo lường Thuộc tính:

Các nhà thiết kế ứng dụng đã chọn đo đường ống theo nhiều cách khác nhau trong nhiều năm qua. Một cửa hàng thiết kế tôi dữ liệu của đường ống tính bằng centimet. Một nhà thiết kế ứng dụng khác lưu trữ dữ liệu của đường ống tính bằng inch. Một nhà thiết kế ứng dụng khác lưu trữ dữ liệu của đường ống tính bằng triệu feet khối trên giây. Và một nhà thiết kế khác lưu trữ thông tin đường ống dưới dạng bãi. Bất kể nguồn nào, khi thông tin đường ống đến DW, nó phải được đo theo cùng một cách.

Như thể hiện trong hình 3, các vấn đề tích hợp ảnh hưởng đến hầu hết mọi khía cạnh của dự án – các đặc tính vật lý của dữ liệu, vấn đề tiến thoái lưỡng nan khi có nhiều hơn một nguồn dữ liệu, vấn đề về các mẫu, định dạng được xác định không nhất quán dữ liệu không nhất quán, và như vậy.

Dù đối số thiết kế là gì, kết quả là như nhau – tôi dữ liệu phải được lưu trữ trong DW theo cách duy nhất và được chấp nhận trên toàn cầu ngay cả khi các hệ điều hành cơ bản lưu trữ i dữ liệu.

Khi nhà phân tích DSS nhìn vào DW, trọng tâm của nhà phân tích là khai thác dữ liệu đang ở trong kho,

hơn là băn khoăn về độ tin cậy hoặc tính nhất quán của dữ liệu.

THỜI GIAN BIẾN ĐỔI

Tất cả dữ liệu trong DW, chúng chính xác đến một thời điểm nào đó. Đặc điểm cơ bản này của dữ liệu trong DW rất khác so với dữ liệu tìm thấy trong môi trường hoạt động. CÁC dữ liệu của môi trường hoạt động chính xác như tại thời điểm truy cập. Nói cách khác, trong môi trường vận hành khi một đơn vị được truy cập dữ liệu, dự kiến sẽ phản ánh các giá trị chính xác như tại thời điểm truy cập. Tại sao lại là tôi dữ liệu trong DW là chính xác tại một thời điểm nào đó (nghĩa là không phải "ngay bây giờ"), tôi dữ liệu được tìm thấy trong DW là "phương sai thời gian".
Phương sai thời gian của dữ liệu bởi DW được nhắc đến theo nhiều cách.
Cách đơn giản nhất là tôi dữ liệu của một DW đại diện dữ liệu trong một khoảng thời gian dài - năm đến mười năm. Khoảng thời gian được mô tả cho môi trường hoạt động ngắn hơn nhiều so với các giá trị hiện tại lên tới XNUMX
Các ứng dụng cần hoạt động tốt và cần sẵn sàng để xử lý giao dịch cần mang lại số lượng tối thiểu dữ liệu nếu chúng cho phép bất kỳ mức độ linh hoạt nào. Vì vậy, các ứng dụng hoạt động có một khoảng thời gian ngắn, chẳng hạn như chủ đề thiết kế ứng dụng âm thanh.
Cách thứ hai 'phương sai thời gian' xuất hiện trong DW là trong cấu trúc khóa. Mỗi cấu trúc khóa trong DW chứa, ngầm định hoặc rõ ràng, một yếu tố thời gian, chẳng hạn như ngày, tuần, tháng, v.v. Yếu tố thời gian hầu như luôn ở dưới cùng của khóa nối được tìm thấy trong DW. Trong những trường hợp này, yếu tố thời gian sẽ tồn tại ngầm, chẳng hạn như trường hợp nhân bản toàn bộ tệp vào cuối tháng hoặc cuối quý.
Phương sai thời gian thứ ba được hiển thị là tôi dữ liệu của DW, chỉ cần đăng ký chính xác, không thể cập nhật. CÁC dữ liệu của DW, đối với tất cả các mục đích thực tế, là một chuỗi ảnh chụp nhanh dài. Tất nhiên, nếu ảnh chụp nhanh được chụp không chính xác, thì ảnh chụp nhanh có thể được sửa đổi. Nhưng giả sử ảnh chụp nhanh được chụp chính xác, chúng sẽ không bị thay đổi ngay sau khi được chụp. Trong một số

các trường hợp có thể là phi đạo đức hoặc thậm chí không hợp lệ nếu ảnh chụp nhanh trong DW bị sửa đổi. CÁC dữ liệu hoạt động, chính xác như tại thời điểm truy cập, có thể được cập nhật khi có nhu cầu.

KHÔNG BAY GIAO

Đặc điểm quan trọng thứ tư của DW là nó không bay hơi.
Các cập nhật, thêm, xóa và thay đổi được thực hiện thường xuyên đối với môi trường hoạt động trên cơ sở từng bản ghi. Nhưng thao tác cơ bản của dữ liệu cần thiết trong DW dễ dàng hơn nhiều. Chỉ có hai loại hoạt động xảy ra trong DW – tải ban đầu của dữ liệu và truy cập vào dữ liệu. Không có bản cập nhật của dữ liệu (theo nghĩa chung là cập nhật) trong DW như một hoạt động xử lý bình thường. Có một số hậu quả rất mạnh mẽ của sự khác biệt cơ bản này giữa xử lý hoạt động và xử lý DW. Ở cấp độ thiết kế, sự cần thiết phải thận trọng về cập nhật sự cố không phải là một yếu tố trong DW, vì bản cập nhật của dữ liệu nó không được thực hiện. Điều này có nghĩa là ở cấp độ vật lý của thiết kế, quyền tự do có thể được thực hiện để tối ưu hóa quyền truy cập vào dữ liệu, đặc biệt là trong việc xử lý các chủ đề chuẩn hóa và không chuẩn hóa vật lý. Một hệ quả khác của sự đơn giản trong hoạt động của DW là ở công nghệ cơ bản được sử dụng để chạy môi trường DW. Việc phải hỗ trợ cập nhật từng bản ghi trực tuyến (như thường xảy ra với quy trình vận hành) đòi hỏi công nghệ phải có một nền tảng rất phức tạp bên dưới sự đơn giản rõ ràng.
Công nghệ hỗ trợ sao lưu và phục hồi, giao dịch và toàn vẹn dữ liệu dữ liệu và việc phát hiện và khắc phục bế tắc là khá phức tạp và không cần thiết cho quá trình xử lý DW. Các đặc điểm của một DW, định hướng thiết kế, tích hợp các dữ liệu trong DW, phương sai thời gian và dễ quản lý dữ liệu, tất cả dẫn đến một môi trường rất, rất khác so với môi trường vận hành cổ điển. Nguồn gốc của hầu hết tất cả dữ liệu của DW là môi trường hoạt động. Thật hấp dẫn khi nghĩ rằng có sự dư thừa lớn của dữ liệu giữa hai môi trường.
Thật vậy, ấn tượng đầu tiên mà nhiều người có là sự dư thừa lớn dữ liệu giữa môi trường hoạt động và môi trường của

Phần mở rộng DW. Cách giải thích như vậy là hời hợt và thể hiện sự thiếu hiểu biết về những gì đang xảy ra trong DW.
Thật vậy, có sự dư thừa tối thiểu dữ liệu giữa môi trường hoạt động và tôi dữ liệu của DW. Hãy xem xét những điều sau đây: Tôi dữ liệu chúng được lọc dữ liệu rằng bạn chuyển từ môi trường hoạt động sang môi trường DW. Nhiều dữ liệu họ không bao giờ đi ra ngoài môi trường hoạt động. chỉ có tôi dữ liệu được yêu cầu để xử lý DSS tìm hướng của chúng trong môi trường

▪ chân trời thời gian của dữ liệu nó rất khác nhau từ môi trường này sang môi trường khác. CÁC dữ liệu trong môi trường hoạt động họ rất tươi tỉnh. CÁC dữ liệu trong DW họ già hơn nhiều. Chỉ từ góc độ thời gian, có rất ít sự trùng lặp giữa môi trường hoạt động và DW.

▪ DW chứa dữ liệu tóm tắt không bao giờ có trong môi trường

▪ tôi dữ liệu trải qua một sự biến đổi cơ bản khi chúng chuyển sang Hình 3 minh họa rằng hầu hết dữ liệu được sửa đổi đáng kể miễn là chúng được chọn và chuyển sang DW. Nói cách khác, hầu hết các dữ liệu nó được thay đổi về mặt vật lý và cơ bản khi nó được chuyển vào DW. Từ quan điểm tích hợp, chúng không giống nhau dữ liệu cư trú trong môi trường hoạt động. Với những yếu tố này, sự dư thừa của dữ liệu giữa hai môi trường là một sự kiện hiếm gặp, dẫn đến dự phòng ít hơn 1% giữa hai môi trường. CƠ CẤU KHO DW có cấu trúc riêng biệt. Có nhiều cấp độ tóm tắt và chi tiết khác nhau để phân định các DW.
Các thành phần khác nhau của một DW là:

Siêu dữ liệu
Cho chi tiết hiện tại
Cho chi tiết cũ
Cho hơi tóm tắt
Cho tóm tắt cao

Cho đến nay mối quan tâm chính là cho tôi dữ liệu chi tiết hiện tại. Đó là mối quan tâm hàng đầu bởi vì:

I dữ liệu Chi tiết hiện tại phản ánh các sự kiện gần đây nhất, luôn được quan tâm nhiều và
i dữ liệu dữ liệu chi tiết hiện tại rất lớn vì nó được lưu trữ ở mức độ chi tiết thấp nhất và
i dữ liệu các chi tiết hiện tại hầu như luôn được lưu trữ trong bộ nhớ đĩa, truy cập nhanh, nhưng tốn kém và phức tạp từ tôi dữ liệu chi tiết cũ hơn dữ liệu được lưu trữ trên một số bộ nhớ của quần chúng. Nó được truy cập không thường xuyên và được lưu trữ ở mức độ chi tiết tương thích với dữ liệu chi tiết hiện tại. Mặc dù không bắt buộc phải lưu trữ trên một phương tiện lưu trữ thay thế, do khối lượng lớn dữ liệu thống nhất với sự truy cập lẻ tẻ của dữ liệu, phương tiện lưu trữ cho dữ liệu của chi tiết cũ hơn thường không được lưu trữ trên đĩa. CÁC dữ liệu tóm tắt nhẹ nhàng họ là dữ liệu được chắt lọc từ mức độ chi tiết thấp được tìm thấy đến mức độ chi tiết hiện tại. Mức DW này hầu như luôn được lưu trữ trong bộ nhớ đĩa. Các vấn đề về thiết kế tự đặt ra cho kiến trúc sư của dữ liệu trong việc xây dựng cấp độ này của DW là:

Đơn vị thời gian nào là tóm tắt được thực hiện ở trên
Nội dung gì, thuộc tính nào sẽ tóm tắt một chút nội dung của dữ liệu Cấp độ tiếp theo của dữ liệu được tìm thấy trong DW là của dữ liệu được tổng kết cao. CÁC dữ liệu tóm tắt cao là nhỏ gọn và dễ dàng truy cập. CÁC dữ liệu tóm tắt cao đôi khi được tìm thấy trong môi trường DW và các trường hợp khác tôi dữ liệu trừu tượng cao được tìm thấy bên ngoài các bức tường trực tiếp của công nghệ lưu trữ DW. (trong mọi trường hợp, tôi dữ liệu tóm tắt cao là một phần của DW bất kể tôi ở đâu dữ liệu được chứa vật lý). Thành phần cuối cùng của DW là thành phần siêu dữ liệu. Trong nhiều khía cạnh, siêu dữ liệu nằm ở một chiều khác với các chiều khác dữ liệu của DW, vì siêu dữ liệu không chứa bất kỳ dữ liệu được lấy trực tiếp từ môi trường hoạt động. Siêu dữ liệu có một vai trò đặc biệt và rất quan trọng trong DW. Siêu dữ liệu được sử dụng như:

một thư mục để giúp nhà phân tích DSS định vị nội dung của DW,
hướng dẫn lập bản đồ dữ liệu về cách tôi dữ liệu đã được chuyển đổi từ môi trường hoạt động sang môi trường DW,
một hướng dẫn về các thuật toán được sử dụng để tóm tắt giữa tôi dữ liệu chi tiết hiện tại ei dữ liệu tóm tắt một chút, tôi dữ liệu Tóm lại, Siêu dữ liệu đóng một vai trò lớn hơn nhiều trong môi trường DW so với trong môi trường hoạt động CHI TIẾT CŨ LƯU TRỮ VỪA Băng từ có thể được sử dụng để lưu trữ loại đó dữ liệu. Thật vậy, có rất nhiều phương tiện lưu trữ nên được xem xét để lưu trữ những cái cũ dữ liệu của chi tiết. Tùy thuộc vào khối lượng của dữ liệu, tần suất truy cập, chi phí công cụ và loại truy cập, hoàn toàn có khả năng các công cụ khác sẽ cần mức độ chi tiết cũ trong DW. Luồng DỮ LIỆU Có một dòng chảy bình thường và có thể dự đoán được của dữ liệu trong DW.
I dữ liệu họ vào DW từ môi trường hoạt động. (LƯU Ý: Có một số ngoại lệ rất thú vị đối với quy tắc này. Tuy nhiên, gần như tất cả dữ liệu nhập DW từ môi trường hoạt động). Do mà dữ liệu họ nhập DW từ môi trường hoạt động, nó được chuyển đổi như mô tả ở trên. Với điều kiện bạn nhập DW, tôi dữ liệu nhập mức độ chi tiết hiện tại, như được hiển thị. Nó nằm ở đó và được sử dụng cho đến khi một trong ba sự kiện xảy ra:

được thanh lọc,
được tóm tắt và/hoặc ▪là Quá trình lỗi thời bên trong DW di chuyển tôi dữ liệu chi tiết hiện tại một dữ liệu của chi tiết cũ, theo tuổi của dữ liệu. Quá trình

tóm tắt sử dụng các chi tiết của dữ liệu để tính toán dữ liệu mức độ tóm tắt nhẹ và mức độ tóm tắt cao của dữ liệu. Có một số ngoại lệ đối với quy trình được hiển thị (sẽ được thảo luận sau). Tuy nhiên, thông thường, đối với đại đa số dữ liệu tìm thấy trong một DW, dòng của dữ liệu nó được đại diện.

SỬ DỤNG KHO DỮ LIỆU

Không có gì ngạc nhiên khi các cấp độ khác nhau của dữ liệu trong DW, chúng không nhận được các mức độ sử dụng khác nhau. Theo quy định, mức độ tóm tắt càng cao, tôi càng dữ liệu chúng được sử dụng.
Nhiều sử dụng xảy ra trong dữ liệu tóm tắt cao, trong khi cái cũ dữ liệu của chi tiết hầu như không bao giờ được sử dụng. Có lý do chính đáng để chuyển tổ chức sang mô hình sử dụng tài nguyên. tóm tắt thêm tôi dữ liệu, nó càng nhanh hơn và hiệu quả hơn để đạt được dữ liệu. Nếu một cửa hàng nhận thấy rằng nó thực hiện nhiều xử lý ở mức độ chi tiết của DW, sau đó một lượng lớn tài nguyên máy tương ứng được tiêu thụ. Lợi ích tốt nhất của mọi người là xử lý một mức độ tóm tắt cao như vậy càng sớm càng tốt.

Đối với nhiều cửa hàng, nhà phân tích DSS trong môi trường tiền DW đã sử dụng dữ liệu ở mức độ chi tiết. Ở nhiều khía cạnh, việc đến dữ liệu chi tiết trông giống như một tấm chăn bảo mật, ngay cả khi có sẵn các mức tóm tắt khác. Một trong những hoạt động của kiến trúc sư dữ liệu là loại bỏ người dùng DSS khỏi việc sử dụng liên tục dữ liệu ở mức độ chi tiết thấp nhất. Có hai động lực sẵn có cho kiến trúc sư dữ liệu:

cài đặt hệ thống bồi hoàn, trong đó người dùng cuối trả tiền cho các tài nguyên đã sử dụng e
điều đó chỉ ra rằng thời gian phản hồi rất tốt có thể đạt được khi hành vi với tôi dữ liệu ở mức độ tổng kết cao, trong khi thời gian phản hồi kém xuất phát từ hành vi của dữ liệu ở mức độ thấp NHỮNG Ý KIẾN KHÁC Có một vài cân nhắc khác về quản lý và xây dựng DW.
Việc xem xét đầu tiên là các chỉ số. CÁC dữ liệu ở mức độ tóm tắt cao hơn, chúng có thể được lập chỉ mục tự do, trong khi tôi dữ liệu

ở mức độ chi tiết thấp hơn, chúng rất đồ sộ nên có thể được lập chỉ mục một cách tiết kiệm. Từ cùng một mã thông báo, tôi dữ liệu ở mức độ chi tiết cao có thể được tái cấu trúc tương đối dễ dàng, trong khi khối lượng dữ liệu ở cấp độ thấp hơn, nó lớn đến mức tôi dữ liệu chúng không thể được tân trang lại một cách dễ dàng. Do đó, mô hình của dữ liệu và công việc chính thức được thực hiện bởi thiết kế đặt nền móng cho DW được áp dụng gần như độc quyền cho mức độ chi tiết hiện tại. Nói cách khác, các hoạt động mô hình hóa của dữ liệu chúng không áp dụng cho các cấp độ tóm tắt, trong hầu hết mọi trường hợp. Một sự xem xét cấu trúc khác là sự phân khu của dữ liệu của DW.

Phân vùng có thể được thực hiện ở hai cấp độ - ở cấp độ dbms và ở mức ứng dụng. Trong bộ phận ở cấp độ dbms, The dbms được thông báo về các bộ phận và kiểm soát chúng cho phù hợp. Trong trường hợp phân chia ở cấp độ ứng dụng, chỉ lập trình viên biết về các phân chia và trách nhiệm quản lý chúng thuộc về anh ta

dưới mức dbms, rất nhiều công việc được thực hiện tự động. Có rất nhiều sự không linh hoạt liên quan đến việc tự quản lý các bộ phận. Trong trường hợp áp dụng cấp bộ phận của dữ liệu các kho dữ liệu, rất nhiều công việc thuộc về lập trình viên, nhưng kết quả cuối cùng là tính linh hoạt trong việc quản trị dữ liệu trong kho dữ liệu

CÁC DỊ ỨNG KHÁC

Trong khi các thành phần của kho dữ liệu làm việc như được mô tả cho hầu hết tất cả dữ liệu, có một số ngoại lệ hữu ích cần được thảo luận. Một ngoại lệ là của dữ liệu public sumsumaries (dữ liệu tóm tắt công khai). đó là dữ liệu tóm tắt đã được tính toán ra khỏi kho dữ liệu nhưng chúng được sử dụng bởi xã hội. CÁC dữ liệu tóm tắt công khai được lưu trữ và quản lý trong kho dữ liệu, mặc dù như đã đề cập ở trên, chúng được tìm ra. Kế toán làm việc để sản xuất hàng quý như vậy dữ liệu chẳng hạn như thu nhập, chi phí hàng quý, lợi nhuận hàng quý, v.v. Công việc được thực hiện bởi kế toán là bên ngoài kho dữ liệu. Tuy nhiên, tôi dữ liệu được sử dụng “nội bộ” trong công ty – từ tiếp thị, bán hàng, v.v. Một điều bất thường khác sẽ không được thảo luận đó là dữ liệu esteni.

Một loại nổi bật khác dữ liệu mà có thể được tìm thấy trong một kho dữ liệu là dữ liệu chi tiết vĩnh viễn. Những điều này gây ra sự cần thiết phải lưu trữ vĩnh viễn các dữ liệu ở mức độ chi tiết vì lý do đạo đức hoặc pháp lý. Nếu một công ty đang để công nhân của mình tiếp xúc với các chất độc hại thì cần phải có dữ liệu chi tiết và vĩnh viễn. Nếu một công ty sản xuất một sản phẩm liên quan đến an toàn công cộng, chẳng hạn như các bộ phận của máy bay, thì cần phải dữ liệu chi tiết vĩnh viễn, cũng như nếu một công ty tham gia vào các hợp đồng nguy hiểm.

Công ty không thể bỏ qua các chi tiết vì trong vài năm tới, trong trường hợp kiện tụng, thu hồi, tranh chấp về lỗi xây dựng, v.v. mức độ tiếp xúc của công ty có thể lớn. Kết quả là có một loại duy nhất của dữ liệu được gọi là dữ liệu chi tiết vĩnh viễn.

TÓM LƯỢC

Un kho dữ liệu nó là một biến thể hướng đối tượng, tích hợp, căng thẳng, một tập hợp các dữ liệu không thay đổi để hỗ trợ các nhu cầu ra quyết định của chính quyền. Mỗi chức năng nổi bật của một kho dữ liệu có ý nghĩa của nó. Ngoài ra còn có bốn cấp độ dữ liệu các kho dữ liệu:

Chi tiết cũ
Chi tiết hiện tại
Cho hơi tóm tắt
Cho Siêu dữ liệu được tóm tắt cao cũng là một phần quan trọng của kho dữ liệu. TRỪU TƯỢNG Khái niệm về lưu trữ dữ liệu nó gần đây đã nhận được rất nhiều sự chú ý và đã trở thành một xu hướng của những năm 90. Điều này là do khả năng của một kho dữ liệu nhằm khắc phục những hạn chế của các hệ thống hỗ trợ quản lý như hệ thống hỗ trợ ra quyết định (DSS) và hệ thống thông tin điều hành (EIS). Mặc dù khái niệm về kho dữ liệu có vẻ đầy hứa hẹn, thực hiện tôi kho dữ liệu có thể có vấn đề do quy trình lưu kho quy mô lớn. Mặc dù sự phức tạp của các dự án kho bãi của dữ liệu, nhiều nhà cung cấp và nhà tư vấn còn hàng dữ liệu lập luận rằng việc lưu trữ của dữ liệu hiện tại không có vấn đề gì. Tuy nhiên, khi bắt đầu dự án nghiên cứu này, hầu như chưa có công trình nghiên cứu độc lập, chặt chẽ và có hệ thống nào được thực hiện. Do đó, rất khó để nói, điều gì thực sự xảy ra trong ngành khi chúng được xây dựng kho dữ liệu. Nghiên cứu này khám phá thực tiễn lưu kho của dữ liệu những người đương thời nhằm mục đích phát triển sự hiểu biết phong phú hơn về thực tiễn của Úc. Tổng quan tài liệu đã cung cấp bối cảnh và nền tảng cho nghiên cứu thực nghiệm. Có một số kết quả từ nghiên cứu này. Đầu tiên, nghiên cứu này tiết lộ các hoạt động xảy ra trong quá trình phát triển của kho dữ liệu. Trong nhiều lĩnh vực, tôi dữ liệu tập hợp đã xác nhận thực tế được báo cáo trong tài liệu. Thứ hai, các vấn đề và các vấn đề có thể ảnh hưởng đến sự phát triển của kho dữ liệu đã được xác định bởi nghiên cứu này. Cuối cùng, lợi ích thu được bởi các tổ chức Úc liên quan đến việc sử dụng kho dữ liệu đã được tiết lộ.

chương 1

ngữ cảnh tìm kiếm

Khái niệm kho dữ liệu được phổ biến rộng rãi và trở thành một xu hướng mới nổi trong những năm 90 (McFadden 1996, TDWI 1996, Shah và Milstein 1997, Shanks và cộng sự 1997, Eckerson 1998, Adelman và Oates 2000). Điều này có thể được nhìn thấy từ số lượng ngày càng tăng của các bài báo về kho dữ liệu trong các ấn phẩm thương mại (Little và Gibson 1999). Nhiều bài báo (xem, ví dụ, Fisher 1995, Hackathorn 1995, Morris 1995a, Bramblett và King 1996, Graham et al. 1996, Sakaguchi và Frolick 1996, Alvarez 1997, Brousell 1997, Clarke 1997, McCarthy 1997, O' Donnell 1997, Edwards 1998, TDWI 1999) đã báo cáo những lợi ích đáng kể cho các tổ chức thực hiện kho dữ liệu. Họ đã hỗ trợ lý thuyết của mình bằng bằng chứng giai thoại về việc triển khai thành công, số liệu về lợi tức đầu tư (ROI) cao, đồng thời, bằng cách cung cấp các hướng dẫn hoặc phương pháp để phát triển kho dữ liệu

(Shanks và cộng sự 1997, Seddon và Benjamin 1998, Little và Gibson 1999). Trong một trường hợp cực đoan, Graham et al. (1996) đã báo cáo lợi tức trung bình cho khoản đầu tư ba năm là 401%.

Tuy nhiên, phần lớn các tài liệu hiện tại đã bỏ qua những phức tạp liên quan đến việc thực hiện các dự án như vậy. Các dự án của kho dữ liệu chúng thường phức tạp và quy mô lớn và do đó có khả năng thất bại cao nếu không được kiểm soát cẩn thận (Shah và Milstein 1997, Eckerson 1997, Foley 1997b, Zimmer 1997, Bort 1998, Gibbs và Clymer 1998, Rao 1998). Chúng đòi hỏi một lượng lớn nguồn nhân lực và tài chính, thời gian và công sức để xây dựng chúng (Hill 1998, Crofts 1998). Thời gian điển hình và phương tiện tài chính cần thiết lần lượt là khoảng hai năm và hai đến ba triệu đô la (Braly 1995, Foley 1997b, Bort 1998, Humphries et al. 1999). Thời gian và phương tiện tài chính này được yêu cầu để kiểm soát và hợp nhất nhiều khía cạnh khác nhau của kho dữ liệu (Cafasso 1995, Hill 1998). Bên cạnh những cân nhắc về phần cứng và phần mềm, các chức năng khác, khác với việc trích xuất dữ liệu đến các quá trình tải của dữ liệu, dung lượng bộ nhớ để quản lý các bản cập nhật và meta dữ liệu để đào tạo người dùng, phải được xem xét.

Vào thời điểm dự án nghiên cứu này bắt đầu, có rất ít nghiên cứu học thuật được tiến hành trong lĩnh vực kho dữ liệu, đặc biệt là ở Úc. Điều này thể hiện rõ qua số lượng ít ỏi các bài báo được xuất bản trên kho dữ liệu của các tạp chí hoặc các bài viết học thuật khác vào thời điểm đó. Nhiều bài viết học thuật hiện có đã mô tả kinh nghiệm của Hoa Kỳ. Việc thiếu nghiên cứu học thuật trong lĩnh vực kho dữ liệu đã gây ra nhu cầu nghiên cứu nghiêm ngặt và nghiên cứu thực nghiệm (McFadden 1996, Shanks et al. 1997, Little và Gibson 1999). Đặc biệt, các nghiên cứu về quy trình triển khai kho dữ liệu cần phải được thực hiện để mở rộng kiến thức chung về việc thực hiện các kho dữ liệu và sẽ là cơ sở cho một nghiên cứu trong tương lai (Shanks et al. 1997, Little và Gibson 1999).

Do đó, mục đích của nghiên cứu này là điều tra điều gì thực sự xảy ra khi các tổ chức triển khai và sử dụng i kho dữ liệu ở nước Úc. Cụ thể, nghiên cứu này sẽ liên quan đến việc phân tích toàn bộ quá trình phát triển một kho dữ liệu, bắt đầu với sự khởi xướng và thiết kế thông qua thiết kế và triển khai và sử dụng sau đó trong các tổ chức của Úc. Ngoài ra, nghiên cứu cũng sẽ đóng góp vào thực tiễn hiện tại bằng cách xác định các lĩnh vực mà thực tiễn có thể được cải thiện hơn nữa và sự thiếu hiệu quả cũng như rủi ro có thể được giảm thiểu hoặc tránh được. Ngoài ra, nó sẽ là cơ sở cho các nghiên cứu khác về kho dữ liệu ở Úc và sẽ lấp đầy khoảng trống hiện đang tồn tại trong tài liệu.

câu hỏi nghiên cứu

Mục tiêu của nghiên cứu này là nghiên cứu các hoạt động liên quan đến việc thực hiện các kho dữ liệu và việc sử dụng chúng bởi các tổ chức Úc. Đặc biệt, các yếu tố liên quan đến lập kế hoạch dự án, phát triển, vận hành, sử dụng và các rủi ro liên quan được nghiên cứu. Vì vậy, câu hỏi của nghiên cứu này là:

“Làm thế nào là thực hành hiện nay của kho dữ liệu ở nước Úc?"

Để trả lời câu hỏi này một cách hiệu quả, một số câu hỏi nghiên cứu phụ được yêu cầu. Đặc biệt, ba câu hỏi phụ đã được xác định từ tài liệu, được trình bày trong chương 2, để hướng dẫn dự án nghiên cứu này: kho dữ liệu bởi các tổ chức Úc? Các vấn đề gặp phải là gì?

Những lợi ích kinh nghiệm là gì?
Để trả lời những câu hỏi này, một thiết kế nghiên cứu khám phá sử dụng một cuộc khảo sát đã được sử dụng. Là một nghiên cứu thăm dò, câu trả lời cho các câu hỏi trên là không đầy đủ (Shanks et al. 1993, Denscombe 1998). Trong trường hợp này, cần phải thực hiện phép kiểm tra tam giác để cải thiện câu trả lời cho những câu hỏi này. Tuy nhiên, cuộc điều tra sẽ cung cấp một nền tảng vững chắc cho công việc trong tương lai kiểm tra những câu hỏi này. Một cuộc thảo luận chi tiết về biện minh và thiết kế phương pháp nghiên cứu được trình bày trong chương 3.

Cấu trúc của dự án nghiên cứu

Dự án nghiên cứu này được chia thành hai phần: nghiên cứu bối cảnh về khái niệm kho dữ liệu và nghiên cứu thực nghiệm (xem Hình 1.1), mỗi phần sẽ được thảo luận dưới đây.

Phần I: Nghiên cứu bối cảnh

Phần đầu tiên của nghiên cứu bao gồm đánh giá các tài liệu hiện tại về các loại kho dữ liệu khác nhau bao gồm hệ thống hỗ trợ quyết định (DSS), hệ thống thông tin điều hành (EIS), nghiên cứu điển hình về kho dữ liệu và các khái niệm về kho dữ liệu. Ngoài ra, kết quả của các diễn đàn trên kho dữ liệu và các nhóm gặp gỡ chuyên gia và học viên do nhóm nghiên cứu Monash DSS dẫn đầu, đã đóng góp vào giai đoạn nghiên cứu này nhằm hiểu rõ hơn về thực tiễn của kho dữ liệu và để xác định những rủi ro liên quan đến việc áp dụng chúng. Trong giai đoạn nghiên cứu bối cảnh này, sự hiểu biết về lĩnh vực vấn đề đã được thiết lập để cung cấp cơ sở kiến thức cho các cuộc điều tra thực nghiệm tiếp theo. Tuy nhiên, đây là một quá trình đang diễn ra khi nghiên cứu được tiến hành.

Phần II: Nghiên cứu thực nghiệm

Khái niệm tương đối mới về kho dữ liệu, đặc biệt là ở Úc, đã tạo ra nhu cầu thực hiện một cuộc khảo sát để có được bức tranh toàn cảnh về trải nghiệm sử dụng. Phần này được thực hiện khi miền vấn đề đã được thiết lập thông qua việc xem xét tài liệu mở rộng. Khái niệm kho dữ liệu được hình thành trong giai đoạn nghiên cứu theo ngữ cảnh được sử dụng làm đầu vào cho bảng câu hỏi ban đầu của nghiên cứu này. Sau đó, bảng câu hỏi đã được xem xét. bạn có phải là chuyên gia về kho dữ liệu đã tham gia thử nghiệm. Mục đích của việc thử nghiệm bảng câu hỏi ban đầu là để kiểm tra tính đầy đủ và chính xác của các câu hỏi. Dựa trên kết quả kiểm tra, bảng câu hỏi đã được sửa đổi và phiên bản sửa đổi đã được gửi đến những người tham gia khảo sát. Các câu hỏi trả về sau đó đã được phân tích cho tôi dữ liệu trong bảng, sơ đồ và các định dạng khác. CÁC

kết quả phân tích của dữ liệu hình thành một ảnh chụp nhanh về thực hành lưu trữ dữ liệu ở Úc.

TỔNG QUAN VỀ KHO DỮ LIỆU

Khái niệm về kho dữ liệu đã phát triển cùng với những cải tiến trong công nghệ máy tính.
Nó nhằm mục đích khắc phục các vấn đề gặp phải bởi các nhóm hỗ trợ ứng dụng như Hệ thống hỗ trợ quyết định (DSS) và Hệ thống thông tin điều hành (EIS).

Trước đây, trở ngại lớn nhất của các ứng dụng này là chúng không có khả năng cung cấp cơ sở dữ liệu cần thiết cho việc phân tích.
Điều này chủ yếu là do bản chất của công việc quản lý. Lợi ích của ban quản lý công ty thay đổi liên tục tùy thuộc vào khu vực được bảo hiểm. Vì thế, tôi dữ liệu nền tảng cho các ứng dụng này phải có khả năng thay đổi nhanh chóng tùy thuộc vào bộ phận được xử lý.
Điều này có nghĩa là tôi dữ liệu phải có sẵn ở dạng thích hợp cho các phân tích cần thiết. Trên thực tế, trước đây các nhóm hỗ trợ ứng dụng gặp rất nhiều khó khăn trong việc thu thập và tích hợp dữ liệu từ các nguồn phức tạp và đa dạng.

Phần còn lại của phần này trình bày tổng quan về khái niệm kho dữ liệu và thảo luận về cách thức kho dữ liệu có thể khắc phục các vấn đề của các nhóm hỗ trợ ứng dụng.
Thuật ngữ "Kho dữ liệuđược phổ biến bởi William Inmon vào năm 1990. Định nghĩa thường được trích dẫn của ông cho thấy Kho dữ liệu như một bộ sưu tập của dữ liệu định hướng theo chủ đề, tích hợp, không thay đổi và thay đổi theo thời gian, hỗ trợ cho các quyết định quản lý.

Sử dụng định nghĩa này Inmon chỉ ra rằng tôi dữ liệu cư trú tại một kho dữ liệu phải có 4 đặc điểm sau:

▪ Định hướng theo chủ đề
▪ Tích hợp
▪ Không biến động
▪ Thay đổi theo thời gian Inmon hướng đối tượng có nghĩa là tôi dữ liệu trong kho dữ liệu trong các lĩnh vực tổ chức lớn nhất đã được

được xác định trong mô hình dữ liệu. ví dụ tất cả dữ liệu liên quan đến tôi khách hàng được chứa trong lĩnh vực chủ đề KHÁCH HÀNG. Tương tự tất cả dữ liệu liên quan đến các sản phẩm được chứa trong lĩnh vực chủ đề SẢN PHẨM.

Bằng Inmon tích hợp có nghĩa là tôi dữ liệu từ các nền tảng, hệ thống và địa điểm khác nhau được kết hợp và lưu trữ ở một nơi. Do đó dữ liệu những cái tương tự phải được chuyển đổi thành các định dạng nhất quán để được thêm vào và so sánh dễ dàng.
Ví dụ: giới tính nam và nữ được biểu thị bằng các chữ cái M và F trong một hệ thống và bằng 1 và 0 trong một hệ thống khác. Để tích hợp chúng đúng cách, một hoặc cả hai định dạng phải được chuyển đổi sao cho hai định dạng bằng nhau. Trong trường hợp này, chúng ta có thể thay đổi M thành 1 và F thành 0 hoặc ngược lại. Hướng chủ đề và Tích hợp chỉ ra rằng kho dữ liệu được thiết kế để cung cấp một tầm nhìn chức năng và ngang của dữ liệu từ công ty.

Bằng cách không bay hơi, anh ấy có nghĩa là tôi dữ liệu trong kho dữ liệu vẫn nhất quán và cập nhật của dữ liệu nó không phải là cần thiết. Thay vào đó, bất kỳ thay đổi nào trong dữ liệu bản gốc được thêm vào cơ sở dữ liệu các kho dữ liệu. Điều này có nghĩa là nhà sử học của dữ liệu được chứa trong kho dữ liệu.

Đối với các biến theo thời gian Inmon chỉ ra rằng i dữ liệu trong kho dữ liệu luôn chứa các chỉ số nhịp độ ei dữ liệu họ thường vượt qua một chân trời thời gian nhất định. ví dụ một
kho dữ liệu có thể chứa đựng 5 năm giá trị lịch sử của khách hàng từ năm 1993 đến năm 1997. Sự sẵn có của chuỗi lịch sử và chuỗi thời gian của dữ liệu cho phép bạn phân tích xu hướng.

Un kho dữ liệu anh ấy có thể thu thập của riêng mình dữ liệu từ hệ thống OLTP; từ nguồn gốc dữ liệu bên ngoài tổ chức và/hoặc bởi các dự án hệ thống bẫy đặc biệt khác dữ liệu.
I dữ liệu chiết xuất có thể trải qua quá trình làm sạch, trong trường hợp này tôi dữ liệu được chuyển đổi và tích hợp trước khi được lưu trữ trong cơ sở dữ liệu các kho dữ liệu. Sau đó tôi dữ liệu

cư trú trong cơ sở dữ liệu các kho dữ liệu được cung cấp cho thông tin đăng nhập của người dùng cuối và các công cụ khôi phục. Sử dụng các công cụ này, người dùng cuối có thể truy cập chế độ xem tích hợp của tổ chức của dữ liệu.

I dữ liệu cư trú trong cơ sở dữ liệu các kho dữ liệu chúng được lưu trữ ở cả định dạng chi tiết và tóm tắt.
Mức độ tóm tắt có thể phụ thuộc vào bản chất của dữ liệu. Tôi dữ liệu chi tiết có thể bao gồm dữ liệu hiện tại và dữ liệu các nhà sử học
I dữ liệu thực tế không được bao gồm trong kho dữ liệu cho đến khi tôi dữ liệu trong kho dữ liệu được cập nhật lại.
Ngoài việc lưu trữ các dữ liệu bản thân họ, một kho dữ liệu nó cũng có thể lưu trữ một loại khác nhau của dữ liệu được gọi là SIÊU DỮ LIỆU mô tả tôi dữ liệu cư trú tại của mình cơ sở dữ liệu.
Có hai loại siêu dữ liệu: siêu dữ liệu phát triển và siêu dữ liệu phân tích.
Siêu dữ liệu phát triển được sử dụng để quản lý và tự động hóa các quy trình trích xuất, làm sạch, lập bản đồ và tải lên dữ liệu trong kho dữ liệu.
Thông tin chứa trong siêu dữ liệu phát triển có thể chứa thông tin chi tiết về hệ điều hành, chi tiết về các phần tử sẽ được trích xuất, mô hình dữ liệu các kho dữ liệu và quy tắc kinh doanh để chuyển đổi dữ liệu dữ liệu.

Loại siêu dữ liệu thứ hai, được gọi là siêu dữ liệu phân tích cho phép người dùng cuối khám phá nội dung của kho dữ liệu để tìm dữ liệu có sẵn và ý nghĩa của chúng trong các thuật ngữ rõ ràng, phi kỹ thuật.

Do đó, siêu dữ liệu phân tích hoạt động như một cầu nối giữa kho dữ liệu và các ứng dụng của người dùng cuối. Siêu dữ liệu này có thể chứa mô hình kinh doanh, mô tả về dữ liệu tương ứng với mô hình kinh doanh, các truy vấn và báo cáo được xác định trước, thông tin để người dùng truy cập và chỉ mục.

Siêu dữ liệu phân tích và phát triển phải được kết hợp thành một siêu dữ liệu ngăn chặn tích hợp để hoạt động bình thường.

Thật không may, nhiều công cụ hiện có có siêu dữ liệu riêng và hiện tại không có tiêu chuẩn hiện có nào

cho phép các công cụ lưu trữ dữ liệu tích hợp siêu dữ liệu này. Để khắc phục tình trạng này, nhiều nhà cung cấp công cụ lưu trữ dữ liệu hàng đầu đã thành lập Hội đồng siêu dữ liệu, sau này trở thành Liên minh siêu dữ liệu.

Mục tiêu của liên minh này là xây dựng một bộ siêu dữ liệu chuẩn cho phép các công cụ lưu trữ dữ liệu khác nhau chuyển đổi siêu dữ liệu
Những nỗ lực của họ đã dẫn đến sự ra đời của Đặc tả trao đổi dữ liệu siêu dữ liệu (MDIS) cho phép trao đổi thông tin giữa các kho lưu trữ của Microsoft và các tệp MDIS có liên quan.

Sự tồn tại của dữ liệu cả tóm tắt/lập chỉ mục và chi tiết, nó cung cấp cho người dùng khả năng thực hiện DRILL DROWN (khoan) từ dữ liệu được lập chỉ mục cho những cái chi tiết và ngược lại. sự tồn tại của dữ liệu lịch sử chi tiết cho phép tạo ra các phân tích xu hướng theo thời gian. Ngoài ra, siêu dữ liệu phân tích có thể được sử dụng làm thư mục del cơ sở dữ liệu các kho dữ liệu để giúp người dùng cuối định vị tôi dữ liệu cần thiết.

So với các hệ thống OLTP, với khả năng hỗ trợ phân tích các dữ liệu và báo cáo, các kho dữ liệu nó được coi là một hệ thống phù hợp hơn cho các quy trình thông tin như tạo và trả lời các truy vấn và tạo báo cáo. Phần tiếp theo sẽ làm nổi bật sự khác biệt của hai hệ thống một cách chi tiết.

KHO DỮ LIỆU CHỐNG LẠI HỆ THỐNG OLTP

Nhiều hệ thống thông tin trong các tổ chức nhằm hỗ trợ các hoạt động hàng ngày. Các hệ thống này được gọi là HỆ THỐNG OLTP, nắm bắt các giao dịch hàng ngày được cập nhật liên tục.

I dữ liệu trong các hệ thống này, chúng thường được sửa đổi, bổ sung hoặc xóa bỏ. Ví dụ: địa chỉ của khách hàng thay đổi khi anh ta di chuyển từ nơi này sang nơi khác. Trong trường hợp này, địa chỉ mới sẽ được đăng ký bằng cách sửa đổi trường địa chỉ của cơ sở dữ liệu. Mục tiêu chính của các hệ thống này là giảm chi phí giao dịch, đồng thời giảm thời gian xử lý. Ví dụ về Hệ thống OLTP bao gồm các hành động quan trọng như ghi nhật ký đơn hàng, bảng lương, hóa đơn, sản xuất, dịch vụ khách hàng khách hàng.

Không giống như các hệ thống OLTP được tạo ra cho các quy trình dựa trên sự kiện và giao dịch, i kho dữ liệu đã được tạo ra để cung cấp hỗ trợ quy trình dựa trên phân tích dữ liệu và về các quá trình ra quyết định.

Điều này thường đạt được bằng cách tích hợp i dữ liệu từ các OLTP khác nhau và các hệ thống bên ngoài trong một “thùng chứa” duy nhất dữ liệu, như đã thảo luận trong phần trước.

Mô hình quy trình lưu trữ dữ liệu của Monash

Mô hình quy trình cho kho dữ liệu Monash được phát triển bởi các nhà nghiên cứu tại Nhóm nghiên cứu Monash DSS và dựa trên tài liệu của kho dữ liệu, kinh nghiệm trong các lĩnh vực hệ thống hỗ trợ phát triển, thảo luận với các nhà cung cấp ứng dụng để sử dụng trên kho dữ liệu, trên một nhóm các chuyên gia trong việc sử dụng kho dữ liệu.

Các giai đoạn là: Bắt đầu, Lập kế hoạch, Phát triển, Vận hành và Giải thích. Sơ đồ giải thích bản chất lặp đi lặp lại hoặc tiến hóa của việc phát triển một kho dữ liệu xử lý bằng cách sử dụng các mũi tên hai chiều được đặt giữa các giai đoạn khác nhau. Trong bối cảnh này, “lặp đi lặp lại” và “tiến hóa” có nghĩa là, tại mỗi bước của quy trình, các hoạt động triển khai luôn có thể lan truyền ngược trở lại giai đoạn trước. Điều này là do bản chất của một dự án kho dữ liệu trong đó các yêu cầu bổ sung của người dùng cuối xảy ra bất cứ lúc nào. Ví dụ, trong giai đoạn phát triển của một quy trình kho dữ liệuNếu người dùng cuối yêu cầu một kích thước hoặc khu vực đối tượng mới, vốn không nằm trong kế hoạch ban đầu, thì nó phải được thêm vào hệ thống. Điều này gây ra một sự thay đổi trong dự án. Kết quả là nhóm thiết kế phải thay đổi các yêu cầu của các tài liệu được tạo cho đến nay trong giai đoạn thiết kế. Trong nhiều trường hợp, trạng thái hiện tại của dự án phải quay trở lại giai đoạn thiết kế trong đó yêu cầu mới phải được bổ sung và ghi lại. Người dùng cuối phải có thể xem tài liệu cụ thể được xem xét và những thay đổi đã được thực hiện trong giai đoạn phát triển. Vào cuối chu kỳ phát triển này, dự án cần nhận được phản hồi tốt từ cả nhóm phát triển và người dùng. Phản hồi sau đó được tái sử dụng để cải thiện một dự án trong tương lai.

lập kế hoạch công suất
dw có xu hướng có kích thước rất lớn và phát triển rất nhanh (Best 1995, Rudin 1997a) do lượng dữ liệu lịch sử mà họ bảo tồn từ thời gian của họ. Tăng trưởng cũng có thể được gây ra bởi dữ liệu tiện ích bổ sung do người dùng yêu cầu để tăng giá trị của dữ liệu mà họ đã có. Do đó, các yêu cầu lưu trữ cho dữ liệu có thể được tăng cường đáng kể (Eckerson 1997). Vì vậy, bằng cách tiến hành lập kế hoạch năng lực, điều cần thiết là đảm bảo rằng hệ thống được xây dựng có thể phát triển khi nhu cầu tăng lên (Best 1995, LaPlante 1996, Lang 1997, Eckerson 1997, Rudin 1997a, Foley 1997a).
Khi lập kế hoạch cho khả năng mở rộng kho dữ liệu, người ta phải biết mức tăng trưởng dự kiến về quy mô kho, các loại câu hỏi có thể được thực hiện và số lượng người dùng cuối được hỗ trợ (Best 1995, Rudin 1997b, Foley 1997a). Việc xây dựng các ứng dụng có khả năng mở rộng đòi hỏi sự kết hợp giữa các công nghệ máy chủ có khả năng mở rộng và các kỹ thuật thiết kế ứng dụng có thể mở rộng (Best 1995, Rudin 1997b. Cả hai đều cần thiết trong việc xây dựng một ứng dụng có khả năng mở rộng cao. Các công nghệ máy chủ có khả năng mở rộng có thể giúp việc thêm bộ nhớ, bộ nhớ và CPU trở nên dễ dàng và tiết kiệm chi phí mà không cần hiệu suất xuống cấp (Lang 1997, Telephony 1997).

Có hai công nghệ máy chủ có khả năng mở rộng chính: xử lý đa đối xứng (SMP) và xử lý song song ồ ạt (MPP) ) (IDC 1997, Humphries et al. 1999). Một máy chủ SMP thường có nhiều bộ xử lý chia sẻ bộ nhớ, bus hệ thống và các tài nguyên khác (IDC 1997, Humphries et al. 1999). Bộ xử lý bổ sung có thể được thêm vào để tăng cường sức mạnh tính toán. Một phương pháp khác để tăng sức mạnh tính toán của máy chủ SMP, là kết hợp nhiều máy SMP. Kỹ thuật này được gọi là phân cụm (Humphries et al. 1999). Mặt khác, một máy chủ MPP có nhiều bộ xử lý, mỗi bộ xử lý có bộ nhớ riêng, hệ thống bus và các tài nguyên khác (IDC 1997, Humphries et al. 1999). Mỗi bộ xử lý được gọi là một nút. Sự gia tăng trong sức mạnh tính toán có thể thu được

thêm các nút bổ sung vào máy chủ MPP (Humphries et al. 1999).

Một điểm yếu của máy chủ SMP là có quá nhiều hoạt động đầu vào-đầu ra (I/O) có thể làm tắc nghẽn hệ thống xe buýt (IDC 1997). Sự cố này không xảy ra trong các máy chủ MPP vì mỗi bộ xử lý có hệ thống xe buýt riêng. Tuy nhiên, các kết nối giữa mỗi nút thường chậm hơn nhiều so với hệ thống xe buýt SMP. Hơn nữa, các máy chủ MPP có thể bổ sung thêm một lớp phức tạp cho các nhà phát triển ứng dụng (IDC 1997). Do đó, sự lựa chọn giữa máy chủ SMP và MPP có thể bị ảnh hưởng bởi nhiều yếu tố, bao gồm độ phức tạp của ứng dụng, tỷ lệ giá/hiệu suất, thông lượng yêu cầu, ứng dụng dw bị ngăn chặn và sự gia tăng kích thước của máy chủ. cơ sở dữ liệu của dw và số lượng người dùng cuối.

Một số kỹ thuật thiết kế ứng dụng có thể mở rộng có thể được sử dụng trong lập kế hoạch năng lực. Một người sử dụng các khoảng thời gian báo cáo khác nhau như ngày, tuần, tháng và năm. Có nhiều khoảng thời gian thông báo khác nhau, cơ sở dữ liệu có thể được chia thành các nhóm có thể quản lý được (Inmon et al. 1997). Một kỹ thuật khác là sử dụng các bảng tóm tắt được xây dựng bằng cách tóm tắt dữ liệu da dữ liệu chi tiết. Vì vậy, tôi dữ liệu tóm tắt nhỏ gọn hơn chi tiết, đòi hỏi ít dung lượng bộ nhớ hơn. Nên dữ liệu các chi tiết có thể được lưu trữ vào một đơn vị lưu trữ ít tốn kém hơn, giúp tiết kiệm nhiều dung lượng hơn. Mặc dù việc sử dụng bảng tóm tắt có thể tiết kiệm không gian lưu trữ, nhưng chúng đòi hỏi nhiều nỗ lực để cập nhật và phù hợp với nhu cầu kinh doanh. Tuy nhiên, kỹ thuật này được sử dụng rộng rãi và thường được sử dụng cùng với kỹ thuật trước đó (Best 1995, Inmon 1996a, Chauduri và Dayal
1997).

Xác định Kho dữ liệu Kiến trúc kỹ thuật Định nghĩa kỹ thuật kiến trúc dw

Những người đầu tiên sử dụng kho dữ liệu chủ yếu hình dung ra việc triển khai kho dữ liệu tập trung trong đó tất cả dữ liệu, kể cả tôi dữ liệu bên ngoài, được tích hợp thành một,
kho vật lý (Inmon 1996a, Bresnahan 1996, Peacock 1998).

Ưu điểm chính của phương pháp này là người dùng cuối có thể truy cập chế độ xem toàn doanh nghiệp về dữ liệu tổ chức (Ovum 1998). Một điểm cộng nữa là nó cung cấp tiêu chuẩn hóa dữ liệu trong toàn tổ chức, nghĩa là chỉ có một phiên bản hoặc định nghĩa cho mỗi thuật ngữ được sử dụng trong siêu dữ liệu của kho lưu trữ (Flanagan và Safdie 1997, Ovum 1998). Mặt khác, nhược điểm của phương pháp này là tốn kém và khó xây dựng (Flanagan và Safdie 1997, Ovum 1998, Inmon et al. 1998). Không lâu sau kiến trúc lưu trữ dữ liệu tập trung trở nên phổ biến, khái niệm khai thác các tập hợp con nhỏ nhất của các vị thần đã phát triển dữ liệu để hỗ trợ nhu cầu của các ứng dụng cụ thể (Varney 1996, IDC 1997, Berson và Smith 1997, peacock 1998). Những hệ thống nhỏ này có nguồn gốc từ hệ thống lớn hơn kho dữ liệu tập trung. Chúng được đặt tên kho dữ liệu bộ phận nhân viên hoặc mart dữ liệu nhân viên. Kiến trúc mart dữ liệu phụ thuộc được gọi là kiến trúc ba tầng trong đó tầng đầu tiên bao gồm kho dữ liệu tập trung, thứ hai bao gồm tiền gửi của dữ liệu phòng ban và thứ ba bao gồm quyền truy cập vào dữ liệu và bằng các công cụ phân tích (Demarest 1994, Inmon et al. 1997).

Data mart thường được xây dựng sau kho dữ liệu tập trung được xây dựng để đáp ứng nhu cầu của các đơn vị cụ thể (White 1995, Varney 1996).
Cửa hàng Data mart i dữ liệu liên quan đến các đơn vị cụ thể (Inmon et al. 1997, Inmon et al. 1998, IA 1998).

Ưu điểm của phương pháp này là sẽ không có dữ liệu không được tích hợp và tôi dữ liệu sẽ ít dư thừa hơn trong siêu thị dữ liệu vì tất cả dữ liệu đến từ một khoản tiền gửi của dữ liệu tích hợp. Một ưu điểm khác là sẽ có ít liên kết hơn giữa mỗi kho dữ liệu và các nguồn của nó dữ liệu bởi vì mỗi data mart chỉ có một nguồn dữ liệu. Ngoài ra, với kiến trúc này, người dùng cuối vẫn có thể truy cập vào dữ liệu

các tổ chức doanh nghiệp. Phương pháp này được gọi là phương pháp từ trên xuống, trong đó các siêu thị dữ liệu được xây dựng sau khi kho dữ liệu (con công 1998, Goff 1998).
Tăng nhu cầu hiển thị kết quả sớm, một số tổ chức đã bắt đầu xây dựng các siêu thị dữ liệu độc lập (Flanagan và Safdie 1997, White 2000). Trong trường hợp này, các siêu thị dữ liệu lấy dữ liệu của họ dữ liệu ngay từ những điều cơ bản của dữ liệu OLTP và không phải OLTP từ kho lưu trữ tập trung và tích hợp, do đó loại bỏ nhu cầu về kho lưu trữ trung tâm tại chỗ.

Mỗi siêu thị dữ liệu yêu cầu ít nhất một liên kết đến các nguồn của nó dữ liệu. Một nhược điểm của việc có nhiều liên kết đến mỗi siêu thị dữ liệu là, so với hai kiến trúc trước đó, sự dư thừa của dữ liệu tăng lên đáng kể.

Mỗi siêu thị dữ liệu phải lưu trữ tất cả dữ liệu được yêu cầu cục bộ để không ảnh hưởng đến hệ thống OLTP. Điều này khiến tôi dữ liệu chúng được lưu trữ trong các kho dữ liệu khác nhau (Inmon et al. 1997). Một nhược điểm khác của kiến trúc này là nó dẫn đến việc tạo ra các kết nối phức tạp giữa các siêu dữ liệu và nguồn dữ liệu của chúng. dữ liệu khó thực hiện và kiểm soát (Inmon et al. 1997).

Một nhược điểm khác là người dùng cuối có thể không truy cập được tổng quan thông tin công ty vì tôi dữ liệu của các kho dữ liệu khác nhau không được tích hợp (Ovum 1998).
Tuy nhiên, một nhược điểm khác là có thể có nhiều hơn một định nghĩa cho mỗi thuật ngữ được sử dụng trong siêu thị dữ liệu tạo ra sự không nhất quán về dữ liệu. dữ liệu trong tổ chức (Ovum 1998).
Bất chấp những nhược điểm đã thảo luận ở trên, các siêu thị dữ liệu độc lập vẫn thu hút sự quan tâm của nhiều tổ chức (IDC 1997). Một yếu tố khiến chúng trở nên hấp dẫn là chúng phát triển nhanh hơn và cần ít thời gian cũng như nguồn lực hơn (Bresnahan 1996, Berson và Smith 1997, Ovum 1998). Do đó, chúng phục vụ chủ yếu như các thiết kế thử nghiệm có thể được sử dụng để nhanh chóng xác định các lợi ích và/hoặc thiếu sót trong thiết kế (Parsaye 1995, Braly 1995, Newing 1996). Trong trường hợp này, phần được thực hiện trong dự án thử nghiệm phải nhỏ nhưng quan trọng đối với tổ chức (Newing 1996, Mansell-Lewis 1996).

Bằng cách kiểm tra nguyên mẫu, người dùng cuối và ban quản lý có thể quyết định tiếp tục hay dừng dự án (Flanagan và Safdie 1997).
Nếu quyết định tiếp tục, thì nên xây dựng từng kho dữ liệu cho các ngành khác. Có hai tùy chọn cho người dùng cuối dựa trên nhu cầu của họ trong việc xây dựng các cơ sở dữ liệu độc lập: tích hợp/liên kết và không tích hợp (Ovum 1998)

Trong phương pháp đầu tiên, mỗi data mart mới nên được xây dựng dựa trên data mart hiện tại và mô hình dữ liệu được công ty sử dụng (Varney 1996, Berson và Smith 1997, Peacock 1998). Sự cần thiết phải sử dụng mô hình dữ liệu của doanh nghiệp có nghĩa là người ta phải đảm bảo rằng chỉ có một định nghĩa cho mỗi thuật ngữ được sử dụng trên các kho dữ liệu, đồng thời đảm bảo rằng các kho dữ liệu khác nhau có thể được hợp nhất để đưa ra cái nhìn tổng quan về thông tin doanh nghiệp (Bresnahan 1996). Phương pháp này được gọi là phương pháp từ dưới lên và được sử dụng tốt nhất khi có hạn chế về phương tiện tài chính và thời gian (Flanagan và Safdie 1997, Ovum 1998, peacock 1998, Goff 1998). Ở phương pháp thứ hai, data mart được xây dựng chỉ đáp ứng nhu cầu của một đơn vị cụ thể. Một biến thể của siêu thị dữ liệu liên kết là kho dữ liệu được phân phối trong đó cơ sở dữ liệu phần mềm trung gian của máy chủ trung tâm được sử dụng để hợp nhất nhiều kho dữ liệu vào một kho lưu trữ duy nhất dữ liệu phân phối (Trắng 1995). Trong trường hợp này, tôi dữ liệu kinh doanh được phân phối trong một số mart dữ liệu. Yêu cầu của người dùng cuối được chuyển tiếp đến cơ sở dữ liệu phần mềm trung gian máy chủ trung tâm, trích xuất tất cả dữ liệu được yêu cầu bởi các siêu thị dữ liệu và cung cấp kết quả trở lại cho các ứng dụng của người dùng cuối. Phương pháp này cung cấp thông tin doanh nghiệp cho người dùng cuối. Tuy nhiên, các vấn đề về siêu thị dữ liệu độc lập vẫn chưa được loại bỏ. Có một kiến trúc khác có thể được sử dụng được gọi là kho dữ liệu ảo (White 1995). Tuy nhiên, kiến trúc này, được mô tả trong Hình 2.9, không phải là kiến trúc lưu trữ dữ liệu dữ liệu thực vì nó không chuyển tải từ hệ thống OLTP sang kho dữ liệu (Demarest 1994).

Trên thực tế, các yêu cầu về dữ liệu bởi người dùng cuối, chúng được chuyển đến hệ thống OLTP trả về kết quả sau khi xử lý yêu cầu của người dùng. Mặc dù kiến trúc này cho phép người dùng cuối tạo báo cáo và đưa ra yêu cầu nhưng nó không thể cung cấp

dữ liệu lịch sử và tổng quan về thông tin công ty như tôi dữ liệu từ các hệ thống OLTP khác nhau không được tích hợp. Do đó, kiến trúc này không thể đáp ứng được việc phân tích dữ liệu phức tạp như dự báo.

Lựa chọn ứng dụng truy cập và phục hồi dữ liệu

Mục đích xây dựng một kho dữ liệu là truyền tải thông tin đến người dùng cuối (Inmon và cộng sự 1997, Poe 1996, McFadden 1996, Shanks và cộng sự 1997, Hammergren 1998); một hoặc nhiều ứng dụng truy cập và khôi phục dữ liệu phải được cung cấp. Cho đến nay, có rất nhiều loại ứng dụng này mà người dùng có thể lựa chọn (Hammergren 1998, Humphries et al. 1999). Các ứng dụng bạn chọn quyết định sự thành công của nỗ lực lưu kho của bạn dữ liệu trong một tổ chức vì các ứng dụng là phần dễ thấy nhất của kho dữ liệu tới người dùng cuối (Inmon và cộng sự 1997, Poe 1996). Để thành công một kho dữ liệu, phải có khả năng hỗ trợ các hoạt động phân tích của dữ liệu của người dùng cuối (Poe 1996, Seddon và Benjamin 1998, Eckerson 1999). Do đó, “mức độ” của những gì người dùng cuối mong muốn phải được xác định (Poe 1996, Mattison 1996, Inmon và cộng sự 1997, Humphries và cộng sự 1999).

Nhìn chung, người dùng cuối có thể được nhóm thành ba loại: người dùng điều hành, nhà phân tích kinh doanh và người dùng quyền lực (Poe 1996, Humphries et al. 1999). Người dùng cấp cao cần truy cập dễ dàng vào các bộ báo cáo được xác định trước (Humphries và cộng sự 1999). Những tỷ lệ này có thể được truy cập dễ dàng bằng cách điều hướng menu (Poe 1996). Ngoài ra, các báo cáo nên trình bày thông tin bằng cách sử dụng biểu diễn đồ họa như bảng và mẫu để truyền tải thông tin nhanh chóng (Humphries et al. 1999). Các nhà phân tích kinh doanh, những người có thể không có khả năng kỹ thuật để tự mình phát triển báo cáo từ đầu, cần có khả năng sửa đổi các báo cáo hiện tại để đáp ứng nhu cầu cụ thể của họ (Poe 1996, Humphries et al. 1999). Mặt khác, người dùng thành thạo là loại người dùng cuối có khả năng tạo và viết các yêu cầu và báo cáo từ đầu (Poe 1996, Humphries et al. 1999). Họ là những người

họ phát triển các báo cáo cho các loại người dùng khác (Poe 1996, Humphries và cộng sự 1999).

Khi các yêu cầu của người dùng cuối đã được xác định, việc lựa chọn các ứng dụng truy cập và khôi phục phải được thực hiện dữ liệu trong số tất cả những thứ sẵn có (Poe 1996, Inmon và cộng sự 1997).
Truy cập vào dữ liệu và các công cụ truy xuất có thể được phân thành 4 loại: công cụ OLAP, công cụ EIS/DSS, công cụ truy vấn và báo cáo và công cụ khai thác dữ liệu.

Các công cụ OLAP cho phép người dùng tạo các truy vấn đặc biệt cũng như các truy vấn được thực hiện trên cơ sở dữ liệu các kho dữ liệu. Ngoài ra, những sản phẩm này cho phép người dùng xem chi tiết từ dữ liệu cái chung đến cái chi tiết.

Các công cụ EIS/DSS cung cấp báo cáo điều hành như phân tích “điều gì xảy ra nếu” và quyền truy cập vào các báo cáo theo menu. Báo cáo phải được xác định trước và hợp nhất với các menu để điều hướng dễ dàng hơn.
Các công cụ truy vấn và báo cáo cho phép người dùng tạo các báo cáo cụ thể và được xác định trước.

Các công cụ khai thác dữ liệu được sử dụng để xác định các mối quan hệ có thể làm sáng tỏ các hoạt động bị lãng quên trong dữ liệu của kho dữ liệu.

Bên cạnh việc tối ưu hóa yêu cầu của từng loại người dùng, các công cụ được lựa chọn phải trực quan, hiệu quả và dễ sử dụng. Chúng cũng cần phải tương thích với các phần khác của kiến trúc và có thể làm việc với các hệ thống hiện có. Cũng nên chọn các công cụ truy cập và truy xuất dữ liệu với giá cả và hiệu suất hợp lý. Các tiêu chí khác cần xem xét bao gồm cam kết của nhà cung cấp công cụ trong việc hỗ trợ sản phẩm của họ và cách sản phẩm đó sẽ phát triển trong các phiên bản tương lai. Để đảm bảo sự tham gia của người dùng khi sử dụng kho dữ liệu, nhóm phát triển sẽ mời người dùng tham gia vào quá trình lựa chọn công cụ. Trong trường hợp này, việc đánh giá người dùng thực tế nên được thực hiện.

Để nâng cao giá trị của kho dữ liệu, nhóm phát triển cũng có thể cung cấp quyền truy cập web vào kho dữ liệu của họ. Kho dữ liệu hỗ trợ web cho phép người dùng truy cập vào dữ liệu từ những nơi xa xôi hoặc trong khi đi du lịch. Hơn nữa thông tin có thể

được cung cấp với chi phí thấp hơn thông qua việc giảm chi phí đào tạo.

2.4.3 Kho dữ liệu Giai đoạn vận hành

Giai đoạn này bao gồm ba hoạt động: xác định chiến lược làm mới dữ liệu, kiểm soát các hoạt động của kho dữ liệu và quản lý bảo mật kho dữ liệu.

Định nghĩa chiến lược làm mới dữ liệu

Sau lần tải đầu tiên, tôi dữ liệu trong cơ sở dữ liệu của kho dữ liệu phải được làm mới định kỳ để tái tạo những thay đổi được thực hiện đối với chúng dữ liệu bản gốc. Do đó, bạn phải quyết định thời điểm làm mới, tần suất làm mới nên được lên lịch và cách làm mới dữ liệu. dữ liệu. Nên làm mới dữ liệu khi hệ thống có thể được đưa vào chế độ ngoại tuyến. Tần suất làm mới được nhóm phát triển xác định dựa trên yêu cầu của người dùng. Có hai cách tiếp cận để làm mới kho dữ liệu: làm mới hoàn toàn và tải các thay đổi liên tục.

Cách tiếp cận đầu tiên, làm mới hoàn toàn, yêu cầu tải lại tất cả dữ liệu từ đầu. Điều này có nghĩa là tất cả dữ liệu được yêu cầu phải được trích xuất, làm sạch, chuyển đổi và tích hợp vào mỗi lần làm mới. Nên tránh cách tiếp cận này càng nhiều càng tốt vì nó đòi hỏi nhiều thời gian và nguồn lực.

Một cách tiếp cận khác là liên tục tải lên các thay đổi. Điều này thêm tôi dữ liệu đã được thay đổi kể từ chu kỳ làm mới kho dữ liệu cuối cùng. Việc xác định các hồ sơ mới hoặc sửa đổi làm giảm đáng kể số lượng dữ liệu phải được truyền bá đến kho dữ liệu trong mỗi lần cập nhật vì chỉ những dữ liệu sẽ được thêm vào cơ sở dữ liệu của kho dữ liệu.

Có ít nhất 5 cách tiếp cận có thể được sử dụng để rút tiền. dữ liệu mới hoặc sửa đổi. Để có được chiến lược làm mới dữ liệu hiệu quả dữ liệu sự kết hợp của những cách tiếp cận này để nắm bắt được tất cả những thay đổi trong hệ thống có thể hữu ích.

Cách tiếp cận đầu tiên, sử dụng dấu thời gian, giả định rằng tất cả đều được chỉ định dữ liệu đã chỉnh sửa và cập nhật dấu thời gian để bạn có thể dễ dàng xác định tất cả dữ liệu được sửa đổi và mới. Tuy nhiên, cách tiếp cận này chưa được sử dụng rộng rãi trong hầu hết các hệ điều hành ngày nay.
Cách tiếp cận thứ hai là sử dụng tệp delta được tạo bởi một ứng dụng chỉ chứa những thay đổi được thực hiện đối với dữ liệu. Sử dụng tệp này cũng tăng cường chu kỳ cập nhật. Tuy nhiên, ngay cả phương pháp này cũng chưa được sử dụng trong nhiều ứng dụng.
Cách tiếp cận thứ ba là quét tệp nhật ký, về cơ bản chứa thông tin tương tự như tệp delta. Sự khác biệt duy nhất là tệp nhật ký được tạo cho quá trình khôi phục và có thể khó hiểu.
Cách tiếp cận thứ tư là sửa đổi mã ứng dụng. Tuy nhiên, hầu hết mã ứng dụng đều cũ và dễ hỏng; do đó kỹ thuật này nên tránh.
Phương pháp cuối cùng là so sánh dữ liệu nguồn có tệp dei chính dữ liệu.

Kiểm soát hoạt động kho dữ liệu

Khi kho dữ liệu đã được phát hành tới người dùng, nó phải được theo dõi theo thời gian. Trong trường hợp này, người quản trị kho dữ liệu có thể sử dụng một hoặc nhiều công cụ quản lý và kiểm soát để giám sát việc sử dụng kho dữ liệu. Đặc biệt, thông tin có thể được thu thập về con người và thời gian họ truy cập vào kho dữ liệu. Cố lên dữ liệu được thu thập, hồ sơ công việc đã thực hiện có thể được tạo để sử dụng làm đầu vào cho quá trình triển khai yêu cầu bồi hoàn của người dùng. Khoản bồi hoàn cho phép người dùng được thông báo về chi phí xử lý kho dữ liệu.

Hơn nữa, việc kiểm tra kho dữ liệu cũng có thể được sử dụng để xác định các loại truy vấn, quy mô của chúng, số lượng truy vấn mỗi ngày, thời gian phản hồi truy vấn, các lĩnh vực tiếp cận và số lượng truy vấn. dữ liệu xử lý. Một mục đích khác của việc thực hiện kiểm tra kho dữ liệu là xác định dữ liệu những thứ không được sử dụng. Những cái này dữ liệu chúng có thể được loại bỏ khỏi kho dữ liệu để cải thiện thời gian

phản hồi thực hiện truy vấn và theo dõi sự phát triển của dữ liệu cư trú trong cơ sở dữ liệu của kho dữ liệu.

Quản lý bảo mật kho dữ liệu

Một kho dữ liệu chứa dữ liệu tích hợp, quan trọng, nhạy cảm có thể dễ dàng tiếp cận. Vì lý do này, nó cần được bảo vệ khỏi những người dùng trái phép. Một cách để thực hiện bảo mật là sử dụng hàm del DBMS để gán các đặc quyền khác nhau cho các loại người dùng khác nhau. Bằng cách này, hồ sơ truy cập phải được duy trì cho từng loại người dùng. Một cách khác để bảo mật kho dữ liệu là mã hóa nó như được ghi trong cơ sở dữ liệu của kho dữ liệu. Truy cập vào dữ liệu và các công cụ truy xuất phải giải mã dữ liệu trước khi trình bày kết quả cho người dùng.

2.4.4 Kho dữ liệu Giai đoạn triển khai

Đây là giai đoạn cuối cùng trong chu trình triển khai kho dữ liệu. Các hoạt động được thực hiện trong giai đoạn này bao gồm đào tạo người dùng cách sử dụng kho dữ liệu và thực hiện đánh giá kho dữ liệu.

Đào tạo người dùng

Việc đào tạo người dùng phải được thực hiện trước khi truy cập vào dữ liệu của kho dữ liệu và việc sử dụng các công cụ truy xuất. Nói chung, các buổi học nên bắt đầu bằng phần giới thiệu về khái niệm lưu trữ dữ liệu, nội dung của kho dữ liệu, meta dữ liệu và các tính năng cơ bản của công cụ. Sau đó, những người dùng cao cấp hơn cũng có thể nghiên cứu các bảng vật lý và tính năng người dùng của các công cụ truy cập và truy xuất dữ liệu.

Có nhiều cách tiếp cận để thực hiện đào tạo người dùng. Một trong số đó liên quan đến việc lựa chọn nhiều người dùng hoặc nhà phân tích được chọn từ một nhóm người dùng, dựa trên kỹ năng lãnh đạo và giao tiếp của họ. Họ được đào tạo cá nhân về mọi thứ họ cần biết để làm quen với hệ thống. Sau khi đào tạo xong, họ quay lại công việc của mình và bắt đầu dạy những người dùng khác cách sử dụng hệ thống. Trên

Dựa trên những gì họ đã học được, những người dùng khác có thể bắt đầu khám phá kho dữ liệu.
Một cách tiếp cận khác là đào tạo nhiều người dùng cùng lúc, giống như bạn đang tham gia một khóa học trên lớp. Phương pháp này phù hợp khi có nhiều người dùng cần được đào tạo cùng lúc. Tuy nhiên, một phương pháp khác là đào tạo từng người dùng riêng lẻ. Phương pháp này phù hợp khi có ít người dùng.

Mục đích của việc đào tạo người dùng là giúp bạn làm quen với việc truy cập vào dữ liệu và các công cụ truy xuất cũng như nội dung của kho dữ liệu. Tuy nhiên, một số người dùng có thể bị choáng ngợp bởi lượng thông tin được cung cấp trong buổi đào tạo. Vì vậy, cần phải thực hiện một số buổi bồi dưỡng nhất định để được hỗ trợ liên tục và trả lời các câu hỏi cụ thể. Trong một số trường hợp, một nhóm người dùng được thành lập để cung cấp loại hỗ trợ này.

Thu thập phản hồi

Khi kho dữ liệu đã được triển khai, người dùng có thể sử dụng dữ liệu nằm trong kho dữ liệu cho nhiều mục đích khác nhau. Hầu hết, các nhà phân tích hoặc người dùng sử dụng i dữ liệu trong kho dữ liệu cho:

1 Xác định xu hướng của công ty
2 Phân tích hồ sơ mua hàng của khách hàng
3 Chia tôi khách hàng và
4 Cung cấp dịch vụ tốt nhất khách hàng - tùy chỉnh dịch vụ
5 Xây dựng chiến lược tiếp thị
6 Cung cấp báo giá cạnh tranh để phân tích chi phí và giúp kiểm soát
7 Hỗ trợ ra quyết định chiến lược
8 Xác định cơ hội để nổi bật
9 Nâng cao chất lượng quy trình kinh doanh hiện tại
10 Kiểm tra lợi nhuận

Theo định hướng phát triển của kho dữ liệu, hệ thống có thể tiến hành hàng loạt đánh giá để thu thập phản hồi

cả từ nhóm phát triển và cộng đồng người dùng cuối.
Kết quả thu được có thể được xem xét cho chu kỳ phát triển tiếp theo.

Vì kho dữ liệu có cách tiếp cận tăng dần nên điều quan trọng là phải học hỏi từ những thành công và sai lầm của các bước phát triển trước đó.

2.5 Tóm tắt

Trong chương này, các cách tiếp cận có trong tài liệu đã được thảo luận. Trong phần 1, khái niệm kho dữ liệu và vai trò của nó trong khoa học quyết định đã được thảo luận. Phần 2 mô tả sự khác biệt chính giữa kho dữ liệu và hệ thống OLTP. Trong phần 3, chúng ta đã thảo luận về mô hình kho dữ liệu Monash được sử dụng trong phần 4 để mô tả các hoạt động liên quan đến quá trình phát triển kho dữ liệu, những luận điểm này không dựa trên nghiên cứu nghiêm ngặt. Những gì xảy ra trong thực tế có thể rất khác so với những gì tài liệu báo cáo, tuy nhiên những kết quả này có thể được sử dụng để tạo nền tảng cơ bản nhấn mạnh khái niệm kho dữ liệu cho nghiên cứu này.

chương 3

Phương pháp nghiên cứu và thiết kế

Chương này trình bày các phương pháp nghiên cứu và thiết kế cho nghiên cứu này. Phần đầu tiên trình bày cái nhìn tổng quát về các phương pháp nghiên cứu có sẵn để truy xuất thông tin, hơn nữa các tiêu chí để lựa chọn phương pháp tốt nhất cho một nghiên cứu cụ thể cũng sẽ được thảo luận. Trong phần 2, hai phương pháp được chọn với các tiêu chí vừa trình bày sẽ được thảo luận; trong số này, một tiêu chí sẽ được chọn và thông qua với các lý do nêu ở phần 3, trong đó các lý do loại trừ tiêu chí kia cũng được nêu. Phần 4 trình bày thiết kế nghiên cứu và phần 5 kết luận.

3.1 Nghiên cứu về hệ thống thông tin

Nghiên cứu về hệ thống thông tin không chỉ giới hạn ở lĩnh vực công nghệ mà còn phải được mở rộng để bao gồm các mục đích hành vi và tổ chức.
Chúng ta có được điều này nhờ các luận văn của nhiều ngành khác nhau, từ khoa học xã hội đến khoa học tự nhiên; điều này dẫn đến nhu cầu về một loạt các phương pháp nghiên cứu nhất định bao gồm các phương pháp định lượng và định tính được sử dụng cho các hệ thống thông tin.
Tất cả các phương pháp nghiên cứu hiện có đều quan trọng, trên thực tế, một số nhà nghiên cứu như Jenkins (1985), Nunamaker et al. (1991), và Galliers (1992) cho rằng không có phương pháp phổ quát cụ thể nào để tiến hành nghiên cứu trong các lĩnh vực khác nhau của hệ thống thông tin; trên thực tế, một phương pháp có thể phù hợp với một nghiên cứu cụ thể nhưng lại không phù hợp với những nghiên cứu khác. Điều này khiến chúng tôi cần phải chọn một phương pháp phù hợp cho dự án nghiên cứu cụ thể của mình: đối với lựa chọn này Benbasat et al. (1987) nói rằng bản chất và mục đích của nghiên cứu phải được xem xét.

3.1.1 Bản chất của nghiên cứu

Các phương pháp khác nhau dựa trên bản chất của nghiên cứu có thể được phân thành ba truyền thống được biết đến rộng rãi trong khoa học thông tin: nghiên cứu thực chứng, diễn giải và phê bình.

3.1.1.1 Nghiên cứu thực chứng

Nghiên cứu thực chứng còn được gọi là nghiên cứu khoa học hoặc thực nghiệm. Nó tìm cách: “giải thích và dự đoán những gì sẽ xảy ra trong thế giới xã hội bằng cách xem xét các quy luật và mối quan hệ nhân quả giữa các yếu tố cấu thành nên nó” (Shanks et al 1993).

Nghiên cứu thực chứng cũng được đặc trưng bởi khả năng lặp lại, đơn giản hóa và bác bỏ. Hơn nữa, nghiên cứu thực chứng thừa nhận sự tồn tại của mối quan hệ tiên nghiệm giữa các hiện tượng được nghiên cứu.
Theo Galliers (1992), phân loại học là một phương pháp nghiên cứu nằm trong mô hình thực chứng, tuy nhiên không giới hạn ở điều này, trên thực tế còn có các thí nghiệm trong phòng thí nghiệm, thí nghiệm thực địa, nghiên cứu trường hợp, chứng minh các định lý, dự đoán và mô phỏng. Bằng cách sử dụng các phương pháp này, các nhà nghiên cứu thừa nhận rằng các hiện tượng được nghiên cứu có thể được quan sát một cách khách quan và chặt chẽ.

3.1.1.2 Nghiên cứu diễn giải

Nghiên cứu diễn giải, thường được gọi là hiện tượng học hoặc chủ nghĩa phản thực chứng, được Neuman (1994) mô tả là “sự phân tích có hệ thống về ý nghĩa xã hội của hành động thông qua quan sát trực tiếp và chi tiết về con người trong các tình huống tự nhiên, nhằm đạt được sự hiểu biết và đến việc giải thích cách mọi người tạo ra và duy trì thế giới xã hội của họ”. Các nghiên cứu diễn giải bác bỏ giả định rằng các hiện tượng quan sát được có thể được quan sát một cách khách quan. Trên thực tế, chúng dựa trên những diễn giải chủ quan. Hơn nữa, các nhà nghiên cứu diễn giải không áp đặt những ý nghĩa tiên nghiệm lên hiện tượng họ nghiên cứu.

Phương pháp này bao gồm các nghiên cứu chủ quan/tranh luận, nghiên cứu hành động, nghiên cứu mô tả/diễn giải, nghiên cứu trong tương lai và đóng vai. Ngoài các cuộc khảo sát và nghiên cứu trường hợp này có thể được đưa vào phương pháp này vì chúng liên quan đến các nghiên cứu về cá nhân hoặc tổ chức trong các tình huống thực tế phức tạp.

3.1.1.3 Nghiên cứu phê phán

Truy vấn phản biện là phương pháp ít được biết đến nhất trong khoa học xã hội nhưng gần đây đã nhận được sự quan tâm từ các nhà nghiên cứu hệ thống thông tin. Giả định triết học rằng hiện thực xã hội được tạo ra và tái tạo trong lịch sử bởi con người, cũng như các hệ thống xã hội bằng hành động và tương tác của họ. Tuy nhiên, khả năng của họ phụ thuộc vào một số cân nhắc về xã hội, văn hóa và chính trị.

Giống như nghiên cứu diễn giải, nghiên cứu phê phán cho rằng nghiên cứu thực chứng không liên quan gì đến bối cảnh xã hội và bỏ qua ảnh hưởng của nó đối với hành động của con người.
Mặt khác, nghiên cứu phê phán chỉ trích nghiên cứu diễn giải là quá chủ quan và không nhằm mục đích giúp đỡ con người cải thiện cuộc sống. Sự khác biệt lớn nhất giữa nghiên cứu phê bình và hai cách tiếp cận còn lại là khía cạnh đánh giá của nó. Trong khi tính khách quan của các truyền thống thực chứng và diễn giải là dự đoán hoặc giải thích hiện trạng hoặc hiện thực xã hội, nghiên cứu phê phán nhằm mục đích đánh giá một cách phê phán và biến đổi hiện thực xã hội đang được nghiên cứu.

Các nhà nghiên cứu phê phán thường phản đối hiện trạng nhằm xóa bỏ những khác biệt xã hội và cải thiện điều kiện xã hội. Nghiên cứu phê phán cam kết hướng tới một quan điểm quá trình về các hiện tượng được quan tâm và do đó, thường mang tính chiều dọc. Ví dụ về phương pháp nghiên cứu là nghiên cứu lịch sử dài hạn và nghiên cứu dân tộc học. Tuy nhiên, nghiên cứu quan trọng chưa được sử dụng rộng rãi trong nghiên cứu hệ thống thông tin.

3.1.2 Mục đích nghiên cứu

Cùng với bản chất của nghiên cứu, mục đích của nó có thể được sử dụng để hướng dẫn nhà nghiên cứu lựa chọn một phương pháp nghiên cứu cụ thể. Mục đích của một dự án nghiên cứu liên quan chặt chẽ đến vị trí của nghiên cứu trong mối quan hệ với chu trình nghiên cứu bao gồm ba giai đoạn: xây dựng lý thuyết, kiểm tra lý thuyết và sàng lọc lý thuyết. Do đó, dựa trên thời gian của chu kỳ nghiên cứu, một dự án nghiên cứu có thể có mục đích giải thích, mô tả, thăm dò hoặc dự đoán.

3.1.2.1 Nghiên cứu thăm dò

Nghiên cứu khám phá nhằm mục đích điều tra một chủ đề hoàn toàn mới và hình thành các câu hỏi và giả thuyết cho nghiên cứu trong tương lai. Loại nghiên cứu này được sử dụng trong việc xây dựng lý thuyết để có được những tài liệu tham khảo ban đầu trong một lĩnh vực mới. Thông thường, các phương pháp nghiên cứu định tính được sử dụng, chẳng hạn như nghiên cứu trường hợp hoặc nghiên cứu hiện tượng học.

Tuy nhiên, cũng có thể sử dụng các kỹ thuật định lượng như khảo sát thăm dò hoặc thí nghiệm.

3.1.3.3 Nghiên cứu mô tả

Nghiên cứu mô tả nhằm mục đích phân tích và mô tả rất chi tiết một tình huống hoặc thực tiễn tổ chức cụ thể. Điều này phù hợp để xây dựng lý thuyết và cũng có thể được sử dụng để xác nhận hoặc thách thức các giả thuyết. Nghiên cứu mô tả thường bao gồm việc sử dụng các thước đo và mẫu. Các phương pháp nghiên cứu phù hợp nhất bao gồm khảo sát và phân tích tiền đề.

3.1.2.3 Nghiên cứu giải thích

Nghiên cứu giải thích cố gắng giải thích tại sao mọi việc lại xảy ra. Nó được xây dựng trên những sự thật đã được nghiên cứu và cố gắng tìm ra lý do cho những sự thật này.
Vì vậy nghiên cứu giải thích thường được xây dựng trên nghiên cứu thăm dò hoặc nghiên cứu mô tả và là phụ trợ cho việc kiểm tra và hoàn thiện các lý thuyết. Nghiên cứu giải thích thường sử dụng nghiên cứu trường hợp hoặc phương pháp nghiên cứu dựa trên khảo sát.

3.1.2.4 Nghiên cứu phòng ngừa

Nghiên cứu phòng ngừa nhằm mục đích dự đoán các sự kiện và hành vi được quan sát đang được nghiên cứu (Marshall và Rossman 1995). Dự đoán là bài kiểm tra khoa học tiêu chuẩn về sự thật. Loại nghiên cứu này thường sử dụng khảo sát hoặc phân tích dữ liệu các nhà sử học. (Âm 1989)

Cuộc thảo luận ở trên chứng minh rằng có một số phương pháp nghiên cứu khả thi có thể được sử dụng trong một nghiên cứu cụ thể. Tuy nhiên, phải có một phương pháp cụ thể phù hợp hơn các phương pháp khác cho một loại dự án nghiên cứu cụ thể. (Galliers 1987, Yin 1989, De Vaus 1991). Do đó, mỗi nhà nghiên cứu cần đánh giá cẩn thận điểm mạnh và điểm yếu của các phương pháp khác nhau để áp dụng phương pháp nghiên cứu phù hợp nhất, tương thích với dự án nghiên cứu. (Jenkins 1985, Pervan và Klass 1992, Bonomia 1985, Yin 1989, Himilton và Ives 1992).

3.2. Phương pháp nghiên cứu khả thi

Mục tiêu của dự án này là nghiên cứu kinh nghiệm trong các tổ chức của Australia với dữ liệu được lưu trữ với sự phát triển của kho dữ liệu. Do rằng hiện tại còn thiếu nghiên cứu trong lĩnh vực lưu trữ dữ liệu ở Úc, dự án nghiên cứu này vẫn đang trong giai đoạn lý thuyết của chu trình nghiên cứu và có mục đích thăm dò. Khám phá trải nghiệm trong các tổ chức của Úc áp dụng kho dữ liệu đòi hỏi phải giải thích về xã hội thực tế. Do đó, giả định triết học làm cơ sở cho dự án nghiên cứu tuân theo cách giải thích truyền thống.

Sau khi kiểm tra nghiêm ngặt các phương pháp hiện có, hai phương pháp nghiên cứu khả thi đã được xác định: khảo sát và nghiên cứu trường hợp, có thể được sử dụng cho nghiên cứu thăm dò (Shanks et al. 1993). Galliers (1992) lập luận về sự phù hợp của hai phương pháp này đối với nghiên cứu cụ thể này trong phân loại học đã sửa đổi của ông bằng cách nói rằng chúng phù hợp cho việc xây dựng lý thuyết. Hai phần phụ sau đây thảo luận chi tiết về từng phương pháp.

3.2.1 Phương pháp nghiên cứu khảo sát

Phương pháp nghiên cứu khảo sát xuất phát từ phương pháp điều tra dân số cổ xưa. Một cuộc điều tra dân số bao gồm việc thu thập thông tin từ toàn bộ dân số. Phương pháp này tốn kém và không thực tế, đặc biệt nếu dân số đông. Do đó, so với cuộc điều tra dân số, cuộc điều tra thường tập trung vào việc thu thập thông tin về một số lượng nhỏ hoặc mẫu của các đại diện dân số (Fowler 1988, Neuman 1994). Một mẫu phản ánh tổng thể mà nó được rút ra, với các mức độ chính xác khác nhau, tùy thuộc vào cấu trúc mẫu, cỡ mẫu và phương pháp chọn lọc được sử dụng (Fowler 1988, Babbie 1982, Neuman 1994).

Phương pháp khảo sát được định nghĩa là “những bức ảnh chụp nhanh về thực tiễn, tình huống hoặc quan điểm tại một thời điểm cụ thể, được thực hiện bằng cách sử dụng bảng câu hỏi hoặc phỏng vấn, từ đó có thể đưa ra những suy luận”.
được thực hiện” (Galliers 1992:153) [tóm tắt các thực tiễn, tình huống hoặc quan điểm tại một thời điểm cụ thể, được thực hiện bằng cách sử dụng bảng câu hỏi hoặc phỏng vấn, từ đó có thể đưa ra suy luận]. Các cuộc khảo sát xử lý việc thu thập thông tin về một số khía cạnh của nghiên cứu, từ một số lượng người tham gia nhất định, bằng cách đặt câu hỏi (Fowler 1988). Những bảng câu hỏi và phỏng vấn này, bao gồm phỏng vấn trực tiếp qua điện thoại và phỏng vấn có cấu trúc, cũng là những kỹ thuật thu thập thông tin. dữ liệu được sử dụng phổ biến nhất trong các cuộc điều tra (Blalock 1970, Nachmias và Nachmias 1976, Fowler 1988), các quan sát và phân tích có thể được sử dụng (Gable 1994). Trong số tất cả các phương pháp thu thập thông tin này dữ liệu, việc sử dụng bảng câu hỏi là kỹ thuật phổ biến nhất, vì nó đảm bảo rằng tôi dữ liệu

được thu thập có cấu trúc và định dạng, do đó tạo điều kiện thuận lợi cho việc phân loại thông tin (Hwang 1987, de Vaus 1991).

Khi phân tích tôi dữ liệu, một chiến lược điều tra thường sử dụng các kỹ thuật định lượng, chẳng hạn như phân tích thống kê, nhưng các kỹ thuật định tính cũng có thể được sử dụng (Galliers 1992, Pervan

và Klass 1992, Gable 1994). Bình thường tôi dữ liệu được thu thập được sử dụng để phân tích sự phân bố và mô hình liên kết (Fowler 1988).

Mặc dù các cuộc khảo sát nhìn chung thích hợp cho nghiên cứu giải quyết câu hỏi 'cái gì?' (cái gì) hoặc bắt nguồn từ nó, chẳng hạn như 'bao nhiêu' và 'bao nhiêu', chúng có thể được hỏi thông qua câu hỏi 'tại sao' (Sonquist và Dunkelberg 1977, Yin 1989). Theo Sonquist và Dunkelberg (1977), nghiên cứu điều tra nhằm mục đích thách thức các giả thuyết, đánh giá các chương trình, mô tả dân số và phát triển các mô hình hành vi của con người. Hơn nữa, các cuộc khảo sát có thể được sử dụng để nghiên cứu một số ý kiến, điều kiện, ý kiến, đặc điểm, kỳ vọng và thậm chí cả hành vi trong quá khứ hoặc hiện tại của dân chúng (Neuman 1994).

Các cuộc khảo sát cho phép nhà nghiên cứu khám phá các mối quan hệ giữa dân cư và kết quả thường tổng quát hơn các phương pháp khác (Sonquist và Dunkelberg 1977, Gable 1994). Các cuộc khảo sát cho phép các nhà nghiên cứu bao quát một khu vực địa lý rộng lớn hơn và tiếp cận được nhiều người trả lời (Blalock 1970, Sonquist và Dunkelberg 1977, Hwang và Lin 1987, Gable 1994, Neuman 1994). Cuối cùng, các cuộc khảo sát có thể cung cấp thông tin không có sẵn ở nơi nào khác hoặc ở dạng cần thiết để phân tích (Fowler 1988).

Tuy nhiên, có một số hạn chế trong việc thực hiện một cuộc khảo sát. Nhược điểm là người nghiên cứu không thể thu được nhiều thông tin về đối tượng nghiên cứu. Điều này là do thực tế là các cuộc khảo sát chỉ được thực hiện tại một thời điểm cụ thể và do đó, có rất ít biến số và con người mà nhà nghiên cứu có thể tiếp cận.

nghiên cứu (Yin 1989, de Vaus 1991, Gable 1994, Denscombe 1998). Một bất lợi khác là việc thực hiện một cuộc khảo sát có thể rất tốn kém về thời gian và nguồn lực, đặc biệt nếu nó liên quan đến các cuộc phỏng vấn trực tiếp (Fowler 1988).

3.2.2. Phương pháp nghiên cứu điều tra

Phương pháp nghiên cứu điều tra bao gồm nghiên cứu chuyên sâu về một tình huống cụ thể trong bối cảnh thế giới thực của nó trong một khoảng thời gian xác định mà không có bất kỳ sự can thiệp nào từ phía nhà nghiên cứu (Shanks & C. 1993, Eisenhardt 1989, Jenkins 1985). Phương pháp này chủ yếu được sử dụng để mô tả mối quan hệ giữa các biến số đang được nghiên cứu trong một tình huống cụ thể (Galliers 1992). Các cuộc điều tra có thể liên quan đến một hoặc nhiều vụ án, tùy thuộc vào hiện tượng được phân tích (Franz và Robey 1987, Eisenhardt 1989, Yin 1989).

Phương pháp nghiên cứu điều tra được định nghĩa là “một phương pháp điều tra thực nghiệm nghiên cứu một hiện tượng đương đại trong bối cảnh thực tế của nó, sử dụng nhiều nguồn được thu thập từ một hoặc nhiều thực thể như con người, nhóm hoặc tổ chức” (Yin 1989). Không có sự tách biệt rõ ràng giữa hiện tượng và bối cảnh của nó và không có sự kiểm soát hoặc thao túng bằng thực nghiệm đối với các biến số (Yin 1989, Benbasat et al. 1987).

Có nhiều kỹ thuật khác nhau để thu thập thông tin dữ liệu có thể được sử dụng trong phương pháp điều tra, bao gồm quan sát trực tiếp, xem xét hồ sơ lưu trữ, bảng câu hỏi, xem xét tài liệu và phỏng vấn có cấu trúc. Có nhiều kỹ thuật thu hoạch đa dạng dữ liệu, các cuộc điều tra cho phép các nhà nghiên cứu giải quyết cả hai vấn đề dữ liệu đồng thời định tính và định lượng (Bonoma 1985, Eisenhardt 1989, Yin 1989, Gable 1994). Giống như trường hợp của phương pháp khảo sát, nhà nghiên cứu khảo sát đóng vai trò là người quan sát hoặc nhà nghiên cứu chứ không phải là người tham gia tích cực vào tổ chức đang được nghiên cứu.

Benbasat và cộng sự (1987) khẳng định rằng phương pháp điều tra đặc biệt phù hợp để xây dựng lý thuyết nghiên cứu, bắt đầu bằng một câu hỏi nghiên cứu và tiếp tục với giáo dục.

của lý thuyết trong quá trình thu thập dữ liệu. Cũng phù hợp với sân khấu

về xây dựng lý thuyết, Franz và Robey (1987) gợi ý rằng phương pháp điều tra cũng có thể được sử dụng cho giai đoạn lý thuyết phức tạp. Trong trường hợp này, dựa trên bằng chứng thu thập được, một lý thuyết hoặc giả thuyết nhất định sẽ được xác minh hoặc bác bỏ. Ngoài ra, cuộc khảo sát cũng phù hợp cho nghiên cứu giải quyết các câu hỏi “như thế nào” hoặc “tại sao” (Yin 1989).

So với các phương pháp khác, khảo sát cho phép nhà nghiên cứu nắm bắt thông tin cần thiết một cách chi tiết hơn (Galliers 1992, Shanks et al. 1993). Hơn nữa, các cuộc khảo sát cho phép nhà nghiên cứu hiểu được bản chất và sự phức tạp của các quá trình được nghiên cứu (Benbasat và cộng sự 1987).

Có bốn nhược điểm chính liên quan đến phương pháp khảo sát. Đầu tiên là thiếu các khoản khấu trừ có kiểm soát. Tính chủ quan của người nghiên cứu có thể làm thay đổi kết quả và kết luận của nghiên cứu (Yin 1989). Nhược điểm thứ hai là thiếu sự quan sát có kiểm soát. Không giống như các phương pháp thử nghiệm, nhà nghiên cứu điều tra không thể kiểm soát các hiện tượng được nghiên cứu khi chúng được xem xét trong bối cảnh tự nhiên của chúng (Gable 1994). Nhược điểm thứ ba là thiếu khả năng nhân rộng. Điều này là do nhà nghiên cứu khó có thể quan sát được những sự kiện tương tự và không thể xác minh kết quả của một nghiên cứu cụ thể (Lee 1989). Cuối cùng, do tính không thể lặp lại nên khó có thể khái quát hóa các kết quả thu được từ một hoặc nhiều cuộc điều tra (Galliers 1992, Shanks et al 1993). Tuy nhiên, tất cả những vấn đề này không phải là không thể khắc phục được và trên thực tế, nhà nghiên cứu có thể giảm thiểu bằng cách áp dụng các hành động thích hợp (Lee 1989).

3.3. Chứng minh phương pháp nghiên cứu con nuôi

Trong số hai phương pháp nghiên cứu có thể áp dụng cho nghiên cứu này, phương pháp khảo sát được coi là phù hợp nhất. Cuộc điều tra đã bị hủy bỏ sau khi xem xét cẩn thận những vấn đề liên quan

ưu điểm và điểm yếu. Sự phù hợp hoặc không phù hợp của từng phương pháp cho nghiên cứu này sẽ được thảo luận dưới đây.

3.3.1. Sự không phù hợp của phương pháp nghiên cứu điều tra

Phương pháp điều tra yêu cầu nghiên cứu chuyên sâu về một tình huống cụ thể trong một hoặc nhiều tổ chức trong một khoảng thời gian (Eisenhardt 1989). Trong trường hợp này, khoảng thời gian có thể vượt quá khung thời gian được đưa ra cho nghiên cứu này. Một lý do khác để không áp dụng phương pháp khảo sát là kết quả có thể thiếu tính chính xác (Yin 1989). Tính chủ quan của người nghiên cứu có thể ảnh hưởng đến kết quả và kết luận. Một lý do khác là phương pháp này phù hợp hơn cho việc nghiên cứu các câu hỏi dạng 'như thế nào' hoặc 'tại sao' (Yin 1989), trong khi câu hỏi nghiên cứu cho nghiên cứu này thuộc loại 'cái gì'. Cuối cùng nhưng không kém phần quan trọng, rất khó để khái quát hóa các phát hiện chỉ từ một hoặc một vài cuộc điều tra (Galliers 1992, Shanks et al. 1993). Dựa trên lý do này, phương pháp nghiên cứu khảo sát đã không được chọn vì nó không phù hợp với nghiên cứu này.

3.3.2. Sự thuận tiện của phương pháp tìm kiếm khảo sát

Khi nghiên cứu này được thực hiện, việc lưu trữ dữ liệu chưa được các tổ chức của Úc áp dụng rộng rãi. Vì vậy, không có nhiều thông tin liên quan đến việc triển khai chúng trong các tổ chức của Úc. Thông tin sẵn có đến từ các tổ chức đã triển khai hoặc sử dụng một kho dữ liệu. Trong trường hợp này, phương pháp nghiên cứu khảo sát là phù hợp nhất vì nó cho phép thu được thông tin không có ở nơi nào khác hoặc ở dạng cần thiết để phân tích (Fowler 1988). Ngoài ra, phương pháp nghiên cứu khảo sát cho phép nhà nghiên cứu có được cái nhìn sâu sắc về thực tiễn, tình huống hoặc quan điểm tại một thời điểm cụ thể (Galliers 1992, Denscombe 1998). Cần có cái nhìn tổng quan để nâng cao kiến thức về trải nghiệm lưu trữ dữ liệu của Úc.

Hơn nữa, Sonquist và Dunkelberg (1977) cho rằng kết quả nghiên cứu khảo sát mang tính tổng quát hơn các phương pháp khác.

3.4. Thiết kế nghiên cứu khảo sát

Cuộc khảo sát về thực tiễn lưu trữ dữ liệu được thực hiện vào năm 1999. Đối tượng mục tiêu bao gồm các tổ chức của Úc quan tâm đến nghiên cứu về kho dữ liệu, vì họ có thể đã được thông báo về dữ liệu mà họ lưu trữ và do đó có thể cung cấp thông tin hữu ích cho nghiên cứu này. Nhóm mục tiêu được xác định thông qua cuộc khảo sát ban đầu với tất cả các thành viên người Úc của Viện Kho dữ liệu (Tdwi-aap). Phần này thảo luận về việc thiết kế giai đoạn nghiên cứu thực nghiệm của nghiên cứu này.

3.4.1. Kỹ thuật thu hoạch dữ liệu

Từ ba kỹ thuật thường được sử dụng trong nghiên cứu khảo sát (tức là bảng câu hỏi qua thư, phỏng vấn qua điện thoại và phỏng vấn cá nhân) (Nachmias 1976, Fowler 1988, de Vaus 1991), bảng câu hỏi qua thư đã được áp dụng cho nghiên cứu này. Lý do đầu tiên để áp dụng phương pháp thứ hai là nó có thể tiếp cận nhóm dân cư phân tán về mặt địa lý (Blalock 1970, Nachmias và Nachmias 1976, Hwang và Lin 1987, de Vaus 1991, Gable 1994). Thứ hai, bảng câu hỏi qua thư phù hợp với những người tham gia có trình độ học vấn cao (Fowler 1988). Bảng câu hỏi qua thư cho nghiên cứu này được gửi đến các nhà tài trợ dự án kho dữ liệu, giám đốc và/hoặc người quản lý dự án. Thứ ba, bảng câu hỏi qua thư sẽ phù hợp khi có sẵn danh sách gửi thư an toàn (Salant và Dilman 1994). TDWI, trong trường hợp này, một hiệp hội lưu trữ dữ liệu đáng tin cậy đã cung cấp danh sách gửi thư của các thành viên người Úc. Một ưu điểm khác của bảng câu hỏi qua thư so với bảng câu hỏi qua điện thoại hoặc phỏng vấn cá nhân là nó cho phép người trả lời trả lời chính xác hơn, đặc biệt khi người trả lời phải tham khảo các ghi chú hoặc thảo luận câu hỏi với người khác (Fowler 1988).

Một bất lợi tiềm ẩn có thể là thời gian cần thiết để thực hiện các câu hỏi qua thư. Thông thường, một cuộc khảo sát qua thư được tiến hành theo trình tự sau: gửi thư, chờ phản hồi và gửi xác nhận (Fowler 1988, Bainbridge 1989). Vì vậy, tổng thời gian có thể dài hơn thời gian cần thiết cho các cuộc phỏng vấn cá nhân hoặc phỏng vấn qua điện thoại. Tuy nhiên, tổng thời gian có thể được biết trước (Fowler 1988, Denscombe 1998). Không thể biết trước thời gian dành cho việc thực hiện các cuộc phỏng vấn cá nhân vì nó thay đổi tùy theo từng cuộc phỏng vấn (Fowler 1988). Phỏng vấn qua điện thoại có thể nhanh hơn so với bảng câu hỏi qua đường bưu điện và phỏng vấn cá nhân nhưng có thể có tỷ lệ không phản hồi cao do không có mặt một số người (Fowler 1988). Ngoài ra, các cuộc phỏng vấn qua điện thoại thường chỉ giới hạn ở những danh sách câu hỏi tương đối ngắn (Bainbridge 1989).

Một điểm yếu khác của bảng câu hỏi qua thư là tỷ lệ không phản hồi cao (Fowler 1988, Bainbridge 1989, Neuman 1994). Tuy nhiên, các biện pháp đối phó đã được thực hiện bằng cách liên kết nghiên cứu này với một tổ chức lưu trữ dữ liệu đáng tin cậy (tức là TDWI) (Bainbridge 1989, Neuman 1994), tổ chức này sẽ gửi hai lá thư nhắc nhở tới những người không phản hồi (Fowler 1988, Neuman 1994) và cũng bao gồm một lá thư bổ sung. giải thích mục đích của nghiên cứu (Neuman 1994).

3.4.2. Đơn vị phân tích

Mục đích của nghiên cứu này là thu thập thông tin về việc triển khai kho dữ liệu và việc sử dụng nó trong các tổ chức của Úc. Đối tượng mục tiêu bao gồm tất cả các tổ chức của Úc đã hoặc đang triển khai, kho dữ liệu. Các tổ chức cá nhân sau đó được đăng ký dưới tên. Bảng câu hỏi được gửi qua đường bưu điện đến các tổ chức quan tâm đến việc áp dụng kho dữ liệu. Phương pháp này đảm bảo rằng thông tin được thu thập đến từ các nguồn phù hợp nhất của mỗi tổ chức tham gia.

3.4.3. Mẫu khảo sát

“Danh sách gửi thư” của những người tham gia khảo sát được lấy từ TDWI. Từ danh sách này, 3000 tổ chức của Úc đã được chọn làm cơ sở để lấy mẫu. Một lá thư bổ sung giải thích về dự án và mục đích của cuộc khảo sát, cùng với phiếu trả lời và phong bì trả trước để gửi lại bảng câu hỏi đã hoàn thành đã được gửi đến mẫu. Trong số 3000 tổ chức, có 198 tổ chức đồng ý tham gia nghiên cứu. Dự kiến sẽ có một số lượng nhỏ phản hồi như vậy dữ liệu số lượng lớn các tổ chức của Úc khi đó đã hoặc đang áp dụng chiến lược lưu trữ dữ liệu trong tổ chức của họ. Vì vậy, đối tượng mục tiêu của nghiên cứu này chỉ bao gồm 198 tổ chức.

3.4.4. Nội dung của bảng câu hỏi

Cấu trúc của bảng câu hỏi dựa trên mô hình kho dữ liệu Monash (đã thảo luận trước đó trong phần 2.3). Nội dung của bảng câu hỏi dựa trên phân tích tài liệu được trình bày trong chương 2. Bản sao của bảng câu hỏi gửi cho những người tham gia khảo sát có thể được tìm thấy trong Phụ lục B. Bảng câu hỏi bao gồm sáu phần, tuân theo các giai đoạn của mô hình được đề cập. Sáu đoạn văn sau đây tóm tắt ngắn gọn nội dung của từng phần.

Phần A: Thông tin cơ bản về tổ chức
Phần này chứa các câu hỏi liên quan đến hồ sơ của các tổ chức tham gia. Ngoài ra, một số câu hỏi có liên quan đến trạng thái dự án lưu trữ dữ liệu của người tham gia. Thông tin bí mật như tên của tổ chức không được tiết lộ trong phân tích khảo sát.

Phần B: Bắt đầu
Các câu hỏi trong phần này liên quan đến nhiệm vụ bắt đầu lưu trữ dữ liệu. Các câu hỏi được đặt ra liên quan đến người khởi xướng dự án, người bảo lãnh, kỹ năng và kiến thức cần thiết, mục tiêu phát triển kho dữ liệu và kỳ vọng của người dùng cuối.

Phần C: Thiết kế
Phần này chứa các câu hỏi liên quan đến hoạt động lập kế hoạch kho dữ liệu. Đặc biệt, các câu hỏi liên quan đến phạm vi thực hiện, thời gian thực hiện dự án, chi phí của dự án và phân tích chi phí/lợi ích.

Phần D: Phát triển
Trong phần phát triển có các câu hỏi liên quan đến hoạt động phát triển của kho dữ liệu: tập hợp các yêu cầu của người dùng cuối, nguồn của dữ liệu, mô hình logic của dữ liệu, nguyên mẫu, lập kế hoạch năng lực, kiến trúc kỹ thuật và lựa chọn các công cụ phát triển kho dữ liệu.

Phần E: Vận hành
Các câu hỏi vận hành liên quan đến hoạt động và khả năng mở rộng của kho dữ liệu, nó phát triển như thế nào trong giai đoạn phát triển tiếp theo. Ở đó chất lượng dữ liệu, các chiến lược làm mới của dữ liệu, độ chi tiết của dữ liệu, khả năng mở rộng của kho dữ liệu và các vấn đề an ninh của kho dữ liệu nằm trong số các loại câu hỏi được hỏi.

Phần F: Phát triển
Phần này bao gồm các câu hỏi liên quan đến việc sử dụng kho dữ liệu bởi người dùng cuối. Người nghiên cứu quan tâm đến mục đích và tính hữu ích của kho dữ liệu, các chiến lược đánh giá và đào tạo được áp dụng cũng như chiến lược kiểm soát kho dữ liệu con nuôi.

3.4.5. Tỷ lệ phản hồi

Mặc dù các cuộc khảo sát qua thư bị chỉ trích vì có tỷ lệ phản hồi thấp nhưng các biện pháp đã được thực hiện để tăng tỷ lệ phản hồi (như đã thảo luận trước đó trong phần 3.4.1). Thuật ngữ 'tỷ lệ phản hồi' đề cập đến phần trăm số người trong một mẫu khảo sát cụ thể trả lời bảng câu hỏi (Denscombe 1998). Công thức sau đây được sử dụng để tính tỷ lệ phản hồi cho nghiên cứu này:

Số người đã phản hồi
Tỷ lệ phản hồi = ——————————————————————————— X 100 Tổng số phiếu đã gửi

3.4.6. Kiểm tra phi công

Trước khi gửi bảng hỏi đến mẫu, các câu hỏi đã được kiểm tra bằng cách thực hiện các thử nghiệm thí điểm, theo đề xuất của Luck và Rubin (1987), Jackson (1988) và de Vaus (1991). Mục đích của các bài kiểm tra thí điểm là để phát hiện bất kỳ cách diễn đạt và câu hỏi khó xử, mơ hồ, khó diễn giải, làm rõ mọi định nghĩa và thuật ngữ được sử dụng và xác định khoảng thời gian cần thiết để hoàn thành bảng câu hỏi (Warwick và Lininger 1975, Jackson 1988, Salant và Dilman 1994). Các thử nghiệm thí điểm được thực hiện bằng cách chọn các đối tượng có đặc điểm tương tự như đặc điểm của các đối tượng cuối cùng, theo đề xuất của Davis e Cosenza (1993). Trong nghiên cứu này, sáu chuyên gia lưu trữ dữ liệu đã được chọn làm đối tượng thí điểm. Sau mỗi lần thử nghiệm thí điểm, những chỉnh sửa cần thiết đã được thực hiện. Từ các thử nghiệm thí điểm được thực hiện, những người tham gia đã góp phần định hình lại và thiết lập lại phiên bản cuối cùng của bảng câu hỏi.

3.4.7. Phương pháp phân tích theo Cho

I dữ liệu Các cuộc khảo sát thu thập từ bảng câu hỏi đóng được phân tích bằng gói chương trình thống kê có tên là SPSS. Nhiều câu trả lời được phân tích bằng cách sử dụng số liệu thống kê mô tả. Một số bảng câu hỏi được trả về không đầy đủ. Chúng được xử lý cẩn thận hơn để đảm bảo rằng tôi dữ liệu thiếu không phải do lỗi nhập dữ liệu mà do câu hỏi không phù hợp với người đăng ký hoặc người đăng ký quyết định không trả lời một hoặc nhiều câu hỏi cụ thể. Những phản hồi còn thiếu này đã bị bỏ qua trong quá trình phân tích dữ liệu và được mã hóa là '- 9' để đảm bảo loại trừ chúng khỏi quá trình phân tích.

Khi chuẩn bị bảng câu hỏi, các câu hỏi đóng được mã hóa trước bằng cách gán một số cho mỗi phương án. Con số này sau đó được sử dụng để chuẩn bị dữ liệu trong quá trình phân tích (Denscombe 1998, Sapsford và Jupp 1996). Ví dụ: có sáu lựa chọn được liệt kê trong câu hỏi 1 của phần B: hội đồng quản trị, giám đốc điều hành cấp cao, bộ phận CNTT, đơn vị kinh doanh, chuyên gia tư vấn và những người khác. Trong tập tin của dữ liệu của SPSS, một biến được tạo ra để chỉ ra 'người khởi xướng dự án', với sáu nhãn giá trị: '1' cho 'ban giám đốc', '2' cho 'giám đốc điều hành cấp cao', v.v. Việc sử dụng thang đo Likertin trong một số câu hỏi đóng cũng cho phép nhận dạng dễ dàng nhờ sử dụng các giá trị số tương ứng được nhập vào SPSS. Đối với các câu hỏi có câu trả lời không đầy đủ, không loại trừ lẫn nhau, mỗi tùy chọn được coi là một biến duy nhất có hai nhãn giá trị: '1' cho 'được đánh dấu' và '2' cho 'không được đánh dấu'.

Câu hỏi mở được xử lý khác với câu hỏi đóng. Câu trả lời cho những câu hỏi này không được nhập vào SPSS. Thay vào đó, chúng được phân tích bằng tay. Việc sử dụng loại câu hỏi này cho phép chúng ta thu được thông tin về những ý tưởng và trải nghiệm cá nhân được bày tỏ một cách thoải mái (Bainbridge 1989, Denscombe 1998). Nếu có thể, việc phân loại các câu trả lời sẽ được thực hiện.

Để phân tích dữ liệu, các phương pháp phân tích thống kê đơn giản được sử dụng, chẳng hạn như tần số đáp ứng, giá trị trung bình, độ lệch chuẩn và trung vị (Argyrous 1996, Denscombe 1998).
Thử nghiệm Gamma đã hoạt động tốt để thu được các thước đo định lượng về mối liên hệ giữa dữ liệu thứ tự (Norusis 1983, Argyrous 1996). Những thử nghiệm này phù hợp vì thang đo thứ tự được sử dụng không có nhiều loại và có thể được trình bày dưới dạng bảng (Norusis 1983).

3.5 Tóm tắt

Trong chương này, phương pháp nghiên cứu và thiết kế được áp dụng cho nghiên cứu này đã được thảo luận.

Việc lựa chọn phương pháp nghiên cứu thích hợp nhất cho một nghiên cứu cụ thể có tính đến
xem xét một số quy tắc, bao gồm bản chất và loại hình nghiên cứu, cũng như ưu điểm và điểm yếu của từng phương pháp khả thi (Jenkins 1985, Benbasat et al. 1097, Galliers and Land 1987, Yin 1989, Hamilton và Ives 1992, Galliers 1992, Neuman 1994). Do thiếu kiến thức và lý thuyết hiện có về việc áp dụng kho dữ liệu ở Úc, nghiên cứu này yêu cầu một phương pháp nghiên cứu diễn giải với khả năng khám phá để khám phá kinh nghiệm của các tổ chức Úc. Phương pháp nghiên cứu được chọn đã được chọn để thu thập thông tin liên quan đến việc áp dụng khái niệm lưu trữ dữ liệu của các tổ chức Úc. Phương pháp thu thập bảng câu hỏi qua đường bưu điện được chọn dữ liệu. Biện minh cho phương pháp nghiên cứu và kỹ thuật thu thập dữ liệu được chọn sẽ được cung cấp trong chương này. Hơn nữa, một cuộc thảo luận đã được trình bày về đơn vị phân tích, mẫu được sử dụng, tỷ lệ phần trăm câu trả lời, nội dung của bảng câu hỏi, việc kiểm tra trước bảng câu hỏi và phương pháp phân tích câu hỏi. dữ liệu.

Thiết kế một Kho dữ liệu:

Kết hợp mối quan hệ thực thể và mô hình hóa thứ nguyên

TÓM TẮT
Lưu trữ tôi dữ liệu là vấn đề quan trọng hiện nay đối với nhiều tổ chức. Một vấn đề quan trọng trong việc phát triển bộ nhớ máy tính dữ liệu đó là thiết kế của anh ấy
Thiết kế phải hỗ trợ việc phát hiện các khái niệm trong kho dữ liệu vào hệ thống kế thừa và các nguồn khác của dữ liệu và cũng dễ hiểu và hiệu quả trong việc thực hiện kho dữ liệu.
Phần lớn tài liệu lưu trữ của dữ liệu khuyến nghị sử dụng mô hình mối quan hệ thực thể hoặc mô hình chiều để thể hiện thiết kế của kho dữ liệu.
Trong bài viết này, chúng tôi trình bày cách kết hợp cả hai cách biểu diễn theo một cách tiếp cận để vẽ kho dữ liệu. Cách tiếp cận được sử dụng có tính hệ thống

được xem xét trong một nghiên cứu điển hình và được xác định có một số ý nghĩa quan trọng đối với những người thực hành.

KHO DỮ LIỆU

Un kho dữ liệu nó thường được định nghĩa là “bộ sưu tập dữ liệu theo định hướng chủ đề, tích hợp, thay đổi theo thời gian và không thay đổi để hỗ trợ các quyết định của ban quản lý” (Inmon và Hackathorn, 1994). Định hướng chủ đề và tích hợp chỉ ra rằng kho dữ liệu được thiết kế để vượt qua ranh giới chức năng của hệ thống Legaci nhằm mang đến một góc nhìn tích hợp về dữ liệu.
Biến thể thời gian ảnh hưởng đến bản chất lịch sử hoặc chuỗi thời gian của dữ liệu trong một kho dữ liệu, cho phép phân tích các xu hướng. Không biến động chỉ ra rằng kho dữ liệu nó không được cập nhật liên tục như một cơ sở dữ liệu của OLTP. Thay vào đó nó được cập nhật định kỳ, với dữ liệu đến từ các nguồn bên trong và bên ngoài. Các kho dữ liệu nó được thiết kế đặc biệt để tìm kiếm thay vì cập nhật tính toàn vẹn và hiệu suất hoạt động.
Ý tưởng lưu trữ tôi dữ liệu không phải là mới, nó là một trong những mục đích quản lý của dữ liệu kể từ những năm sáu mươi (The Martin, 1982).
I kho dữ liệu họ cung cấp cơ sở hạ tầng dữ liệu cho hệ thống hỗ trợ quản lý. Hệ thống hỗ trợ quản lý bao gồm hệ thống hỗ trợ quyết định (DSS) và hệ thống thông tin điều hành (EIS). DSS là một hệ thống thông tin dựa trên máy tính được thiết kế để cải thiện việc ra quyết định của con người. EIS thường là một hệ thống phân phối dữ liệu cho phép các nhà lãnh đạo doanh nghiệp dễ dàng tiếp cận quan điểm của dữ liệu.
Kiến trúc chung của một kho dữ liệu nêu bật vai trò của kho dữ liệu trong việc hỗ trợ quản lý. Đồng thời cung cấp cơ sở hạ tầng dữ liệu cho EIS và DSS, al kho dữ liệu nó có thể được truy cập trực tiếp thông qua các truy vấn. CÁC dữ liệu bao gồm trong một kho dữ liệu dựa trên phân tích các yêu cầu thông tin quản lý và được lấy từ ba nguồn: hệ thống kế thừa nội bộ, hệ thống thu thập dữ liệu cho mục đích đặc biệt và nguồn dữ liệu bên ngoài. CÁC dữ liệu trong các hệ thống kế thừa nội bộ, chúng thường dư thừa, không nhất quán, chất lượng thấp và được lưu trữ ở các định dạng khác nhau nên chúng phải được đối chiếu và làm sạch trước khi có thể tải vào hệ thống.

kho dữ liệu (Inmon, 1992; McFadden, 1996). CÁC dữ liệu đến từ hệ thống lưu trữ dữ liệu đặc biệt và từ các nguồn dữ liệu bên ngoài thường được sử dụng để tăng cường (cập nhật, thay thế) i dữ liệu từ các hệ thống cũ.

Có rất nhiều lý do thuyết phục để phát triển một kho dữ liệu, bao gồm việc cải thiện việc ra quyết định thông qua việc sử dụng hiệu quả nhiều thông tin hơn (Ives 1995), hỗ trợ tập trung vào toàn bộ giao dịch (Graham 1996) và giảm bớt chi phí dữ liệu cho EIS và DSS (Graham 1996, McFadden 1996).

Một nghiên cứu thực nghiệm gần đây cho thấy, tính trung bình, lợi tức đầu tư cho kho dữ liệu tới 401% sau ba năm (Graham, 1996). Tuy nhiên, các nghiên cứu thực nghiệm khác của kho dữ liệu phát hiện ra những vấn đề quan trọng bao gồm khó khăn trong việc đo lường và phân bổ lợi ích, thiếu mục đích rõ ràng, đánh giá thấp mục đích và mức độ phức tạp của quá trình lưu trữ lợi ích dữ liệu, đặc biệt là về nguồn gốc và độ sạch của dữ liệu. Lưu trữ tôi dữ liệu có thể được coi là một giải pháp cho vấn đề quản lý dữ liệu giữa các tổ chức. Sự thao túng của dữ liệu với tư cách là một nguồn lực xã hội, nó vẫn là một trong những vấn đề chính trong việc quản lý hệ thống thông tin trên toàn thế giới trong nhiều năm (Brancheau và cộng sự 1996, Galliers và cộng sự 1994, Niederman và cộng sự 1990, Pervan 1993).

Một phương pháp phổ biến để quản lý dữ liệu vào những năm tám mươi đó là sự phát triển của một mô hình dữ liệu xã hội. Người mẫu dữ liệu social được thiết kế để cung cấp nền tảng ổn định cho sự phát triển của các hệ thống ứng dụng mới và cơ sở dữ liệu và việc xây dựng lại và tích hợp các hệ thống cũ (Brancheau et al.

1989, Goodhue và cộng sự. 1988:1992, Kim và Everest 1994). Tuy nhiên, có nhiều vấn đề với cách tiếp cận này, đặc biệt là độ phức tạp và chi phí của từng nhiệm vụ cũng như thời gian dài cần thiết để tạo ra kết quả rõ ràng (Beynon-Davies 1994, Earl 1993, Goodhue et al. 1992, Periasamy 1994, Shanks 1997 ).

Il kho dữ liệu nó là một cơ sở dữ liệu riêng biệt cùng tồn tại với cơ sở dữ liệu cũ thay vì thay thế chúng. Do đó, nó cho phép bạn chỉ đạo việc quản lý dữ liệu và tránh việc xây dựng lại các hệ thống cũ tốn kém.

CÁC PHƯƠNG PHÁP TIẾP CẬN HIỆN CÓ VỀ THIẾT KẾ DỮ LIỆU

Nhà kho

Quá trình xây dựng và hoàn thiện một kho dữ liệu nó nên được hiểu nhiều hơn như một quá trình tiến hóa hơn là một vòng đời phát triển của các hệ thống truyền thống (Khao khát, 1995, Shanks, O'Donnell và Arnott 1997a ). Có nhiều quy trình liên quan đến một dự án kho dữ liệu chẳng hạn như khởi tạo, lập kế hoạch; thông tin có được theo yêu cầu của người quản lý công ty; nguồn, biến đổi, làm sạch dữ liệu và đồng bộ hóa từ các hệ thống cũ và các nguồn khác dữ liệu; hệ thống phân phối đang phát triển; giám sát kho dữ liệu; và sự vô nghĩa của quá trình tiến hóa và việc xây dựng một kho dữ liệu (Stinchi, O'Donnell và Arnott 1997b). Trong tạp chí này, chúng tôi tập trung vào cách vẽ dữ liệu được lưu trữ trong bối cảnh của các quá trình khác này. Có một số phương pháp tiếp cận kiến trúc được đề xuất kho dữ liệu trong văn học (Inmon 1994, Ives 1995, Kimball 1994 McFadden 1996). Mỗi phương pháp này đều có phần đánh giá ngắn gọn kèm theo phân tích điểm mạnh và điểm yếu của chúng.

Phương pháp tiếp cận của Inmon (1994) dành cho Kho dữ liệu Thiết kế

Inmon (1994) đề xuất bốn bước lặp lại để thiết kế một kho dữ liệu (xem Hình 2). Bước đầu tiên là thiết kế một mẫu dữ liệu xã hội để hiểu làm thế nào tôi dữ liệu chúng có thể được tích hợp giữa các khu vực chức năng trong một tổ chức bằng cách chia nhỏ dữ liệu lưu trữ tại các khu vực. Người mẫu dữ liệu nó được tạo ra để lưu trữ dữ liệu liên quan đến việc ra quyết định, bao gồm dữ liệu các nhà sử học, trong đó có dữ liệu suy ra và tổng hợp. Bước thứ hai là xác định các lĩnh vực chủ đề để thực hiện. Chúng dựa trên các ưu tiên được xác định bởi một tổ chức cụ thể. Bước thứ ba liên quan đến việc vẽ một cơ sở dữ liệu đối với lĩnh vực chủ đề, hãy đặc biệt chú ý đến việc đưa vào mức độ chi tiết phù hợp. Inmon khuyến nghị sử dụng mô hình thực thể và mối quan hệ. Bước thứ tư là xác định hệ thống nguồn dữ liệu yêu cầu và phát triển các quy trình chuyển đổi để nắm bắt, làm sạch và định dạng dữ liệu.

Điểm mạnh trong cách tiếp cận của Inmon là mô hình dữ liệu xã hội tạo cơ sở cho sự hội nhập của dữ liệu trong việc tổ chức và lập kế hoạch hỗ trợ cho sự phát triển lặp đi lặp lại của kho dữ liệu. Nhược điểm của nó là khó khăn và tốn kém trong việc thiết kế mô hình dữ liệu xã hội, khó khăn trong việc hiểu các mô hình thực thể và các mối quan hệ được sử dụng trong cả hai mô hình, đó là dữ liệu xã hội và của dữ liệu được lưu trữ theo lĩnh vực chủ đề và sự phù hợp của dữ liệu của bản vẽ của kho dữ liệu để nhận ra cơ sở dữ liệu quan hệ nhưng không dành cho cơ sở dữ liệu đa chiều.

Ives' (1995) Cách tiếp cận Kho dữ liệu Thiết kế

Ives (1995) đề xuất cách tiếp cận bốn bước để thiết kế một hệ thống thông tin mà ông tin rằng có thể áp dụng được cho việc thiết kế một hệ thống. kho dữ liệu (xem Hình 3). Cách tiếp cận này chủ yếu dựa vào Kỹ thuật thông tin để phát triển hệ thống thông tin (Martin 1990). Bước đầu tiên là xác định mục tiêu, các yếu tố quan trọng và thành công cũng như các chỉ số hiệu suất chính. Các quy trình kinh doanh chính và thông tin cần thiết được mô hình hóa để đưa chúng ta đến một mô hình dữ liệu xã hội. Bước thứ hai liên quan đến việc phát triển một kiến trúc xác định dữ liệu được lưu trữ theo khu vực, cơ sở dữ liệu di kho dữ liệu, các thành phần công nghệ được yêu cầu, tập hợp hỗ trợ tổ chức cần có để triển khai và vận hành với kho dữ liệu. Bước thứ ba bao gồm việc lựa chọn các gói phần mềm và công cụ cần thiết. Bước thứ tư là thiết kế chi tiết và xây dựng kho dữ liệu. Ives lưu ý rằng việc lưu trữ dữ liệu nó là một quá trình lặp đi lặp lại hạn chế.

Điểm mạnh của phương pháp Ives là sử dụng các kỹ thuật cụ thể để xác định yêu cầu thông tin, sử dụng quy trình có cấu trúc để hỗ trợ tích hợp kho dữ liệu, lựa chọn phần cứng và phần mềm phù hợp và sử dụng nhiều kỹ thuật biểu diễn cho kho dữ liệu. Những sai sót của nó vốn có do sự phức tạp. Những vấn đề khác bao gồm khó khăn trong việc phát triển nhiều cấp độ cơ sở dữ liệu trong kho dữ liệu với thời gian và chi phí hợp lý.

Cách tiếp cận của Kimball (1994) đối với Kho dữ liệu Thiết kế

Kimball (1994) đề xuất năm bước lặp lại để thiết kế một kho dữ liệu (xem Hình 4). Cách tiếp cận của ông đặc biệt dành riêng cho việc thiết kế một sản phẩm solo kho dữ liệu và về việc sử dụng các mô hình thứ nguyên thay vì các mô hình thực thể và mối quan hệ. Kimball phân tích các mô hình chiều đó vì các nhà lãnh đạo doanh nghiệp dễ hiểu hoạt động kinh doanh hơn, hiệu quả hơn khi xử lý các cuộc tham vấn phức tạp và thiết kế các hoạt động kinh doanh. cơ sở dữ liệu thể chất hiệu quả hơn (Kimball 1994). Kimball nhận ra rằng sự phát triển của một kho dữ liệu nó được lặp đi lặp lại, và đó kho dữ liệu các bảng riêng biệt có thể được tích hợp bằng cách chia chúng thành các bảng có kích thước chung.

Bước đầu tiên là xác định lĩnh vực chủ đề cụ thể cần hoàn thiện. Bước thứ hai và thứ ba liên quan đến mô hình hóa chiều. Ở bước thứ hai, các thước đo xác định những điều quan tâm trong lĩnh vực chủ đề và được nhóm lại thành một bảng dữ kiện. Ví dụ: trong lĩnh vực chủ đề bán hàng, thước đo lãi suất có thể bao gồm số lượng mặt hàng được bán và đồng đô la làm đơn vị tiền tệ bán hàng. Bước thứ ba liên quan đến việc xác định các khía cạnh là cách thức mà các sự kiện có thể được nhóm lại. Trong lĩnh vực chủ đề bán hàng, các thứ nguyên liên quan có thể bao gồm mặt hàng, vị trí và khoảng thời gian. Bảng dữ kiện có một khóa gồm nhiều phần để liên kết nó với từng bảng thứ nguyên và thường chứa một số lượng dữ kiện rất lớn. Ngược lại, bảng thứ nguyên chứa thông tin mô tả về thứ nguyên và các thuộc tính khác có thể được sử dụng để nhóm các sự kiện. Bảng dữ kiện và thứ nguyên được đề xuất liên quan tạo thành cái được gọi là lược đồ sao vì hình dạng của nó. Bước thứ tư liên quan đến việc xây dựng một cơ sở dữ liệu đa chiều để hoàn thiện mô hình ngôi sao. Bước cuối cùng là xác định hệ thống nguồn dữ liệu yêu cầu và phát triển các quy trình chuyển đổi để nắm bắt, làm sạch và định dạng dữ liệu.

Điểm mạnh trong phương pháp của Kimball bao gồm việc sử dụng các mô hình chiều để thể hiện dữ liệu được lưu trữ giúp dễ hiểu và dẫn đến thiết kế vật lý hiệu quả. Một mô hình chiều cũng dễ dàng sử dụng cả hai hệ thống cơ sở dữ liệu quan hệ có thể được hoàn thiện hoặc hệ thống cơ sở dữ liệu đa chiều. Những sai sót của nó bao gồm việc thiếu một số kỹ thuật để tạo điều kiện thuận lợi cho việc lập kế hoạch hoặc tích hợp nhiều mẫu sao trong một kho dữ liệu và khó khăn trong việc thiết kế từ cấu trúc không chuẩn hóa cực độ thành mô hình chiều dữ liệu trong hệ thống kế thừa.

Cách tiếp cận dữ liệu của McFadden (1996) Thiết Kế Nhà Kho

McFadden (1996) đề xuất cách tiếp cận năm bước để thiết kế một kho dữ liệu (xem Hình 5).
Cách tiếp cận của ông dựa trên sự tổng hợp các ý tưởng từ tài liệu và tập trung vào việc thiết kế một kho dữ liệu. Bước đầu tiên liên quan đến việc phân tích yêu cầu. Mặc dù các thông số kỹ thuật không được quy định nhưng ghi chú của McFadden xác định các thực thể dữ liệu thông số kỹ thuật và thuộc tính của chúng, đồng thời đề cập đến độc giả Watson và Frolick (1993) để nắm bắt yêu cầu.
Trong bước thứ hai, một mô hình quan hệ thực thể được thiết kế cho kho dữ liệu và sau đó được xác nhận bởi các nhà lãnh đạo doanh nghiệp. Bước thứ ba bao gồm việc xác định ánh xạ từ các hệ thống cũ và các nguồn bên ngoài kho dữ liệu. Bước thứ tư liên quan đến các quá trình phát triển, triển khai và đồng bộ hóa dữ liệu trong kho dữ liệu. Ở bước cuối cùng, việc phân phối hệ thống được phát triển với sự nhấn mạnh đặc biệt vào giao diện người dùng. McFadden lưu ý rằng quá trình vẽ nói chung là lặp đi lặp lại.

Điểm mạnh trong cách tiếp cận của McFadden chỉ ra sự tham gia của các nhà lãnh đạo doanh nghiệp trong việc xác định các yêu cầu cũng như tầm quan trọng của nguồn lực. dữ liệu, làm sạch và thu thập của họ. Những sai sót của nó bao gồm việc thiếu một quy trình để chia nhỏ một dự án lớn kho dữ liệu trong nhiều giai đoạn tích hợp và

khó hiểu các mô hình thực thể và mối quan hệ được sử dụng trong thiết kế kho dữ liệu.

Không phải chỉ những người thân thiết mới chọn chúng ta.

0/5 (0 Đánh giá)

Tìm hiểu thêm từ Cơ quan web trực tuyến

Đăng ký để nhận các bài viết mới nhất qua email.

quản trị viên CEO

👍Đại lý web trực tuyến | Chuyên gia của Web Agency về Tiếp thị Kỹ thuật số và SEO. Cơ quan Web trực tuyến là một Cơ quan Web. Đối với Agenzia Web Online, sự thành công trong chuyển đổi kỹ thuật số dựa trên nền tảng của Iron SEO phiên bản 3. Chuyên ngành: Tích hợp hệ thống, Tích hợp ứng dụng doanh nghiệp, Kiến trúc hướng dịch vụ, Điện toán đám mây, Kho dữ liệu, kinh doanh thông minh, Dữ liệu lớn, cổng thông tin, mạng nội bộ, Ứng dụng web Thiết kế và quản lý cơ sở dữ liệu quan hệ và đa chiều Thiết kế giao diện cho phương tiện kỹ thuật số: khả năng sử dụng và Đồ họa. Đại lý Web Trực tuyến cung cấp cho các công ty các dịch vụ sau: -SEO trên Google, Amazon, Bing, Yandex; -Phân tích trang web: Google Analytics, Trình quản lý thẻ của Google, Yandex Metrica; -Chuyển đổi người dùng: Google Analytics, Microsoft Clarity, Yandex Metrica; -SEM trên Quảng cáo Google, Bing, Amazon; - Tiếp thị truyền thông xã hội (Facebook, Linkedin, Youtube, Instagram).

Xem toàn bộ tiểu sử

Tiếp thị kỹ thuật số Cơ sở dữ liệu DBMS Kho dữ liệu Khoa học dữ liệu Quảng cáo trực tuyến Công nghệ Thông tin Web Cơ quan Công ty quảng cáo Marketing

Chia sẻ:

Tôi thích:

Tìm hiểu thêm từ Cơ quan web trực tuyến