DAI HOC QUÔC GÎA HÀ NÔI
K H O A
C Ô N G N G H Ê
DÂNG VÀN NINH
XÂY DUNG
• KHO DU*LIEU
»
(DATA WAREHOUSING)
LUÂN V A N TH A C SI
Hà N ôi-2004
M Ụ C
L Ụ C
DANH MỤC HÌNH VẼ, Đ ổ THỊ
Hình số 1: tính chấc ít thay đổi của dữ Uậu trone kho dữ ỉiệu
Hình sỏ' 2; nguyên ỉý cơ bản của kho dữ iiệu
Hình số 3: Hệ hỗ trợ ra quyết định
Hình số 4: Yêu cầu chức năng kho đữ liệu
Hình số 5: Mõ hình kiến trúc dữ liệu ba tầng
Hình số 6 : Kiến trúc dữ liệu cho siêu dữ liệu
Hình số 7: Kiến trúc dữ iiệu ờ mức cao
Hình số 8: Kiến trúc siêu dữ liệu
Hình số 9: Quan niệm kho dữ liệu ờ mức doanh nghiệp
Hình số 10: Luồng đữ liệu trong kho dữ liệu
Hình số 11: Tiếp cận theo mô hình thác nước
Hình sô' 12: Tiếp cận theo mô hình xoắn trôn ốc
Hình sổ 13: Mổi trường vừa tập trung vừa phân tán
Hình số 14: Mô hình đữ liệu nhập xuất tồn
Hình số 15: Thuộc tính của bảng CUBNXT
Hình số ỉ 6: Kết quả của tiến trình sinh mã-Generation
Hình sổ 17: Kết quả của tiến trình thực hiện — Deploy
Hình số 18: Trang nhập hàng hoá (Sheet Nhap)
Hình số 19: Biểu đồ của trang nhập hàng hoá (Sheet Nhap)
Hình số 20: Trang xuất hàng hoá (Sheet Xuat )
Hình số 21: Biểu đổ của trang xuất hàng hoá (Sheet Xuat)
Hình số 22: Trang tồn hàng hoá (Sheet TON)
Hình số 23: Biểu đồ của trang tồn hằng hoá (Sheet TON)
MỞ ĐẨU
5
PHẦN 1. C ơ SỞ XÂY DỤNG KHO DỮ L IỆ U ......................................................... 6
CHƯƠNG 1. GIỚI TH IỆU CHUNG VỂ KHO DỮ LIỆU.....................................6
1. Định nghĩa Kho đữ liệu — Data W arehouse.....................................................6
2. Đặc điểm dữ liệu trong kho dữ liệu.....................................................................6
3. Nguvên lý cơ bẳn (Basic Elements).................................................................... 8
4. Kho dữ liệu cục bộ - Đatamart................................................................ ......... 9
5. Hệ hỗ trợ quyết định (Decisions Support Systems-DSS)................................10
6. Phân biệt Kho dữ liệu với những hệ cơ sờ dữ liệu tác nghiệp.........................11
7. Các yêu cầu chức năng kho đữ liệu (Desirable Warehouse Functionality). 12
Kết luận......................................................................................................................13
CHƯƠNG 2. KIẾN TRÚC KHO DỮ L IỆ U ................... ......... ............................. 15
I. M ỘT SỐ KHÁI NIỆM C ơ B Ả N .................................................................... 15
1. Dữ iiệu nghiệp vụ............................................................................................15
1.1. Dữ liệu thời gian thực (real-time đata).....................................................15
1.2. Dữ liệu dãn xuất (derived data)................................................................. 15
1.3. Dữ liệu tương thích (reconciled data)........................................................15
2. Siêu dữ liệu (Metadata).......................................................................................15
2.1. Siẻu dữ liệu trong giai đoạn xây đựng...................................................... 16
2.2. Sìôu dữ liệu kiểm soát.... ...............',..7........................................................16
2.3. Siêu dữ liệu vận dụng:................................................................................. 16
II. KIẾN TRỦC D ữ LIỆU MỨC KHÁI NIỆM ............................ .................. 17
1. Kiến trúc dữ liệu nghiệp vụ................................................................................ 17
2. Kiến trúc siêu đữ liệu..........................................................................................21
3. Quan hộ và nguén của siêu đữ liệ u ....................................................................22
3.1. Siêu dữ liệu trong giai đoạn xây dựng.................................................... 22
3.2. Siêu dữ ỉiệu kiểm soát.... .................. ..... ....................................................23
3.3. Siêu dữ liệu vận d ụ n g .................................................................................25
4. Kiến trức Logic Kho dữ liệ u .............................................................................. 25
4.1. Dữ liệu nghiệp vụ trong kho dữ ỉiệu..........................................................26
4,2- Kiến trúc Siêu dữ liệu trong kho đữ liệu....................................................31
4.3. Chỉ mục kho dữ liệu (catalog)....................................................................34
III. PHƯƠNG PHÁP XAY DỤNG KHO DỮ L IỆ U ..................................... 34
1. Kế hoạch cơ bản (The Basic pìan)..................................................................... 34
2. Quan niệm ờ mức doanh nghiệp (The Enterprise View)................................. 35
3. Luồng dữ liệu qua kho dữ liệu (Flow of Data Through the Warehouse).... 3Ố
4. So sánh mô hình phát triển (Development Models Compared)..................... 37
4 .1 Mô hình thác nước (Waterfall)....................................................................37
4.2. Mô hình xoắn trôn ốc (spiral).....................................................................38
4.3. Các pha trong phương pháp tiếp cận theo mô hình xoắn ốc................. 39
5. Các giai đoạn thiết kế kho dữ liệu (ĐW Database Design Phases)................40
5.1. Xác định mó hình nghiệp vụ (Defining the business model)................ 40
5.2. Xác định mò binh logic (Defininc the logical m odel)........................... 40
5.3. Xác định mỏ hình Dimensnional (Defining the dimensional model) ..40
5-4. Xác định mỏ hình vật lý (Defining the physical model)........................40
K Ế T L U Ậ N ........................ ................................ ......................... ......................... 41
CHƯƠNG 3. T H IẾ T K Ế KHO DỮ L IỆ U ...............................................................43
I. XÁC ĐỊNH MÒ HÌNH NGHIỆP v ụ VÀ MÔ HÌNH LOGIC
(DEFINING TH E BUSINESS AND LOGICAL M O D ELS)......................43
1. Xác định mô hình nghiệp v ụ ............................................................................ 43
l.í. Phản tích chiến lược (Strategic Analysis).................................................44
1.2. Tạo mô hình nghiệp vụ (Business models creation)................................47
1.3. Tạo siêu dữ liệu........................................................................................... 52
2. Xác định mô hình logic (Defining the Logical Models)................................ 52
II.
TẠO
MÔ
HÌNH
DIMENSIONAL
(CREATING
THE
DIM ENSIONAL M O D E L )...............................................................................53
1. Giản đồ hình s a o ............................................................................................... 53
2. Các thành phần của giản đổ hình sao................................................................ 53
3. Đặc điểm của giản đồ hình sao ........................................................................ 54
4. Vấn để đánh chỉ sỏ' (Index).............................................................................. 55
III. TẠO MÔ HÌNH VẬT LÝ (CREATING THE PHYSICAL MODEL)
...............’......................................................................................................................................................................... 5 6
1. Kế hoạch thực hiện..............................................................................................57
2. Mỏi trường thực hiện (vừa tập trung vừa phản tán).......................................57
3. Lựa chọn hạ tầng............................................................................................... 59
K ẾT LU Ậ N ........1 ................................................................................................ 60
PHẨN II: XÂY DỤNG KHO DỮ LIỆU THỬ N G H IỆ M .....................................62
CHƯƠNG 4. GIỚI THIỆU CÔNG c ụ XẢY DỤNG KHO D ữ LIỆU
(ORACLE WAREHOUSE B U I L D E R ) ....................................................... 62
I. KIẾN TRÚC VÀ KHẢ NĂNG CỦA SẢN PHẨM (PRODUCT
A RCH ITECTU RE AND CA PA BILITIES)....................................................62
1. Thành phần thiết kế (The Design Component)............................................. 62
2. Thành phđn thực thi (The Runtime Component)..........................................63
3. Các thành phần của Warehouse Builder......................................................... 64
3.1. ứng dụng máy khách (Warehouse Builder Client Application)........64
3.2. Dịch vụ nền thực hiện Warehouse Builder (Runtime Platform Service)
.................. *..............1.......!...................................... ............................................65
3.3. Thành phần thiết kế Repository (WB Design Repository).....................65
3.4. Repository WB thực thi (Warehouse Builder Runtime Repository) ....65
3.5. Báo cáo kiểm toán (Audit Reporting Browser).......................................65
3.6. Báo cáo siêu dữ liệu (Metadata Reporting Browser).............................66
4. Đối urựng trong WB (Warehouse Builder Objects)......................................66
5. WB thực hiện hệ thống dích (Warehouse Builder Deployment Targets).... 66
4
II. SO L ư ợ c QUÁ TRĨNH TẠO HỆ THỐNG NGHIỆP v ụ THÔNG
MINH (OVERVIEW O F CREATING A BUSINESS INTELLIGENCE
SY STEM )............................. .................. ................................................ ........ .....66
1. Bước 1: Tạo Project {Creating a Project)......................................................... 67
2. Bước 2: Khai báo các module nguồn và đích (Defining Source and Target
M odules)................................................................................................................ 67
Khai báo nguồn (Defining Sources)..,................. .............................................67
3. Bước 3: Khai báo quá trình chuyển đổi và vận chuyển dữ liệu..................... 68
4. Bước 4: Kiểm tra hợp lệ và sinh mã (Validating and Generating).................69
5. BướeS: Tạo và thực hiện (Deploying and Executing)....................................69
KẾT L U Ậ N .................... ...............I....................... Z .................................... 71
Kiến trúc và khả năng của sản phẩm....................................................................71
CHƯƠNG 5: XÂY DựSỈG KHO D ữ LIỆU TẠI PET R O L IM EX .............72
1. Bài toán xây dựng kho dữ liệu tại Petrolimex.................................................. 72
2. Lựa chọn phạm vi xây dựng kho dữ liệu thử nghiệm.......................................73
3. Thiết kế và thực hiện kho đữ liệu thử nghiệm kho dữ liệu............................. 75
4. Khai thác kho dữ liệu............... !........... ........................... ................................82
4.!. Trang nhập hàng hoá (Sheet-NHAP)......................................................83
4.2. Trang xuất hằng hoá (Sheet-XƯAT).......................................................85
4.3. Trang tổn hàng hoá (Sheet-TON)............................................................ 87
KẾT LU Ậ N ............. .1.................................................................................... ......89
TÀI LIỆU THAM K H Ả O .................................................................................. 92
M Ờ ĐẨU
Trong những năm qua cùng với sự phát triển CNTT, các hệ thống thòng tin đă
được phát triển mạnh cả vể số lượng, chất lương. Đặc biệt trong một doanh nghiệp
cùng tổn tại nhiều hệ thống thôna tin đa dạng và phong phú. Các nhà lãnh đạo thì
ỉuõn thiếu thông tin phục vụ điều hành, chưa kể đến có những thông tin sai lệch
thậm chí mâu thuẫn về cùng một sự việc.... trong khi đang sờ hữu một khối lượng dữ
liệu khổng lồ
Đến thời điểm hiện nay, phương pháp xây dựng kho đữ liệu (Data
Warehousing) đã phát triển cả về lý thuyết cũng như thực tế. Lý thuyết xây dựng
kho dữ liệu đã được hình thành khá rõ nét, bên cạnh đó các nhà cung cấp phần mềm
cũng đã đưa ra các công cụ để xây dựng, duy trì và phát triển kho dữ liệu, Một kho
đữ liệu sẽ giúp doanh nghiệp có khả năng quản iý dữ liệu, khai thác thống tin phục
vụ việc điều hành kính đoanh phù hợp hơn.
Cũng như các doanh nghiệp khác, Petrolimex đang có một mạng lưới các ứng
dụng nghiệp vụ cục bộ tại từng đơn vị thành viên. Việc tập hợp và quản trị đữ liệu
trên phạm vi toàn ngành để cung cấp thỏng tin cho "quá trình phản tích, hoạch định
chiến lược, hỗ trợ ra quyết định" Irong mòi trường cạnh tranh và hội nhập là một
thách thức lớn mà Petrolimex đang tìm hướng giải quyết. Đề tài này nghiên cứu lý
thuyết, nắm chắc phương pháp iuận và một còng cụ xây dựng kho dữ liệu cụ thể, tạo
nền tảng triển khai xây đựng một kho dữ liệu thực tế-hướng giải quyết yêu cầu cùa
bài toán nói trên,
Luận vãn bao gồm hai phần. Phần í, trình bày cơ sở xây dựng kho dữ liệu, giới
thiệu lý thuyết cơ bản về xây dựng Kho dữ liệu. Phần n, trình bày nội dung xây
dựng kho dữ liệu thử nghiệm, giới thiệu cồng cụ xây dựng kho dữ liệu Oracle
Warehouse Builder và bài toán kho dữ liệu của Petrolimex.
Tôi xin trân trọng cảm ơn sự hướng dản của Tiến sĩ Nguyễn Tuệ. Cảm ơn các
thầy cô giáo trong khoa Công nghệ, Viện CNTT, công ty Oracle Việt Nam và đồng
nghiệp đă nhiệt tình giúp tôi thực hiện đề tài này.
6
PHẦN 1. C ơ SỞ XÂY DỤNG
K H O D ữ L IỆ* U
«
CH Ư Ơ N G 1. G IỚ I T H IỆ U CH U N G V Ể K H O D Ữ LIỆ U
1. Địẳìh n g h ĩa K h o d ữ liệ u - D a ta W a re h o u s e
Có nhiều định nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghĩa kho dữ
liệu của Bili Inmon: ”Kho đữ liệu là tập hợp dữ ỉiệu hướng chủ đề, mang tính tích
hợp, ít thay đổi, và mỗi đơn vị dữ ỉiệu đều gắn với một khoảng thời gian cụ thể. Kho
dữ liệu được thiết kế để hỗ trợ quản trị hê hỗ trợ quyết định".
2. Đ ặ c đ iể m d ữ liệ u tr o n g k h o d ữ liệ u
Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm: Hướng
chủ đề (Subject-oriented), Tích hợp (Integrated), ít thay đổi (nonvalatile), Tính thời
gian cụ th ể (Time-variant). Một số định nghĩa khác về Kho dữ liệu có bổ sung thêm
tính chất Kho dữ liệu bao gồm cả dữ liệu chi tiết và dữ liệu tổng hợp.
2.1. Hướng chủ dề (Subject-oriented)
Dữ liệu được tập hợp, phân iớp, lưu trữ và xử lý theo từng chủ để. Các dữ liậu
của mỗì chủ dề chính trong tổ chức được liên kết bởi các khoá đại diện và đưa vào
cùng một vị trí, Ví dụ đữ liệu liên quan đến: khách hàng, sản phẩm, tài chính, bán
hàng....
2.2. Tích hợp (Integrated)
Trong một tổ chức có rất nhiều dữ liệu từ nhiều hệ thống khác nhau. Việc hợp
nhất các dữ liêu này trờ thành một tập hợp dữ liệu có nghĩa cho việc phân tích ỉà rất
khó khăn. Một trong các tính chất chính của Kho dữ liệu là hoằn thành quá trình hợp
nhất hay tích hợp này.
Cấu trúc dữ liệu theo một cách thức chung được chấp nhận mặc đù xuất phát từ
rất nhiều cấu trúc dữ liệu nguồn khác nhau. Dữ liệu tích hợp phải đảm bảo tính nhất
quán, đôi khi chấp nhận tính dư thừa để tăng tính hiệu quả của các truy vấh.
7
2.3. it thay ddi (nonvaiatile)
Dü ii6u trong Kho dir li6u la d& lieu chi doc.
Warehouse
Operational
Load
■rfy
Insert
Read
Update
Delete
Hmh s6 1: tinh chät it thay d6i cüa dü lieu trong kho dü lieu
Dü lieu diroc tai (load) väo kho dir lieu o Idn däu ti£n dirdi dang ban sao tai
möt thdi di^m (snapshot) vä sau do thuöng xuy6n duoc lam tuoi (Refresh). Chu ky
läm tiroi duoc xäc dinh tuy theo y£u cäu nghiSp vu, cö nhung kho d£r liSu döi höi
duoc läm tircri häng ngäy trong khi cö nhiing kho dü li6u chi cän duoc läm urcfi häng
thäng.
Thöng tin trong Kho dü lieu duoc täi väo sau khi dur lieu trong hS thöng di£u
hänh täc nghiep duoc xäc dinh. Tinh it bi6n döi th6 hiön er chö: Du lieu duoc liru trü
läu däi trong kho dir liöu, mac dü cö thäm dü li£u mcfi nhäp väo nhtmg dö li£u cö
trong kho vän khöng bi xoä, dilu dö cho ph^p cung cäp thöng tin ve möt khoäng
thöi gian däi, cung cäp dü so lieu cän thiö't cho cäc mö hinh nghiep vu phän tfch, dir
bäo.
2.4. Tinh thoi gian cu th^ (Time-variant)
Möt kho chüa dü lidu bao häm möt khö'i luong lön dir lieu lieh sir. Dü liSu
duoc liru trü thänh möt Ioat cäc bän sao(snapshort), möi bän sao phän änh nhüng giä
tri cüa dur li£u tai möt thöi di&n nhä't dinh, th£ hien möt khung nhin cüa möt vüng
chü d l trong möt giai doan. Do väy cho phep khöi phuc lai dü lieu lieh sir vä so sänh
8
mộí cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò như một
phần cùa khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời
gian cho dữ íiộu.
2.5. Dữ (iệu chi tiết và dữ ỉiệu tổng hợp
Dữ liệu chi tiết là thòng tin mức thấp nhất được lưu trữ trong Kho dữ ỉiệu. Dữ
liệu tác nghiệp là thông tin mức thấp nhất cho toàn xí nghiệp. Dữ liệu tác nghiệp
thuần tuý không được lưu trữ trong Kho dữ liệu. Dữ liêu tổng hợp là dữ liệu được
kết hợp từ dữ liệu chi tiết và lưu qua nhiều giai đoạn khác nhau.
3. Nguyên lỷ CƯ bản (Basic Eỉements)
Cptỉotìcnaỉ
QữV0
DcJOyrhqợta
ỮJ50W
0ftfws*
____ u
• Ẹaroa
• Mk
• Ticnitonn
«toieorai«
*Ckãtft
«toitgtoM
• ĩìm*-voítoni
*Nonvùtohi«
• SummóoỉÉ
Hình số 2: nguyên lý cơ bản của kho dữ liêu
Cơ sở d ữ liệu nguồn (Source Database): Một CSDL tác nghiệp, trung tâm đữ
liệu, hệ thống sắn có, làm đầu vào cho vùng định cư dữ liệu.
Vùng định cư đữ liệu (Data Staging Area): Vùng lưu trữ dữ liệu bình
thường, đữ liệu có thể ở dạng thô hoặc dạng tổng hợp. Quá trình định cư sử đụng
một số cổng cụ di trú (migration), công cụ làm sạch (clean), chuyển tải đữ liệu
(transformation). Sau đó đữ liệu được sử dụng làm nguồn dữ liệu đẩu vào cho một
hoặc nhiều kho dữ liệu.
9
Đích (target): Nơi phát hiện, lưu trữ dừ liệu cho các truy vấn trực tiếp của
người sử dụng cuối, tạo báo cáo và các ứn2 dụng khác khai thác kho dữ liệu hoặc
kho dữ liệu cục bộ.
4. Kho đữ liệu cục bộ - Data m art
Kho dừ liệu cục bộ (Datamart) ià CSDL có những đậc điểm giống với Kho đữ
liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên
nsành. Các Datamart có thể được hình thành từ một tập con dữ liệu của kho dữ liệu
hoăc cũng có thể được xây đựng độc lập và sau khi xây dựng xong, các Datamart có
thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây đựng
kho dữ liệu bắt đầu bằng việc xây dựng các Datamart hay ngược lại xày dựng kho
dữ liệu trước sau đó tạo ra các Datamart.
Datamarí là một kho dữ liệu thứ cấp các dữ liệu tích hợp của Kho dữ liệu.
Đatamart được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề,
được tạo ra đành cho một nhóm người sử đụng. Dữ liệu trong Datamart cho thồng
tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang
diễn ra trong một tổ chức. Thể hiện thường xuyên nhất cùa Datamart là một kho dữ
liệu riêng rẽ theo phương diện vật lí, thường được lưu trữ trên một máy chủ riêng,
trong một mạng cục bộ phục vụ cho một nhóm người nhất định. Đôi khi Datamart
kế? hợp một cách đơn giàn với công nghệ OLAP theo các quan hệ hình sao đặc biệt
tạo ra những siêu khối (hypercube) đữ liệu cho việc phân tích của một nhóm người
có cùng mối quan tâm trên một phạm vi dữ liệu.
Có thể chia ra làm 2 loại: Datamart độc lập và Daíamart phụ thuộc
Datamart phụ thuộc, chứa những dữ liệu được ỉấy từ Kho dữ liệu và những đữ
liệu này sẽ được trích lọc và làm sạch, tích hợp ỉại ờ mức cao hơn để phục vụ một
chủ đề nhất định của Datamart.
Datamart độc lập: không giống như Datamart phụ thuộc, DM loại này được
xây đựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn. Phương pháp này đem
giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu. Mỗi Kho dữ liệu độc
1 0
lập có cách tích hợp riêns, đo đó đữ liệu từ nhiều Datamart khó đồng nhất với
nhau. Datamart thể hiện hai vấn đề: thứ nhấc là lính ổn định trong các tinh huống từ
một Data mart nhó ban đầu lớn ỉèn nhanh chóne cheo nhiều chiều và thứ hai là sự
lích hợp dữ liệu. Vì vậy khi thiết kế Datamart phải chú ý kĩ tớí tính ổn định của hệ
thống, sự đồng nhất cua dữ liệu và vấn đề về khả năng quản lí.
5. Hệ hỗ trợ quyết định (Decisions Support Systems-DSS)
Decision Support System (D SS)
(
ODS
V.
DSS
A
DW
OLAP
V
DM
)
..
storage
Analytic
Profile o f DSS Q u eries
Hình số 3: Hê hỗ trơ ra quyết đinh
DSS cung cấp một hệ thống có khả nãng trợ giúp việc tạo ra các quyết định,
mọi kho dữ liệu được thực hiện với các yêu cầu phương pháp lưu trữ, công cụ xừ lý
để người dùng cuối đễ đàng truy cập tới dữ liệu đã được hợp nhất từ nhiều nguồn
khác nhau. Tuỳ theo yêu cầu của nghiệp vụ, công cụ có thể đơn giản chỉ là công cụ
lập báo cáo, cũng có thể phức tạp hơn. Sau đây là các thành phần mở rộng của DSS:
Hệ tác nghiệp (ODS): là cư sờ dữ liệu cùa tlữ liệu diều hành, (iừ liệu có cấu
trúc {định dạng-formatted) tĩnh. Hệ tác nshiệp không như kho dữ íiồu, không có
tính chát "ít biến đổi", chúng được naười dùna thay đổi cập nhật thường xuyên.
Kho dừ liệu (DW) tập hợp dữ liệu giúp quản lý quá trình ra quyết định.
Hệ phân tích trực tuyến (Online analytical processing-OLAP) định nshĩa một
cách lỏng ỉẻo (loosely) tập hợp các nguyên tố cơ bản (prineiples) nhằm cung cấp các
khung nhìn cho việc hỗ trợ quyết định. OLAP phồn tích dữ liệu nhằm chỉ ra định
hướng nghiệp vụ, có tính chất tĩnh khỏng đòi hòi tính hiện thời như đữ liệu tác
nghiệp.
Khai phá đữ liệu (Data mỉning - ĐM): là kỹ thuật khai phá ra các mẫu, tri
thức mới chưa từng xuất hiện trước đó.
Hình trẽn cho thấy mâu của một hệ hỗ trợ ra quyết định được phũn chia thành
hai phần, phần ỉưu trữ (bao gồm ODS, DW) vằ phần phân tích (OLAP, DM).
6. Phàn biệt Kho dữ liệu với những hệ cư sở đữ liệu íác nghiệp
Có một số điểm khác biệt chính khi thiết kế hê thống tác nghiệp và khi thiết kế
Kho đữ liệu, chúng ta phải quan tủm cách tiếp cận và tiến trình thực hiện:
Thiết kế Kho dữ liệu phải quan lâm tới vấn đề tối ưu hoá truy vấn dữ liệu,
trong khi thiết kế hệ tác nghiệp quan tâm tới vấn đề tối ưu hoá thao tác dữ íiệu
(insert, update, delete...).
Tính phát triển của Kho đữ liệu, chúng ta không thể hoàn thành sự phát triển
của Kho đữ liệu ngay khi thiết lập, mà quá trình phát triển của kho dữ liệu phải tính
đến trong một thời gian dài. Thường dẫn tới kết quả sử dụng cấu trúc dữ liệu động
hơn là sử dụng cấu trúc dữ liệu tĩnh như hệ tác nghiệp.
Kho đữ liệu Uru trữ dữ liệu lịch sử, dữ liệu cho từng đcm vị thời gian trong khi
hệ tác nghiệp xử lý các giao dịch hiện thời.
7. C ác Yẻu cẩu chức năng kho d ừ ỉỉệ u (Desirable Warehouse Functionality).
Desirable W arehouse Functionality
Ị Scalability
Design
¡Manageability
d ã
Availability
Load 11 Data
ị A ccess
Extensibility
Architecture
Motad ata
Flexibility
]
Tuning and optimization
integrated
Management and revision
Accessibility
Capacity planning and sizing
Reliability
.......... - J
Hình
Operation
and
management
SỐ
4: Yêu cẩu chức nàng kho
dữ
lieu
K hả năng càn bằng (Scalable): Kho dữ liệu có khả năng lưu trữ và quản lý
một số lượng khổng lổ các giao dịch và dữ liệu tổns hợp. Kho dữ liệu có thể lớn lên
theo thời gian, có thèm dữ liệu mới hoặc giữ lại dữ liệu lịch sử cho một thời gian đàì
mà không bị quá tai, vẫn đảm bảo tính ổn định hoạt động.
K h ả năng quản trị (M anageable): Kho dữ ỉiệu có khả nãng quản trị viêc tao
quyết định.
K h ả nâng sẵn sàng (Available): Kho dữ liệu luôn sẵn sàng bất kỳ khi nào
cần.
K h ả nâng mở rộng (Extensible): Thực hiện một cách dễ dàng khi thêm các
loại đữ liệu mới, dữ liệu kết hợp và dữ liệu tổng hợp vào kho đữ liệu.
13
Khả nàng mém dẻo (Flexible): Hỗ trợ nhiều cách truy củp dữ liệu chi tiết, dữ
liệu tone hợp theo phàn tích nhiểu chiều, khoan dữ liệu và truy vấn khôna xác định
(analysis, drilldown, and true ad hoc querying).
Khả năng tích hợp (Integrated): Kho đữ liệu phải có khả mìng tích hợp đẩy
đủ với các hệ thốníĩ sẩn có, môi trường tác nghiệp. Do vậy, có thể tải (load) dữ liệu
từ nhiều nguồn.
Khả năng truy cập sử dạng được (Accessible): Kho dữ liệu phải cổ khả năng
truy cập sử dụng được, từ các công cụ mềm dẻo tới phạm vi rộng dãi người sừ đụng.
K hả nâng tin cậy (Reliable): Dữ liệu tải từ nhiểu nguồn khác nhau phải được
họp nhất, chuẩn hóa bảo đảm tính toàn vẹn dữ liệu và hợp lệ tại một thòi điểm bất
kỳ.
Kết luận
Chương I giới thiêu chung về kho dữ liệu, bao gồm các nội dung:
Định nghĩa kho dữ liệu, giới thiệu một định nghĩa phổ biến về kho dữ liệu,
định nghĩa của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính
tích hợp, ít thay đổi, và mổi đơn vị dữ liệu đểu gán với một khoảng thòi gian cụ thể.
Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ quyết định".
Bốn đặc tính cơ bản của kho dữ liệu. Theo định nghĩa của Bill Inmon Kho dữ
liệu có 4 đặc tính cơ bản gốm: Hướng chủ đê' (Subject-oriented), Tích hợp
(Integrated), ít thay đổi (nonvalatile), Tính thời gian cụ thể (Time-variant). Một số
định nghĩa khác vể Kho dữ liệu có bổ sung thêm tính chất Kho dữ ỉiệu bao gổm cả
dữ liệu chi tiết và dữ liệu tổng hợp.
Nguyên lý cơ bản của Kho đữ liệu: Cơ sở dữ liệu nguổn (Source Database)->
Vùng định cư dữ liệu (Data Staging Area)-> Kho dữ liệu đích (target).
Kho đữ liệu cục bộ, xét theo khía cạnh tập hợp thì kho đữ liệu cục bộ là tập
con của kho dữ liệu, dùng trung một lĩnh vực cụ thể. Có thể xây đựng kho dữ liệu
1 4
cục bộ trước rồi hợp thành kho dư liệu chung hoặc ngược iại có thể xây dựng kho dữ
liệu rrước rồi tổ chức khai thác sử dụng theo các kho dữ liệu cục bộ.
Hệ hỗ trợ ra quvết định có hai thành phần: I. thành phán lưu trữ - storage: hệ
tác nghiệp — ODS và kho dữ liệu-DW; 2. thành phán phàn tích — analytic: hệ
phàn tích trực tuyến — OLAP, khai phá dữ liệu — DM.
Phân biệt kho dữ liệu với hệ thống tác nghiệp: Thiết kế Kho dữ liệu phải quan
tàm tới vấn đề tối ưu hoá truy vấn dữ liệu, trong khi thiết kế hệ tác nghiệp quan tâm
tới vấn để tối ưu hoá thao tác dữ liệu (insert, update, delete...). Phân biệt vể tính chất
dữ liệu lịch sử của kho dữ liệu và tính chất dữ liệu của hệ tác nghiệp.
Các yêu cầu chức năng kho đữ liệu phải đảm nhận: khả nãng cần bằng, quán
trị, sẵn sàng, mở rộng, mềm dẻo, tích hợp» truy cập sử dụng, và khả năng tin cậy.
15
CHƯ ƠN G 2. K IẾ N TR Ú C K H O DỮ LIỆU
I. M ỘT SỐ KHÁI NIỆM C ơ BẢN
1. Dữ liệu nghiệp vụ
Dữ liệu nghiệp vụ (Business data) là dữ liệu dùng để vận hành và quản lý của
một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt động của doanh
nghiệp và những đối tượng trong thế giói thực như ỉà khách hàng, địa điểm, sản
phẩm
V.V..
Nó được tạo ra và sử dụng bời các hệ thống xừ iý giao địch cũng như các
hệ thống hỗ trợ quyết định.
Dữ liệu nghiệp vụ bao gồm dữ liêu cấu trúc và dữ liệu phi cấu trúc. Dựa vào
các tiêu chí sử dụng trong nghiệp vụ, phạm vi dữ liệu, tính chất đọc/ghi của dữ liệu,
thời gian phát sinh dữ liệu người ta chia dữ liệu có cấu trúc ỉàm ba loại:
1.1. Dữ liệu thời gian thực (real-time data)
Dữ liệu chi tiết mới nhất được dùng để vận hành cỏng việc và được truy xuất
theo chế độ đọc/ghi thông qua các giao dịch đã được xác định trước.
1.2. Dữ liệu dần xuất (derived data)
Dữ liệu tại một thời điểm hoặc dữ liệu định kỳ, ờ mức chi tiết hoặc tổng hợp,
thuộc chế độ chỉ đọc, nhận được từ việc xử lỷ dữ liệu thòi gian thực và dùng để quản
lý còng tác nghiệp vụ.
1.3. Dữ liệu tương thích (reconciled data)
Được sinh ra trong quá trình xử lý tăng cường tính nhất quán bên trong của dữ
liệu. Đây là quá trình thực hiện trên dữ liệu thời gian thực ờ mức chi tiết. Khía cạnh
thứ hai của quá trình này là duy trì hoặc tạo ra một tập dữ liệu lịch sử. Do đó có thể
coi dữ liệu tương thích là một ỉoạí đặc biệt của dữ liệu dẫn xuất.
2. Siêu dữ liệu (M etadata)
Siêu đữ liệu (Metadata ) là dữ liệu về dữ liệu, được sử đụng trong DW để mô tả
cũng như sử dụng đữ liệu đảm bảo sử dụng triệt để và nhất quán dữ liệu nghiệp vụ.
16
Nó dược tạo ra, duy trì và truy cập trong suốt quá trình xừ lý nghiệp vụ {được thực
hiện thòng qua các ứng dụng).
Dựa vào hai tịêu chuẩn cơ bản là: Vị trí của siêu dữ liệu trong ứng dụng và
chúng được sừ đụng theo cách thức chủ động hay bị động. Người ta chia siêu dữ liệu
ra thành ba loại: Siêu dữ liệu trong giai đoạn xây dựng, siêu dữ liệu kiểm soát và
siêu dữ liệu vận dụng.
2 .Ỉ. Siêu dữ liệu trong giai đoạn xáy dựng
Là siêu dữ liệu được tạo ra trong quá trình thiết kế, xây đựng ứng dụng và cơ
sở dữ liệu. Thông thưcmg, chứng được tạo ra và lưu trữ trong các mố hình đữ liệu và
công cụ thiết kế ứng dụng (bộ công cụ CASE).
2.2. Siêu dữ liệu kiểm soát
Là siêu đữ liệu được sử dụng chủ động trong hoạt động của kho dữ liệu, trong
đó siêu đữ liệu hiện hành và siêu dữ ỉiệu sử đụng đóng vai trò quan trọng trong việc
quản lý và xây đựng kho dữ liệu.
Siêu dữ liệu hiện hành: mô tả thông tin chính xác về tính hiện thời hay vị trí
của dữ liệu nghiệp vụ theo thời gian.
Sièu đữ liệu sử đụng: gắn chặt vói vấn đề an ninh và các chức năng xác định
thẩm quyển, kiểm soát việc truy cập tới kho dữ liệu. Hơn nữa chúng cung cấp các
phương tiện nhằm giám sát dữ liệu và các chức năng này được sử dụng trong kho dữ
liệu như thế nào, và do đó xác định được giá trị của dữ liệu đối với người sò dụng
cuối.
2.3. Siêu dữ liệu vận dụng:
Là siêu dữ liệu quan trọng nhất đối với người sử đụng đữ liệu nghiệp vụ, đặc
biệt trong môi trường thông tin. Với chúng người đùng có thể đạt được những lợi ích
trong nghiệp vụ và nâng cao hiệu quả cỏng việc.
1 7
Siêu dữ liệu vận dụng có nguồn 200 vù nội dung tương tự siêu dữ liệu trong
giai đoạn xảy dựng. Sự khác biệt ờ chỗ siêu dừ liệu này được cấu trúc nhằm dảm bảo
hiệu quả khả nans tìm kiếm của ncười sử đụn«.
II. KIẾN TRÚC D ữ LIỆU MỨC KHÁI NIỆM
1. Kiến trú c dữ liệu nghiệp vụ
Một trong các bước đầu tiên khi thiết kế Kho dữ liệu là xây dựng kiến trúc
tổng thể và làm kiến trúc đó được chấp nhận một cách rộng rãi. Thông thường, mục
tiêu của hệ tác nghiệp là thực hiện các chức năng người sử đụng yêu cầu, và chúng
có phạm vi dừ liệu khá hẹp, nên việc thiết kế các hệ thống tác nghiập thường bắt đầu
với kiến trúc ứng dụng. Tuy nhiên, đối với kho dữ liệu tính hợp nhất dữ liệu quan
trọng hơn, đo đó điểm khởi đầu trong kiến trúc kho dữ liệu phải là đữ ỉiệu tác nghiệp
và siêu đữ liệu.
Dựa vào thực tế xây đựng kho dữ liệu người ta đưa ra ba mô hình kiến trúc dữ
liệu, các tầng dữ liệu được xem xét dưới mức độ khái niệm hơn là mức vật lý của
nó. Mặc dù người ta có thể quyếí định trực tiếp vị trí dữ liệu bằng cách xem xét các
dặc điểm kiểu dữ liệu, ba kiến trúc dữ liệu nầy đưa ra một nền tảng đễ hiểu hơn cho
vị trí dữ liệu.
Mô hình kiến trúc dữ iiệu ba tẩng đã bao hàm các thành phần của mô hình kiến
trúc hai tầng và một tầng. Do vậy chúng ta sẽ xem xét mỏ hình kiến trúc dữ liệu ba
tầng, sau đó chỉ ra nhũng thành phần khác biệt so với kiến trúc dữ ỉiệu hai tẩng và
tương tự vói kiến ỉrúc một tầng.
•18
Hệ
thống
thông tin
A
Dữ liệu dẫn xuất
Dữ liệu tương thích
Hình số 5: Mô hình kiến trúc dữ liêu ba táng
Vổi md hình kiến trúc dữ liệu ba tầng: tiến trình từ dữ liệu thời gian thực tới dữ
liệu dẫn xuất thông qua đữ liệu tương thích.
Tương thích dữ liệu từ nhiều cơ sờ đữ liệu trong thời gian thực.
Dẫn xuất dữ liệu do người sử đụng yêu cầu từ dữ liệu vừa được tương thích.
Trong kiến trúc này tẩng dưới cùng là dữ liệu thời gian thực, tầng trên cùng là
dữ liệu đẫn xuất và tầng giữa íà tầng dữ liệu tương thích.
19
Quá trình làm tương thích dữ liệu từ các tập đữ liệu khác nhau trong tầng thời
gian thực đòi hỏi phải nắm bắt quan hệ giữa nhữna tập dữ liệu này và vai trò của
chúng trong nghiệp vụ. Trèn thực tế quá trình nắm bất này dược xác định qua tiến
trình lập mò hình dữ liệu, thường được thực hiện ở mức doanh nghiệp hcm là ở mức
ứng dụng riêng lẻ. Mối quan hệ giữa tầng dữ liệu tương thích và mô hình đữ iiệu
doanh nghiệp là yếu tô' quan trọng để hiểu được hoạt động của kiến trúc ba tầng.
Mục đích của tầng dữ ỉiệu tương thích: Bước này ỉấy dữ liệu từ nhiều loại hê
tác nghiệp khác nhau, hỗn tạp, phân tán về mặt địa ỉý, sau đó kết hợp và xử lý chúng
để trờ thành hình ảnh mô hình dữ liệu doanh nghiệp duy nhất và logic. Chức năng
của tầng này trờ thành nguồn duy nhất, chính xác cho mọi dữ liệu mà người dùng
của hệ thống thông tin quản lý hay hệ hỗ trợ quyết định đòi hỏi. Từ tầng này có thể
dẫn xuất ra bất kỳ tổ hợp dữ liệu nào mà người dùng có thể đòi hỏi trong hiện tại
hay tương lai.
Trong tiến trình sao chép tới tầng dữ iiệu tương thích, các tập hợp dữ liệu trong
tầng thời gian thực phải được làm tương thích với nhau bời yêu cầu làm sạch dữ liệu
thời gian thực để loại bò những điểm không nhất quán và bất qui tắc trong dữ liệu.
Khống có đữ liệu mới được tạo ra trong bước này, giá trị được thêm vào tới từ chính
tầng tương thích.
Trong bước thứ hai, dữ liệu dẫn xuất mà người đùng đòi hòi để đáp ứng yêu
ciỉu nghiệp vụ của mình có được bằng cách sử dụng nhiều tiến trình như kết hợp,
biến đổi....trên đữ liệu tương thích. Bước này được định hướng bởi nhu cầu thông tin
của ngưởì dùng đựa trên nguồn đữ liệu đuy nhất, đáng tin cậy. Thông tín mới có giá
trị với nghiệp vụ chỉ được tạo ra trong bước này.
Người dùng cuối hiếm khi truy nhập trực tiếp tới tầng dữ liệu tương thích vì
cấu trúc đã được lập mô hình và chuẩn hoá của tầng này nói chung không phù hợp
với người dùng cuối. Phần lớn các tiến trình hỗ trợ quyết định đòi hỏi dữ liệu được
kết hợp từ nhiều thực thể khác nhau (hay các bảng đã chuẩn hoá). Tiến trình kết nối
này là một trong những công việc không thuân ỉợi với người sử đụng, bời vì nó đòi
hỏi một phương pháp hình thức để đảm bào tính hợp lệ. Hơn nữa dữ liệu trong tầng
- Xem thêm -