Tài liệu Luận văn mô hình cơ sở dữ liệu phân tán và áp dụng vào bài toán quản lý đào tạo

  • Số trang: 59 |
  • Loại file: PDF |
  • Lượt xem: 191 |
  • Lượt tải: 0

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ VIỆT MÔ HÌNH CƠ SỞ DỮ LIỆU PHÂN TÁN VÀ ÁP DỤNG VÀO BÀI TOÁN QUẢN LÝ ĐÀO TẠO LUẬN VĂN THẠC SĨ Hà Nội - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ VIỆT MÔ HÌNH CƠ SỞ DỮ LIỆU PHÂN TÁN VÀ ÁP DỤNG VÀO BÀI TOÁN QUẢN LÝ ĐÀO TẠO Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. ĐỖ TRUNG TUẤN Hà Nội - 2014 LỜI CAM ĐOAN Dưới sự giúp đỡ nhiệt tình và chỉ bảo chi tiết của giáo viên hướng dẫn, tôi đã hoàn thành luận văn của mình. Tôi xin cam kết luận văn này là của bản thân tôi làm và nghiên cứu, không hề trùng hay sao chép của bất kỳ ai. Tài liệu được sử dụng trong luận văn được thu thập từ các nguồn kiến thức hợp pháp, sử dụng mã nguồn mở. Luận văn này đã được chỉnh sửa bổ sung theo yêu cầu của hội đồng chấm. Học viên Nguyễn Thị Việt 4 LỜI CẢM ƠN Để hoàn thành chương trình cao học và viết luận văn này, em đã nhận được sự giúp đỡ và đóng góp nhiệt tình của các thầy cô trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Trước hết, em xin chân thành cảm ơn các thầy cô trong khoa Đào tạo sau đại học, khoa Công nghệ thông tin trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu trong suốt những năm học qua. Em xin gửi lời biết ơn sâu sắc tới các thầy cô Bộ môn Hệ thống Thông tin, đã dành rất nhiều thời gian và tâm huyết hướng dẫn, chỉ bảo em trong suốt quá trình thực hiện đề tài. Em xin cảm ơn thầy Nguyễn Văn Đính và Ban giám hiệu Trường Đại học Hà Tĩnh, các anh chị trong Bộ môn Hệ thống Thông tin , Khoa Ki ̃ thuâ ̣t Công ngh ệ đã giúp đỡ em trong quá trình học tập và hoàn thành luận văn tốt nghiệp. Xin chân thành cảm ơn gia đình, bạn bè đã nhiệt tình ủng hộ, giúp đỡ, động viên cả về vật chất lẫn tinh thần trong thời gian học tập và nghiên cứu. Đặc biệt, em xin chân thành cảm ơn thầy giáo PGS.TS. Đỗ Trung Tuấn. Thầy đã nhiệt tình hướng dẫn em hoàn thành tốt nghiệp. Trong quá trình thực hiện luận văn, mặc dù đã rất cố gắng nhưng cũng không tránh khỏi những thiếu sót. Kính mong nhận được sự cảm thông và tận tình chỉ bảo của các thầy cô và các bạn. Học viên Nguyễn Thị Việt 5 MỤC LỤC MỤC LỤC ..............................................................................................................5 DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................7 DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU ............................................................8 LỜI MỞ ĐẦU .......................................................................................................10 Chương 1. Về cơ sở dữ liệu phân tán ...................................................................11 1.1. Tiến hóa của mô hình cơ sở dữ liệu ...........................................................11 1.1.1. Mô hình cơ sở dữ liệu .........................................................................12 1.1.2. Hạn chế của mô hình cơ sở dữ liệu thế hệ thứ hai ..............................13 1.1.3. Mô hình dữ liệu phân tán ....................................................................13 1.2. Hạ tầng cho cơ sở dữ liệu phân tán ............................................................21 1.2.1. Hạ tầng truyền thông ..........................................................................21 1.2.2. Hạ tầng máy chủ và máy trạm ............................................................22 1.3. Kết luận ......................................................................................................25 Chương 2. Thiết kế cơ sở dữ liệu phân tán ...........................................................26 2.1. Quá trình thiết kế cơ sở dữ liệu phân tán ...................................................26 2.1.1. Lợi ích của hệ thống phân tán .............................................................26 2.1.2. Đảm bảo kĩ thuật thiết kế cho hệ thống phân tán ...............................26 2.2. Phân mảnh dữ liệu .....................................................................................28 2.2.1. Phân mảnh ngang ................................................................................28 2.2.2. Phân mảnh dọc ....................................................................................33 2.3. Câu hỏi trong hệ thống phân tán ................................................................ 34 2.3.1. Bài toán xử lý vấn tin..........................................................................34 2.3.2. Các tầng của quá trình xử lý truy vấn .................................................35 2.3.3. Phân rã truy vấn ..................................................................................36 2.4. Kết luận ......................................................................................................42 Chương 3. Xây dựng cơ sở dữ liệu phân tán phục vụ quản lý đào tạo .................43 3.1. Đặt bài toán phục vụ đào tạo .....................................................................43 3.2. Hiện trạng tin học hóa tại đại học Hà Tĩnh................................................43 3.3. Đề xuất cơ sở dữ liệu phân tán tại ĐH Hà Tĩnh ........................................45 6 3.3.1. Hạ tầng công nghệ thông tin sử dụng trong bài toán ..........................45 3.3.2. Cấu hình SQL Server phân tán tại Trường đại học Hà Tĩnh ..............47 3.4. Phân tích, thiết kế cơ sở dữ liệu quản lý đào tạo .......................................49 3.4.1. Lược đồ khái niệm của CSDL ............................................................49 3.4.2. Phân đoạn dữ liệu ...............................................................................51 3.4.3. Định vị dữ liệu ....................................................................................54 3.4.4. Thiết lập cơ sở dữ liệu phân tán trên các trạm....................................54 3.4.5. Các chức năng chính ...........................................................................56 3.5. Kết luận ......................................................................................................57 KẾT LUẬN...........................................................................................................58 Kết quả của luận văn.....................................................................................58 Hướng nghiên cứu tiếp theo .........................................................................58 TÀI LIỆU THAM KHẢO ....................................................................................59 7 DANH MỤC CÁC TỪ VIẾT TẮT ANSI American National Standards Institute Client Khách, Máy khách Client/ server Khách / chủ CSDL Cơ sở dữ liệu CSDLPT Cơ sở dữ liệu phân tán Datawarehouse Kho dữ liệu DB Database DC Data Communication DD Data Dictionary DDB Distributed DataBase DDBMS Distributed Data Base Management System IDE Integrated Development Environment ISO International Organization for Standardization Server Máy chủ, phía máy chủ SQL Structured Query Language WPF Windows Presentation Foundation XML eXtensible Markup Language 8 DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU Hình 1.1. Môi trường hệ thống cơ sở dữ liệu phân tán .........................................14 Hình 1.2. Kiến trúc điển hình của cơ sở dữ liệu phân tán ....................................16 Hình 1.3. Các phân mảnh và mô hình vật lý cho một quan hệ toàn cục ..............17 Hình 1.4. Kiến trúc cơ sở dữ liệu phân tán với mạng máy tính ............................19 Hình 1.5. Môi trường cơ sở dữ liệu phân tán đồng nhất.......................................20 Hình 1.6. Môi trường cơ sở dữ liệu phân tán không đồng nhất............................21 Hinh 1.7. Yêu cầu truy cập từ xa ..........................................................................21 Hình 1.8. Truy cập từ xa qua chương trình phụ ...................................................22 Hình 1.9. Tương tác khách/ chủ............................................................................23 Hình 1.10. Hệ thống xử lí phân tán đối với công ty sản xuất ...............................24 Hinh 2.1. Thiết kế theo cách từ trên xuống ..........................................................27 Hình 2.2. Biểu diễn mối liên hệ giữa các quan hệ nhờ các đường nối. ................29 Bảng 2.3. Dữ liệu của bảng quan hê ̣ Môn học......................................................30 Bảng 2.4. Các dữ liệu thành phần .........................................................................31 Hình 2.5. Dữ liệu thí dụ phân mảnh ngang ...........................................................32 Hình 2.6. Phân tích, xử lí câu hỏi trong cơ sở dữ liệu phân tán ...........................36 Hình 2.7. Đồ thị câu hỏi, tức đồ thị vấn tin ..........................................................39 Hình 2.8. Đồ thị nối quan hê ................................................................................. 39 ̣ Hình 2.9. Cây đại số quan hê ................................................................................ 40 ̣ Hình 2.10. Cây đại số quan hê ̣ đã cấ u trúc lại ......................................................42 Hình 3.1. Trang thông tin của Trường Đại học Hà Tĩnh ......................................44 Hình 3.2. Giải pháp Data Warehouse ...................................................................45 Hình 3.3. Thiết lập tài khoản ................................................................................47 Hình 3.4. Thiết lập tường lửa................................................................................47 Hình 3.5. Cấu hình dịch vụ SQL SERVER ..........................................................48 Hình 3.6. Các thành phần nhân bản ......................................................................49 Hình 3.7. Bảng dữ liệu Khoa ................................................................................49 Hình 3.8. Bảng dữ liệu Ngành học .......................................................................50 Hình 3.9. Bảng dữ liệu Lớp ..................................................................................50 9 Hình 3.10. Bảng dữ liệu Môn học ........................................................................50 Hình 3.11. Bảng dữ liệu Sinh viên .......................................................................50 Hình 3.12. Bảng dữ liệu Điểm ..............................................................................50 Hình 3.13. Lược đồ quan hệ giữa các thực thể .....................................................51 Bảng 3.14. Bảng mã các khoa ..............................................................................51 Hình 3.15. Thiết lập cơ sở dữ liệu trên các trạm ..................................................54 Hình 3.16. Máy khách theo tin cậy khách/chủ .....................................................55 Hình 3.17. Thí dụ dữ liệu sau khi phân mảnh ngang, tại máy khách ...................55 Hình 3.18. Thí dụ dữ liệu sau khi phân mảnh ngang, tại máy chủ .......................56 Hình 3.19. Giao diện quản lý dữ liệu sinh viên ....................................................56 Hình 3.20. Giao diện thông tin học phần ..............................................................56 Hình 3.21. Giao diện cập nhật điểm học phần ......................................................57 Hình 3.22. Giao diện tra cứu điểm học phần ........................................................57 10 LỜI MỞ ĐẦU Hiện nay, cùng với xu hướng phát triển chung, khối lượng công việc cần thực hiện ngày càng lớn, lượng dữ liệu cần lưu trữ và các thao tác xử lý chúng ngày càng tăng trong khi đó các đặc điểm về qui mô, tổ chức và nghiệp vụ, các kho dữ liệu lại được phân bố trải rộng ở nhiều nơi khác nhau, sử dụng những công nghệ khác nhau, khả năng liên kết là rất hạn chế đối với các ngành nói chung, và ngành giáo dục nói riêng, đặc biệt là trong công tác quản lý đào tạo tại các trường Đại học. Quy trình đào tạo với khối lượng công việc lớn cần được quản lý một cách khoa học. Thông thường, trong hệ thống quản lý đào tạo của một trường đại học, có khối lượng dữ liệu và công việc lớn liên quan đến từng đơn vị trực thuộc như phòng ban, trung tâm, khoa và bộ môn. Nhưng theo mô hình quản lý truyền thống hiện nay thì gần như việc quản trị dữ liệu và các thao tác quản lý khác đều tập trung tại đơn vị chủ quản về đào tạo của trường, ví dụ như phòng Đào tạo. Với cách tổ chức đó sẽ làm tốn thời gian, dữ liệu có thể không đồng bộ, gây ảnh hưởng đến hiệu quả của quản lý đào tạo. Do vậy, việc ứng dụng các kiến thức về cơ sở dữ liệu phân tán để tổ chức dữ liệu về quản lý đào tạo là cần thiết và có vai trò quan trọng trong công tác quản lý giáo dục của chúng ta hiện nay. Luận văn chọn đề tài “Mô hình cơ sở dữ liệu phân tán và áp dụng vào bài toán quản lý đào tạo” với mục đích tìm hiểu về tổ chức dữ liệu trên địa bàn phân tán; trên cơ sở đó phân tích, thiết kế cơ sở dữ liệu quản lý đào tạo nhằm nâng cao công tác quản lý trong ngành giáo dục. Do vấn đề tổ chức, khai thác dữ liệu của ngành giáo dục nói chung, của Hà Tĩnh nói riêng yêu cầu nhiều khối lượng công việc, trong khuôn khổ luận văn này, hạn chế chỉ với dữ liệu về điểm thi học phần của trường Đại học Hà Tĩnh. Trong phạm vi thực hiện của đề tài sẽ phân tích, thiết kế cơ sở dữ liệu quản lý điểm thi học phần tại trường Đại học Hà Tĩnh. Luận văn chia thành các chương: 1. Về cơ sở dữ liệu phân tán; 2. Thiết kế cơ sở dữ liệu phân tán; 3. Xây dựng cơ sở dữ liệu phân tán phục vụ quản lý đào tạo. Cuối luận văn là phần kết luận và tài liệu tham khảo. Việc tham gia ứng dụng công nghệ thông tin vào ngành giáo dục đòi hỏi nhiều cố gắng. Học viên làm việc tại cơ sở đào tạo thuộc trường Đại học Hà Tĩnh, được khuyến khích thực hiện đề tài này, những kết quả mới chỉ là bước đầu. Những kết quả của học viên nhằm mục đích thử nghiệm, phục vụ trực tiếp công tác đào tạo trong trường. 11 Chƣơng 1. Về cơ sở dữ liệu phân tán 1.1. Tiến hóa của mô hình cơ sở dữ liệu Về các ưu nhược điểm của tiếp cận cơ sở dữ liệu phân tán , người ta th ấy so với các cơ sở dữ liệu tập trung, mỗi dạng cơ sở dữ liệu phân tán đ ều có những ưu, nhược điểm. Các ưu điểm gồm: 1. Tăng độ tin cậy và khả năng sẵn sàng. Hệ thống tập trung sẽ không làm việc, khi có thành phần bị lỗi . Tuy nhiên, với hệ thống phân tán có thể tiếp tục làm việc, với thành phần còn lại . Tính tin cậy và khả năng sẵn sàng sẽ tùy thuộc vào cách phân tán dữ liệu; 2. Điều khiển cục bộ. Việc phân tán dữ liệu sẽ dẫn đến các nhóm cụ c bộ, để thực hiện các điều khiển lớn hơn , làm tăng khả năng quản trị và toàn vẹn . Những người dùng có thể truy cập đến nút địa phương để truy cập dữ liệu , đối với những công việc liên quan đến xử lí cục bộ; 3. Tăng tính modun. Giả sử tổ chức mở rộng đến địa điểm mới, dẫn đến việc trang bị máy tính và các dữ liệu đi kèm . Khi đó nên dùng tiếp cận hệ thống cơ sở dữ liệu phân tán , thay vì mở rộng hệ thống tập trung . Vả lại, nếu mở rộng hệ thống đang dùng có thể gây phiền phức cho người dùng của hệ thống tập trung đó; 4. Chi phí truyền thông thấp. Với hệ thống phân tán , dữ liệu có thể đặt gần nơi sử dụng. Điều này sẽ giảm chi phí truyền thông, so với hệ thống tập trung; 5. Trả lời nhanh hơn. Tùy theo cách phân tán dữ liệu , hầu hết các yêu cầu của người dùng về dữ liệu có thể được đáp ứng ngay tại nút đó; tuy nhiên có một vài yêu cầu cần dữ liệu ở xa. Khi đó một yêu cầu được phân rã, để xử lí tại các nút phù hợp; việc này giúp giảm thời gian xử lí và giảm chi phí truyền thông, do chỉ truyền thông các kết quả trung gian. Hệ thống cơ sở dữ liệu phân tán cũng có những nhược điểm: 1. Phần mềm sẽ phức tạp và chi phí cao hơn . Môi trường phân tán cần đến phần mềm quản trị cơ sở dữ liệu phức tạp hơn, so với hệ thống tập trung; 2. Gia tăng xử lí. Ngoài việc xử lí dữ liệu, người ta cần truyền các thông báo giữa các nút khác nhau; 3. Toàn vẹn dữ liệu. Hệ thống sử du ̣ng các bản sao, làm giảm tính nhất quán. Mặt khác, các điều kiện toàn vẹn khó đảm bảo hơn, so với hệ thống tập trung; 4. Trả lời chậm. Cơ sở dữ liệu phân tán đáp ứng y êu cầu nhanh hơn , nhưng cũng có các yêu cầu không xử lí nhanh được . Sự chậm trễ trả lời các yêu cầu là do dữ liệu phân bố chưa hợp lí, đối với các lớp câu hỏi người dùng. 12 1.1.1. Mô hình cơ sở dữ liệu Nghiên cứu mô hình cơ sở dữ liệu dựa trên các yêu cầu sau:  Mục tiêu độc lập dữ liệu: Phải xác định rõ ràng các khía cạnh logic và khía cạnh vật lý của việc quản trị cơ sở dữ liệu, bao gồm việc thiết kế các hệ cơ sở dữ liệu, các thao tác và tìm kiếm dữ liệu bằng các công cụ ngôn ngữ con dữ liệu.  Mục tiêu trao đổi: Mô hình dữ liệu đơn giản về cấu trúc, sao cho người sử dụng có cách nhìn trong suốt khi truy nhập vào các hệ cơ sở dữ liệu và có khả năng trao đổi với nhau về cơ sở dữ liệu.  Mục tiêu xử lý tệp: Người sử dụng có thể sử dụng ngôn ngữ bậc cao để biểu diễn các phép toán trên các mảng thông tin, kỹ thuật xử lý theo lô (batch), mà không phải xử lý tuần tự theo từng bản ghi.  Mô hình được xây dựng trên cơ sở lý thuyết vững chắc, chặt chẽ. Mô hình dữ liệu là một hệ thống hình thức toán học, bao gồm: 1. Hệ thống các ký hiệu biểu diễn dữ liệu; 2. Tập hợp các phép toán thao tác trên cơ sở dữ liệu. Đặc trưng của một mô hình dữ liệu: 1. Tính ổn định khi thiết kế mô hình dữ liệu; 2. Tính đơn giản có nghĩa là dễ hiểu và dễ thao tác; 3. Tính dư thừa cần phải kiểm tra kỹ lưỡng; 4. Tính đối xứng phải được bảo toàn; 5. Có cơ sở lý thuyết vững chắc. Mô hình dữ liệu là sự trừu tượng hoá môi trường thực. Mỗi loại mô hình dữ liệu đặc trưng cho một cách tiếp cận dữ liệu khác nhau của những nhà phân tích thiết kế CSDL. Mỗi loại mô hình dữ liệu đều có những ưu điểm và những mặt hạn chế của nó, nhưng vẫn có những mô hình dữ liệu nổi trội và được nhiều người quan tâm nghiên cứu. Câu hỏi đặt ra là phân biệt giữa các mô hình dữ liệu như thế nào? Tổ chức dữ liệu theo mô hình nào là tốt nhất? Trong thực tế chưa có mô hình dữ liệu nào được gọi là tốt nhất. Tốt nhất phụ thuộc vào yêu cầu truy xuất và khai thác thông tin của đơn vị quản lý nó, nó được sử dụng ở đâu và vào lúc nào. Về cơ bản, người ta thường dựa vào các tiêu chí sau để đánh giá: 1. Mục đích: Phần lớn các mô hình dữ liệu sử dụng hệ thống ký hiệu để biểu diễn dữ liệu và làm nền tảng cho các hệ ứng dụng và ngôn ngữ thao tác dữ liệu. 13 2. Hướng giá trị hay hướng đối tượng. 3. Tính dư thừa: Tất cả các mô hình dữ liệu đều có khả năng hỗ trợ lưu trữ dữ liệu vật lý và hạn chế sự dư thừa dữ liệu. Tuy nhiên các mô hình dữ liệu hướng đối tượng giải quyết sự dư thừa tốt hơn, bằng cách tạo ra và sử dụng con trỏ đến nhiều vị trí khác nhau. 4. Giải quyết mối quan hệ nhiều – nhiều: Phần lớn trong các mô hình cơ sở dữ liệu có chứa các mối quan hệ một – một, một – nhiều, nhiều – nhiều. 1.1.2. Hạn chế của mô hình cơ sở dữ liệu thế hệ thứ hai Vào những năm sáu mươi, thế hệ đầu tiên của CSDL ra đời dưới dạng mô hình thực thể kết hợp, mô hình mạng và mô hình phân cấp. Vào những năm bảy mươi, thế hệ thứ hai của CSDL ra đời. Đó là mô hình dữ liệu quan hệ do EF. Codd phát minh. Mô hình này có cấu trúc logic chặt chẽ. Đây là mô hình đã và đang được sử dụng rộng khắp trong công tác quản lý trên phạm vi toàn cầu. Việc nghiên cứu mô hình dữ liệu quan hệ nhằm vào lý thuyết chuẩn hoá các quan hệ và là một công cụ quan trọng trong việc phân tích thiết kế các hệ CSDL hiện nay. Mục đích của nghiên cứu này nhằm bỏ đi các phần tử không bình thường của quan hệ khi thực hiện các phép cập nhật, loại bỏ các phần tử dư thừa. Sang thập kỷ tám mươi, mô hình CSDL thứ ba ra đời, đó là mô hình cơ sở dữ liệu hướng đối tượng, mô hình cơ sở dữ liệu phân tán, mô hình cơ sở dữ liệu suy diễn,… Mô hình cơ sở dữ liệu quan hệ là hệ thống xử lý tập trung, nó bộc lộ những nhược điểm sau:  Tăng khả năng lưu trữ thông tin là khó khăn, bởi bị giới hạn tối đa của thiết bị nhớ.  Độ sẵn sàng phục vụ của cơ sở dữ liệu không cao khi số người sử dụng tăng.  Khả năng tính toán của các máy tính đơn lẻ đang dần tới giới hạn vật lý.  Mô hình tổ chức lưu trữ, xử lý dữ liệu tập trung không phù hợp cho những tổ chức kinh tế, xã hội có hoạt động rộng lớn, đa quốc gia. Những nhược điểm này đã được khắc phục khá nhiều trong hệ thống phân tán. Những sản phẩm của các hệ thống phân tán đã xuất hiện nhiều trên thị trường và từng bước chứng minh tính ưu việt của nó hơn hẳn các hệ thống tập trung truyền thống. 1.1.3. Mô hình dữ liệu phân tán 1.1.3.1. Hệ thống phân tán Hệ thống phân tán là tập hợp các máy tính độc lập kết nối với nhau thành một mạng máy tính được cài đặt các hệ cơ sở dữ liệu và các phần mềm hệ thống phân tán 14 tạo khả năng cho nhiều người sử dụng truy nhập chia sẻ nguồn thông tin chung. Các máy tính trong hệ thống phân tán có kết nối phần cứng lỏng lẻo, có nghĩa là không chia sẻ bộ nhớ, chỉ có một hệ điều hành trong toàn bộ hệ thống phân tán. Các mạng máy tính được xây dựng dựa trên kỹ thuật Web, ví dụ như mạng Internet, mạng Intranet… là các mạng phân tán. 1.1.3.2. Cơ sở dữ liệu phân tán Theo Nguyễn Văn Huân, Phạm Việt Bình [7]: Một CSDL phân tán là một tập hợp nhiều CSDL có liên đới logic và được phân bố rải rác trên nhiều máy trong một mạng máy tính.  Tính chất phân tán: Toàn bộ dữ liệu của CSDL phân tán không được cư trú ở một nơi mà cư trú ra trên nhiều trạm thuộc mạng máy tính, điều này giúp chúng ta phân biệt CSDL phân tán với CSDL tập trung đơn lẻ.  Tương quan logic: Toàn bộ dữ liệu của CSDL phân tán có một số các thuộc tính ràng buộc chúng với nhau, điều này giúp chúng ta có thể phân biệt một CSDL phân tán với một tập hợp CSDL cục bộ hoặc các tệp cư trú tại các vị trí khác nhau trong một mạng máy tính. Hình 1.1. Môi trƣờng hệ thống cơ sở dữ liệu phân tán Trong hệ thống cơ sở dữ liệu phân tán gồm nhiều trạm, mỗi trạm có thể khai thác các giao tác truy nhập dữ liệu trên nhiều trạm khác. 1.1.3.3. So sánh cơ sở dữ liệu phân tán và cơ sở dữ liệu tập trung Cơ sở dữ liệu tập trung cùng với cơ sở dữ liệu không qua thiết kế hình thành trước khi có cơ sở dữ liệu phân tán. Hai hình thức này phát triển trên cơ sở tự phát và hệ thống tập trung. Như vậy hai hình thức này không đáp ứng được yêu cầu tổ chức và công việc trên phạm vi lớn. Cơ sở dữ liệu phân tán được thiết kế khác cơ sở dữ liệu tập trung. Do đó cần đối sánh các đặc trưng của cơ sở dữ liêu phân tán với cơ sở dữ liệu tập trung để thấy được 15 lợi ích của cơ sở dữ liệu phân tán. Đặc trưng mô tả cơ sở dữ liệu tập trung là điều khiển tập trung, độc lập dữ liệu, giảm bớt dư thừa, cơ cấu vật lý phức tạp đối với khả năng truy cập, toàn vẹn, hồi phục, điều khiển tương tranh, biệt lập và an toàn dữ liệu.  Điều khiển tập trung: Điều khiển tập trung các nguồn thông tin của công việc hay tổ chức. Có người quản trị đảm bảo an toàn dữ liệu. Trong cơ sở dữ liệu phân tán, không đề cập đến vấn đề điều khiển tập trung. Người quản trị cơ sở dữ liệu chung phân quyền cho người quản trị cơ sở dữ liệu địa phương.  Độc lập dữ liệu: Là một trong những nhân tố tác động đến cấu trúc cơ sở dữ liệu để tổ chức dữ liệu chuyển cho chương trình ứng dụng. Tiện lợi chính của độc lập dữ liệu là các chương trình ứng dụng không bị ảnh hưởng khi thay đổi cấu trúc vật lý của dữ liệu. Trong cơ sở dữ liệu phân tán, độc lập dữ liệu có tầm quan trọng cũng như trong cơ sở dữ liệu truyền thống. Khái niệm cơ sở dữ liệu trong suốt mô tả hoạt động chương trình trên cơ sở dữ liệu phân tán được viết như làm việc trên cơ sở dữ liệu tập trung. Hay nói cách khác tính đúng đắn của chương trình không bị ảnh hưởng bởi việc di chuyển dữ liệu từ nơi này sang nơi khác trong mạng máy tính. Tuy nhiên tốc độ làm việc bị ảnh hưởng do có thời gian di chuyển dữ liệu.  Giảm dư thừa dữ liệu: Trong cơ sở dữ liệu tập trung, tính dư thừa hạn chế được càng nhiều càng tốt vì (i) Dữ liệu không đồng nhất khi có vài bản sao của cùng cơ sở dữ liệu logic; để tránh được nhược điểm này giải pháp là chỉ có một bản sao duy nhất; (ii) Giảm không gian lưu trữ. Giảm dư thừa có nghĩa là cho phép nhiều ứng dụng cùng truy cập đến một cơ sở dữ liệu mà không cần đến nhiều bản sao ở những nơi chương trình ứng dụng cần.  Cấu trúc vật lý và khả năng truy cập: Người sử dụng truy cập đến cơ sở dữ liệu tập trung phải thông qua cấu trúc truy cập phức tạp: định vị cơ sở dữ liệu, thiết lập đường truyền...  Tính toàn vẹn, hồi phục và điều khiển tương tranh: Mặc dù trong cơ sở dữ liệu, tính toàn vẹn, hồi phục và điều khiển đồng thời liên quan nhiều vấn đề liên quan lẫn nhau. Mở rộng hơn vấn đề này là việc cung cấp các giao tác. Giao tác là đơn vị cơ bản của việc thực hiện: giao tác cụ thể là bó công việc được thực hiện toàn bộ hoặc không được thực hiện. Trong cơ sở dữ liệu phân tán, vấn đề điều khiển giao tác tự trị có ý nghĩa quan trọng: Hệ thống điều phối phải chuyển đổi các quỹ thời gian cho các giao tác liên tiếp. Như vậy giao tác tự trị là phương tiện đạt được sự toàn vẹn trong cơ sở dữ liệu. Có hai mối nguy hiểm của giao tác tự trị là lỗi và tương tranh.  Tính biệt lập và an toàn: Trong cơ sở dữ liệu truyền thống, người quản trị hệ thống có quyền điều khiển tập trung, người sử dụng có chắc chắn được phân 16 quyền mới truy cập vào được dữ liệu. Điểm quan trọng là trong cách tiếp cận cơ sở dữ liệu tập trung, không cần thủ tục điều khiển chuyên biệt. Trong cơ sở dữ liệu phân tán, những người quản trị địa phương cũng phải giải quyết vấn đề tương tự như người quản trị cơ sở dữ liệu truyền thống. 1.1.3.4. Kiến trúc cơ bản của cơ sở dữ liệu phân tán Đây không là kiến trúc tường minh cho tất cả các CSDL phân tán, tuy vậy kiến trúc này thể hiện tổ chức của bất kỳ một CSDL phân tán nào. Hình 1.2. Kiến trúc điển hình của cơ sở dữ liệu phân tán Theo Phạm Thế Quế [8], người ta có thể tổ chức cơ sở dữ liệu theo một số dạng, tuy nhiên có những dạng chính như sau: 1. Lược đồ toàn cục. Lược đồ toàn cục định nghĩa tất cả dữ liệu được chứa trong cơ sở dữ liệu phân tán như trong cơ sở dữ liệu tập trung. Vì vậy, lược đồ toàn cục được định nghĩa chính xác như định nghĩa lược đồ cơ sở dữ liệu tập trung. Tuy nhiên, mô hình dữ liệu lược đồ toàn cục cần phải tương thích với việc định nghĩa các ánh xạ tới các mức của cơ sở dữ liệu phân tán. Vì vậy mô hình dữ liệu quan hệ sẽ được sử dụng trong kiến trúc mô hình tham chiếu cơ sở dữ liệu phân tán, định nghĩa một tập các quan hệ toàn cục. 2. Lược đồ phân mảnh. Mỗi quan hệ toàn cục có thể chia thành nhiều phần không chồng lặp lên nhau được gọi là phân mảnh. Ánh xạ giữa các quan hệ toàn cục và phân mảnh được định nghĩa là lược đồ phân mảnh. Ánh xạ này là mối quan hệ một - nhiều. Ví dụ, nhiều phân mảnh tương ứng với một quan hệ toàn cục, nhưng chỉ một quan hệ toàn cục tương ứng với một phân mảnh. Các phân mảnh được chỉ ra bằng tên của quan hệ toàn cục với một chỉ số (chỉ số phân mảnh). Ví dụ, Ri chỉ đến phân mảnh thứ i trong quan hệ toàn cục R. Các 17 kiểu phân mảnh dữ liệu bao gồm phân mảnh ngang và phân mảnh dọc và một kiểu phân mảnh phức tạp hơn là sự hết hợp của 2 loại trên. Trong tất cả các kiểu phân mảnh, một phân mảnh có thể được định nghĩa bằng một biểu thức ngôn ngữ quan hệ cho các quan hệ toàn cục như là các toán hạng và kết quả đầu ra là các phân mảnh. 3. Lược đồ cấp phát. Các phân mảnh là những phần logic của các quan hệ toàn cục được chứa ở một hay nhiều trạm trong mạng. Lược đồ cấp phát xác định các phân mảnh được chứa ở những trạm nào. Tất cả các phân mảnh tương ứng với cùng một quan hệ R và được lưu ở cùng một trạm j tạo thành một mô hình vật lý của quan hệ toàn cục lên trạm j. Do đó, có một ánh xạ một - một giữa một mô hình vật lý và một cặp là một quan hệ toàn cục được định danh và một chỉ số trạm tương ứng với một mô hình vật lý. Ký hiệu Rji tương ứng với mô hình vật lý mảnh thứ i của quan hệ R trên trạm j. Có thể định nghĩa một bản sao của một phân mảnh tại một trạm cho trước và kí hiệu bằng tên quan hệ toàn cục R và hai chỉ số. Ví dụ R32 để chỉ bản sao của phân mảnh R2 được chứa ở trạm 3. Hai mô hình vật lý có thể giống nhau, như là bản sao của nhau. Lược đồ các trạm phụ thuộc: gồm lược đồ ánh xạ cục bộ, DBMS của các trạm cục bộ, cơ sở dữ liệu ở trạm đó. Hình 1.3. Các phân mảnh và mô hình vật lý cho một quan hệ toàn cục 4. Lược đồ ánh xạ cục bộ. Do ba mức đầu các trạm độc lập, nên chúng không phụ thuộc vào mô hình dữ liệu của DBMS cục bộ. Ở mức thấp hơn, nó cần phải ánh xạ mô hình vật lý thành các đối tượng được thao tác bởi các DBMS cục bộ. Ánh xạ này được gọi là lược đồ ánh xạ cục bộ và phụ thuộc vào kiểu của DBMS cục bộ. Trong hệ thống không đồng nhất có các kiểu khác nhau của ánh xạ cục bộ tại các trạm khác nhau. Yếu tố quan trọng nhất để thiết kế 18 kiến trúc này là: (i) Phân mảnh và cấp phát dữ liệu; (ii) Quản lí dư thừa dữ liệu; (iii) Sự độc lập của các DBMS cục bộ; 5. DBMS ở các trạm cục bộ độc lập. Tính năng trong suốt trong ánh xạ cục bộ cho phép xây dựng một hệ thống cơ sở dữ liệu phân tán đồng nhất hoặc không đồng nhất. Trong hệ thống đồng nhất, các lược đồ độc lập của một trạm được định nghĩa sử dụng cùng một mô hình như DBMS cục bộ nhưng trong hệ thống không đồng nhất thì các lược đồ ánh xạ cục bộ dùng để phối hợp các kiểu khác nhau của DBMS… 1.1.3.5. Hệ quản trị cơ sở dữ liệu phân tán Hệ quản trị cơ sở dữ liệu phân tán đi ều phối các truy cập dữ liệu tại các nút khác nhau. Mặc dù mỗi nút đều có hệ quản trị cơ sở dữ liệu, quản lý cơ sở dữ liệu cục bộ tại nút đó, theo Buretta, năm 1997, hệ quản trị cơ sở dữ liệu phân tán có các ch ức năng sau: 1. Theo vết vị trí lưu dữ liệu trong từ điển dữ liệu phân tán . Điều có nghĩa đối với người dùng, chỉ có một cơ sở dữ liệu logic, theo một lược đồ; 2. Quyết định vị trí cho phép tìm kiếm dữ liệu yêu cầu và vị trí cho phép xử lí dữ liệu, không có trợ giúp của người phát triển hay người dùng ; 3. Chuyển hóa câu hỏi xử lí dữ liệu tại một nút, với hệ quản trị cơ sở dữ liệu, thành các câu hỏi, trên nhiều nút, với hệ quản trị cơ sở dữ liệu phân tán; 4. Đảm bảo các chức năng quản trị dữ liệu, như an toàn, tương tranh và điều khiển khóa chết, tối ưu câu hỏi toàn thể, tự động khôi phục sai sót; 5. Đảm bảo nhất quán các bản sao dữ liệu trên các nút, tức dùng các giao thức cam kết nhiều pha; 6. Thể hiện cơ sở dữ liệu logic có phân bố phân tán về vật lí . Một phân luồng khung nhìn dữ liệu dựa vào khóa chính toàn thể. Bất kể được lưu tại đâu, các đối tượng cần thỏa các điều kiện về khóa chính. Các đối tượng khác nhau liên quan với nhau theo các khóa chính khác nhau; 7. Mở rộng được. Tính mở rộng liên quan đến khả năng thay đổi kích thước , trở nên không đồng nhất , khi có nhu cầu thay đổi kinh doanh . Do vậy, cơ sở dữ liệu phân tán cần động , có khả năng thay đổi trong giới hạn có lí, mà không cần thiết kế lại. Tính mở rộng được còn mang nghĩa dễ dàng bổ sung hay loại bỏ các nút; 8. Sao lại cả dữ liệu lẫn các thủ tục trên các nút của cơ sở dữ liệu phân tán Nhu cầu phân tán các thủ tục xuất phát từ các lí do như đối với dữ liệu; . 9. Sử dụng trong suốt năng lực tính toán để cải thiện hiệu năng của xử lí cơ sở dữ liệu. Điều này có nghĩa cùng một câu hỏi cơ sở dữ liệu sẽ được xử lí tại 19 các nút khác nhau, theo cách khác nhau, khi yêu cầu vào những lúc khác nhau, tùy theo tải cụ thể trong cơ sở dữ liệu phân tá n tại thời điểm yêu cầu; 10. Cho phép các nút khác nhau chạy các hệ quản trị cơ sở dữ liệu khác nhau. Phần đệm được dùng cho hệ quản trị cơ sở dữ liệu phân tán và mỗi hệ quản trị cơ sở dữ liệu, để giấu sự khác nhau trong ngôn ngữ hỏi và ngữ cảnh của dữ liệu cục bộ. 11. Cho phép các phiên bản khác nhau của ứng dụng , trên các nút khác nhau của cơ sở dữ liệu phân tán . Trong tổ chức lớn , với nhiều máy chủ , việc sử du ̣ng cùng phiên bản phần mềm là không thực tế. Không phải tất cả các hệ quản trị cơ sở dữ liệu phân tán đ ều thực hiện được các chức năng liệt kê trên. Sáu chức năng đầu tiên có trong hầu hết các hệ quản trị cơ sở dữ liệu phân tán khả thi. Các chức năng sau được xếp theo thứ tự quan trọng giảm dần. Về khái niệm, có thể có các hệ quản trị cơ sở dữ liệu khác nhau trên mỗi nút cục bộ, với một hệ quản trị chính với vai trò điều khiển tương tác trên các phần của cơ sở dữ liệu. Môi trường như vậy được gọi là cơ sở dữ liệu phân tán không đ ồng nhất, như đã định nghĩa. Dù rằng ngày nay không duy trì được không đồng nhất hoàn toàn, lí tưởng, người ta vẫn có các sản phẩm với khả năng hạn chế, trên cùng kiến trúc dữ liệu. Hình 1.4. Kiến trúc cơ sở dữ liệu phân tán với mạng máy tính Hình vẽ cho thấy kiến trúc thông dụng của hệ thống máy tính, có khả năng của hệ quản trị cơ sở dữ liệu phân tán.  Mỗi nút có hệ quản trị cơ sở dữ liệu cục bộ, quản trị dữ liệu tại nút đó;  Mỗi nút có bản sao của hệ quản trị cơ sở dữ liệu phân tán , và từ điển, thư mục dữ liệu liên quan; mỗi từ điển dữ liệu chứa vị trí của tất cả dữ liệu trong mạng, 20 cũng như đặc tả dữ liệu.  Các yêu cầu, của người dùng hay của chương trin ̀ h ứng du ̣ng , được hệ quản trị phân tán xử lí trước tiên, rồi quyết định đó là giao tác cục bộ hay toàn thể.  Đối với giao tác cục bộ , hệ quản trị phân tán chuyển yêu cầu đến hệ qu ản trị cục bộ; đối với giao tác toàn thể , hệ quản trị phân tán dẫn đường yêu cầu đến các nút tương ứng . Hệ quản trị phân tán tại các nút tham gia sẽ trao đổi thông báo, để điều phối quá trình của giao tác, cho đến khi nó hoàn thành;  Hệ quản trị, và mô hình dữ liệu, tại một trạm có thể khác với trạm khác . Trong trường hợp này, hệ quản trị phân tán cần chuyển hóa các yêu cầu , để chúng có thể được xử lí tại hệ quản trị cục bộ. Khả năng quản lý hệ quản trị và các mô hình dữ liệu, hỗn hợp là phát triển đầu tiên trong các sản phẩm thương mại. Kiến trúc như trong hình đã giả thiết các bản sao của hệ quản trị phân tán và t ừ điển dữ liệu đều có tại mỗi trạm. Cũng có thể đặt chúng trên trạm tập trung; và tiếp cận tập trung có thể khó khắc phục lỗi. Hệ quản trị cơ sở dữ liệu phân tán s ẽ cô lập người dùng kh ỏi các phức tạp của quản trị phân tán . Tức hệ quản trị cơ sở dữ liệu phân tán là trong su ốt về vị trí dữ liệu trong mạng, cũng như các khía cạnh khác của hệ thống phân tán . Bốn mục tiêu của hệ quản trị cơ sở dữ liệu phân tán t ạo điều kiện dễ dàng kiến thiết chương trin ̀ h và tìm kiếm dữ liệu trong hệ thống phân tán (i) trong suốt về vị trí; (ii) trong suốt về bản sao; (iii) trong suốt về lỗi; (iv) trong suốt về tương tranh. Khái niệm trong suốt về tương tranh liên quan đến giao thức cam kết. Khách Hệ quản trị cơ sở dữ liệu phân tán Phần mềm hệ quản trị cơ sở dữ liệu Khách Lược đồ chung, tổng quát Phần mềm hệ quản trị cơ sở dữ liệu Hình 1.5. Môi trƣờng cơ sở dữ liệu phân tán đồng nhất
- Xem thêm -