BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NÔNG LÂM THÀNH PHỐ HỒ CHÍ MINH
TIỂU LUẬN TỐT NGHIỆP
XÂY DỰNG HỆ THỐNG THÔNG TIN ĐỊA LÝ HỖ TRỢ THỂ HIỆN
CÁC HỘI THẢO ỨNG DỤNG GIS
Họ và tên sinh viên: NGUYỄN THỊ THANH TÂM
Ngành: Hệ thống Thông tin Địa lý
Niên khóa: 2014 – 2018
Tháng 7/2018
XÂY DỰNG HỆ THỐNG THÔNG TIN ĐỊA LÝ HỖ TRỢ THỂ HIỆN
CÁC HỘI THẢO ỨNG DỤNG GIS
Tác giả
NGUYỄN THỊ THANH TÂM
Tiểu luận được đệ trình để đáp ứng yêu cầu
cấp bằng Kĩ sư ngành Hệ thống Thông tin Địa lý
Giáo viên hướng dẫn:
Th.S Khưu Minh Cảnh
Tháng 7 năm 2018
LỜI CẢM ƠN
Đầu tiên, tôi xin chân thành cảm ơn thầy Th.S Khưu Minh Cảnh, cán bộ công tác
tại Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh, người đã trực tiếp hướng dẫn
tôi hoàn thành đề tài tốt nghiệp này. Cảm ơn thầy đã tận tình chỉ bảo, hỗ trợ, chia sẻ
kinh nghiệm và động viên tôi trong suốt thời gian qua về bài luận.
Tôi xin gửi lời tri ân sâu sắc đến thầy PGS.TS Nguyễn Kim Lợi, thầy KS.
Nguyễn Duy Liêm, quý thầy cô trường Đại học Nông Lâm Thành phố Hồ Chí Minh
cùng với tập thể lớp DH14GI. Cảm ơn quý thầy cô, quý anh chị và các bạn về những
kiến thức, kinh nghiệm và sự giúp đỡ chân tình đã dành cho tôi trong suốt bốn năm
học tập tại trường.
Nguyễn Thị Thanh Tâm
Khoa Môi trường và Tài nguyên
Trường Đại học Nông Lâm TP. Hồ Chí Minh
Số điện thoại: 01667.042.048
Email:
[email protected]
i
TÓM TẮT
Đề tài “Xây dựng hệ thống thông tin địa lý hỗ trợ thể hiện các Hội thảo Ứng
dụng GIS” đã được thực hiện trong khoảng thời gian từ tháng 3/2018 đến tháng
6/2018.
Đề tài thực hiện nghiên cứu xây dựng hệ thống web hỗ trợ thể hiện các nghiên
cứu của hội thảo Ứng dụng GIS để hỗ trợ người dùng nhanh chóng tìm kiếm các
nghiên cứu đã được thực hiện ở đâu, cung cấp thông tin về không gian của các nghiên
cứu đảm bảo tính chính xác.
Đề tài thực hiện nghiên cứu về web trên nền tảng sử dụng ngôn ngữ lập trình
Python, HTML, hệ quản trị cơ sở dữ liệu PostgresSQL/PostGIS, máy chủ mã nguồn
mở Geoserver. Đề tài tiến hành thu thập, phân tích, thiết kế CSDL, thiết kế trang web
và xây dựng trang web hỗ trợ thể hiện các hội thảo GIS.
Đề tài đã đạt được kết quả cụ thể:
Hoàn thành việc phân tích và xây dựng CSDL PostgreSQL/PostGIS.
Hoàn thành việc thiết kế chức năng và thiết kế giao diện web thể hiện
không gian nơi thực hiện bài nghiên cứu, đưa ra danh sách các bài
nghiên cứu và nơi thực hiện.
Xây dựng thành công giao diện dòng thời gian (Timeline) thể hiện chủ
đề, thời gian, vị trí diễn ra Hội thảo.
ii
MỤC LỤC
LỜI CẢM ƠN .............................................................................................................. i
TÓM TẮT ...................................................................................................................ii
DANH MỤC BẢNG BIỂU ........................................................................................ vi
DANH MỤC HÌNH ẢNH ......................................................................................... vii
CHƯƠNG 1. MỞ ĐẦU ............................................................................................... 1
1.1. Tính cấp thiết của đề tài ........................................................................................ 1
1.2. Mục tiêu nghiên cứu ............................................................................................. 1
1.3. Đối tượng và phạm vi nghiên cứu ......................................................................... 2
CHƯƠNG 2. TỔNG QUAN TÀI LIỆU....................................................................... 3
2.1. Thông tin chung về hội thảo GIS........................................................................... 3
2.1.1. Mục tiêu chung của hội thảo .......................................................................... 3
2.1.2. Nội dung của hội thảo .................................................................................... 3
2.2 Tổng quan cơ sở dữ liệu ....................................................................................... 4
2.2.1. Dữ liệu........................................................................................................... 4
2.2.2. Quản lý dữ liệu .............................................................................................. 4
2.2.3. Các mô hình CSDL. ....................................................................................... 5
2.2.4. Hệ quản trị CSDL. ......................................................................................... 8
2.3. Tổng quan khai thác dữ liệu ................................................................................ 11
2.3.1. Tổ chức và khai thác cơ sở dữ liệu truyền thống .......................................... 11
2.3.2. Tổng quan về kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD –
Knowledge Discovery and Data Mining) ............................................................... 13
Hình 1.1 Quá trình phát hiện tri thức.......................................................................... 14
2.3.3 Các phương pháp khai thác dữ liệu ............................................................... 15
2.3.4 Các lĩnh vực liên quan đến phát hiện tri thức và khai thác dữ liệu ................. 16
2.4. WebGIS .............................................................................................................. 17
2.4.1. Khái niệm .................................................................................................... 17
2.4.2. Kiến trúc của WebGIS ................................................................................. 18
iii
2.4.3. Chức năng của WebGIS ............................................................................... 19
2.4.4. Tiềm năng của WebGIS ............................................................................... 19
2.4.5. Các phương thức phát triển của WebGIS. .................................................... 19
2.5. Các công nghệ nền tảng ...................................................................................... 20
2.5.1. PostgreSQL ................................................................................................. 20
2.5.2 Phần mềm mã nguồn mở Geoserver.............................................................. 21
2.5.3. Thư viện Leaflet .......................................................................................... 23
2.6. Tình hình nghiên cứu liên quan đến vấn đề nghiên cứu ....................................... 23
2.6.1 Trên thế giới ................................................................................................. 23
2.6.2 Trong nước ................................................................................................... 23
CHƯƠNG 3. PHƯƠNG PHÁP NGHIÊN CỨU ........................................................ 25
3.1. Sơ đồ phương pháp nghiên cứu. .......................................................................... 25
3.1.1. Thu thập dữ liệu ............................................................................................... 25
3.1.2. Xây dựng cơ sở dữ liệu .................................................................................... 25
CHƯƠNG 4. KẾT QUẢ, THẢO LUẬN ................................................................... 31
4.1. Dữ liệu ................................................................................................................ 31
4.2. Giao diện trang Timeline. ................................................................................... 33
4.3. Giao diện tương tác bản đồ ................................................................................. 34
CHƯƠNG 5 KẾT LUẬN, KIẾN NGHỊ.................................................................... 38
5.1. Kết luận .............................................................................................................. 38
5.2. Kiến nghị. ........................................................................................................... 38
TÀI LIỆU THAM KHẢO ......................................................................................... 39
iv
DANH MỤC VIẾT TẮT
Tên viết tắt
Cụm từ Tiếng Anh
CSDL
Cụm từ Tiếng Việt
Cơ sở dữ liệu
GIS
Geographic Information System
Hệ thống thông tin địa lý
SWAT
Soil and Water Assessment Tool
Mô hình SWAT
GPS
Global Positioning System
Hệ thống định vị toàn cầu
UAV
Unmanned Aerial Vehicle
Phương tiện hàng không không
người lái
RS
Remote Sensing
Công nghệ Viễn thám
GNSS
Global Navigation Satellite System
Hệ thống vệ tinh định vị toàn cầu
SQL
Structured Query Language
Ngôn ngữ truy vấn có cấu trúc
v
DANH MỤC BẢNG BIỂU
Bảng 3. 1. Kiểu dữ liệu thuộc tính bai_bao ................................................................ 26
Bảng 3. 2. Kiểu dữ liệu thuộc tính tinh_thanh ............................................................ 26
Bảng 3. 3. Kiểu dữ liệu thuộc tính quan_huyen.......................................................... 27
vi
DANH MỤC HÌNH ẢNH
Hình 1.1 Quá trình phát hiện tri thức.......................................................................... 14
Hình 1. 2. Giao diện Geoserver .................................................................................. 23
Hình 1. 3. Sơ đồ phương pháp nghiên cứu ................................................................. 25
Hình 3. 1. Tạo Database mới ..................................................................................... 28
Hình 3. 2.Mô tả giao diện trang Timeline .................................................................. 28
Hình 3. 3. Mô tả giao diện tương tác bản đồ .............................................................. 29
Hình 3. 4. Minh họa giao diện phần mềm .................................................................. 30
Hình 4. 1. Kết quả dữ liệu bài báo sau khi đưa vào PostgreSQL ................................ 31
Hình 4. 2. Kết quả dữ liệu tỉnh/thành sau khi đưa vào PostgreSQL ............................ 32
Hình 4. 3. Kết quả dữ liệu quận/huyện sau khi đưa vào PostgreSQL.......................... 32
Hình 4. 4. Bản đồ Việt Nam trên Geoserver ............................................................... 33
Hình 4. 5. Giao diện trang Timeline ........................................................................... 34
Hình 4. 6. Giao diện bản đồ khi chưa tìm kiếm .......................................................... 35
Hình 4. 7. Giao diện bản đồ khi phóng to ................................................................... 35
Hình 4. 8. Giao diện bản đồ khi thu nhỏ..................................................................... 36
Hình 4. 9. Giao diện bản đồ khi thực hiện lệnh tìm kiếm ........................................... 36
Hình 4. 10. Giao diện bản đồ sau khi thực hiện tìm kiếm ........................................... 37
vii
CHƯƠNG 1. MỞ ĐẦU
1.1. Tính cấp thiết của đề tài
Ngày nay công nghệ GIS đã có những bước phát triển và ứng dụng không chỉ
trong lĩnh vực địa lý mà còn trong nhiều lĩnh vực khác của khoa học và của cuộc sống
hàng ngày như: Đô thị hóa, phát triển cơ sở hạ tầng, du lịch, nông nghiệp…. Một trong
những thế mạnh của công nghệ GIS là khả năng bản đồ hóa các thông tin và các kiểu
cơ sở dữ liệu nhằm đưa ra bộ cơ sở dữ liệu cho phép người sử dụng có thể lưu trữ, xử
lý, phân tích,…và các thao tác liên quan đến thông tin, để phục vụ cho mục tiêu của đề
tài nghiên cứu.
Tại Việt Nam, có rất nhiều các bài báo, nghiên cứu liên quan đến GIS đã được
thực hiện và đưa ra giới thiệu trong Hội thảo Ứng dụng GIS Toàn Quốc được diễn ra
hằng năm từ 2009 đến nay với rất nhiều đề tài khác nhau. Tuy nhiên, các nghiên cứu
qua mỗi năm ngày một tăng lên và chỉ những người tham gia hội thảo được tiếp cận,
các đối tượng không thể tham gia chỉ cập nhật nghiên cứu qua “Kỷ yếu hội thảo”.
Việc thu thập, tổng hợp các nghiên cứu theo năm, chủ đề, phương pháp nhằm
giúp người quan tâm đến công nghệ GIS dễ dàng tìm kiếm, tham khảo các nghiên cứu
đã được thực hiện như thế nào? ở đâu?..., là việc hết sức cần thiết cho các đối tượng
như sinh viên, người quan tâm về GIS dễ dàng tiếp cận học tập, tham khảo.
Trong những năm gần đây, Internet ngày càng phát triển mạnh mẽ cho phép
người dùng chia sẻ thông tin lên web và tương tác với nhau. Việc xây dựng hệ thống
thông tin địa lý về các nghiên cứu GIS kết hợp xây dựng web tìm kiếm thông tin, tạo
điều kiện cho người muốn tìm hiểu về GIS dễ dàng tiếp cận các bài nghiên cứu mà họ
quan tâm.
Xuất phát từ những lý do trên đề tài “Xây dựng hệ thống thông tin địa lý hỗ trợ
thể hiện các Hội thảo Ứng dụng GIS” đã được thực hiện.
1.2. Mục tiêu nghiên cứu
Mục tiêu chung: Xây dựng trang web hỗ trợ thể hiện các hội thảo Ứng dụng GIS
theo khu vực.
Mục tiêu cụ thể:
Tìm hiểu và ứng dụng giao diện javascript thể hiện chuỗi thời gian (Timeline)
về các Hội thảo GIS.
1
Xây dựng web bằng công nghệ Geoserver, Python… .
1.3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: các bài nghiên cứu trong “Kỷ yếu Hội thảo Ứng dụng
GIS toàn quốc 2015”
Phạm vi nghiên cứu: phạm vi nghiên cứu đề tài giới hạn trong Hội thảo Ứng
dụng GIS toàn quốc năm 2015.
2
CHƯƠNG 2. TỔNG QUAN TÀI LIỆU
2.1. Thông tin chung về hội thảo GIS.
Sau sự kiện Hội thảo GIS toàn quốc 2009 được trường Đại học Khoa học - Đại
học Huế tổ chức thành công; Đại học Huế đã phối hợp cùng mạng lưới GIS Việt Nam
để đồng tổ chức cùng với trường Đại học Nông Lâm TPHCM (2010); trường Đại học
Sư Phạm - Đại học Đà Nẵng (2011); trường Đại học Tài nguyên và Môi trường TP
HCM (2012); trường Đại học Nông nghiệp 1 Hà Nội (2013); trường Đại học Cần Thơ
(2014), trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội (2015). Tiếp
theo đó, năm 2016 Đại học Huế đăng cai tổ chức hội thảo "Ứng dụng GIS toàn quốc
2016".
Tiếp nối thành công Hội thảo “Ứng dụng GIS toàn quốc 2017” đã được tổ chức
tại Trường Đại học Quy Nhơn và cũng như các lần hội thảo trước đó, Hội thảo "Ứng
dụng GIS toàn quốc 2018" dự kiến sẽ tổ chức vào ngày 27 tháng 10 năm 2018 tại Viện
Địa lý Tài nguyên TPHCM, Viện Hàn lâm Khoa học Công nghệ Việt Nam, với chủ đề
“Hướng tới đô thị thông minh”.
2.1.1. Mục tiêu chung của hội thảo
Trao đổi về những kết quả nghiên cứu ứng dụng GIS, Viễn thám trong thời gian
qua và thảo luận hướng nghiên cứu, hợp tác và phát triển các nghiên cứu khoa học liên
quan đến GIS trong thời gian tới.
Nâng cao năng lực ứng dụng GIS, Viễn thám trong nghiên cứu khoa học, quản lý nhà
nước, giáo dục và phát triển cộng đồng tại Việt Nam.
2.1.2. Nội dung của hội thảo
Hội thảo “Ứng dụng GIS toàn quốc năm 2015” với chủ đề “Phát triển bền vững
và hội nhập”.
Gồm có 6 tiểu ban với nhiều báo cáo hấp dẫn và nhiều ứng dụng mới của
GIS trong các lĩnh vực cụ thể:
Tiểu ban A: Công nghệ GIS.
Tiểu ban B: GIS, Viễn thám trong quản lý tài nguyên thiên nhiên và môi
trường.
3
Tiểu ban C: GIS, Viễn thám trong nghiên cứu tai biến thiên nhiên.
Tiểu ban D: UAV,GPS, Cơ sở dữ liệu.
Tiểu ban E: Quy hoạch không gian và giám sát.
Tiểu ban F: Sự phát triển của GIS.
Hội thảo GIS toàn quốc 2015, đoàn giáo viên khoa Tài Nguyên Đất và Môi
Trường Nông nghiệp đã đến tham dự và tham gia nhiều báo cáo khoa học ở các tiểu
ban, góp phần giới thiệu các sản phẩm khoa học của khoa trong ứng dụng GIS ở các
lĩnh vực quản lý tài nguyên, quản lý đất đai và một số lĩnh vực khác. Cũng trong đợt
tham gia Hội thảo vửa rồi, đại diện đoàn Đại học Huế đã nhận cờ luân lưu đơn vị đăng
cai tổ chức Hội thảo GIS toàn quốc năm 2016 tại thành phố Huế, với sự kết hợp tổ
chức của hai trường Đại Học Nông Lâm Huế và trường Đại Học Khoa Học – Đại học
Huế, trong đó có sự tham gia chính của khoa Tài Nguyên Đất và Môi trường Nông
nghiệp.
2.2 Tổng quan cơ sở dữ liệu
2.2.1. Dữ liệu
Dữ liệu là sự biểu diễn của các đối tượng, sự kiện được ghi nhận và được lưu
trữ trên các phương tiện của máy tính.
Dữ liệu có cấu trúc: số, ngày, chuỗi ký tự, …
Dữ liệu không có cấu trúc: hình ảnh, âm thanh, đoạn phim, …
2.2.2. Cơ sở dữ liệu
Cơ sở dữ liệu (CSDL) là tập hợp dữ liệu được tổ chức có cấu trúc liên quan với
nhau và được lưu trữ trong máy tính.
CSDL được thiết kế, xây dựng cho phép người dùng lưu trữ dữ liệu, truy xuất
thông tin hoặc cập nhật dữ liệu.
CSDL được tổ chức có cấu trúc:
Các dữ liệu được lưu trữ có cấu trúc thành các bản ghi, các trường dữ
liệu.
Các dữ liệu lưu trữ có mối quan hệ với nhau.
2.2.2. Quản lý dữ liệu
Quản lý dữ liệu: là quản lý một số lượng lớn dữ liệu, bao gồm cả việc lưu trữ và
cung cấp thao tác cho phép thêm, sửa, xóa dữ liệu và truy vấn dữ liệu.
Hai phương pháp quản lý dữ liệu:
4
Hệ thống quản lý bằng file.
Hệ thống quản lý bằng CSDL.
Quản lý dữ liệu bằng file
Dữ liệu được lưu trữ trong các file riêng biệt.
Nhược điểm của việc quản lý bằng file:
Dư thừa và mâu thuẫn dữ liệu.
Kém hiệu quả trong truy xuất ngẫu nhiên hoặc xử lý đồng thời.
Dữ liệu lưu trữ rời rạc.
Gặp vấn đề về an toàn và bảo mật.
Quản lý dữ liệu bằng CSDL
Quản lý dữ liệu bằng CSDL giúp dữ liệu được lưu trữ một cách hiệu quả và có tổ
chức, cho phép quản lý dữ liệu nhanh chóng và hiệu quả.
Lợi ích của hệ thống quản lý bằng CSDL:
Tránh dư thừa, trùng lặp dữ liệu.
Đảm bảo sự nhất quán trong CSDL.
Các dữ liệu lưu trữ có thể được chia sẻ.
Duy trì tính toàn vẹn dữ liệu.
Đảm bảo bảo mật dữ liệu.
2.2.3. Các mô hình CSDL.
Khái niệm
Mô hình dữ liệu file
phẳng
Mô hình dữ liệu phân
cấp
Ưu điểm
CSDL dạng file phẳng Mô hình này chỉ
thường là file kiểu văn sử dụng CSDL
đơn giản.
bản chứa dữ liệu dạng
Nhược điểm
bảng.
Mô hình này
không thể xử
lý dữ liệu phức
tạp, nó có thể
là
nguyên
nhân gây dư
thừa khi dữ
liệu được lặp
lại nhiều lần.
Tổ chức theo hình cây, Dữ liệu được lưu
chung trong một
mỗi nút biểu diễn một
CSDL vì vậy dữ
thực thể dữ liệu.
liệu có thể chia
sẻ dễ dàng, cung
Liên hệ dữ liệu thể hiện
cấp việc bảo mật
Một nút con
không có quá
1 nút cha
không
biểu
diễn được các
5
trên liên hệ giữa nút cha và tính thực thi quan hệ phức
bởi một hệ quản tạp.
và nút con. Mỗi nút cha
trị CSDL.
có thể có một hoặc Sự độc lập dữ
liệu được cung
nhiều nút con, nhưng
cấp
bởi
mỗi nút con chỉ có thể một DBMS, làm
giảm bớt đi công
có một nút cha.
sức
và
chi
Do đó mô hình phân cấp phí trong việc
duy trì chương
thể hiện các kiểu quan
trình.
hệ:
1-1
1-N
Mô hình dữ liệu mạng
Mô hình dữ liệu mạng Dễ biểu diễn mô Truy
biểu diễn bởi một đồ thị hình.
xuất
chậm.
có hướng và các mũi tên Diễn đạt được Không
thích
chỉ từ kiểu thực thể cha các liên hệ dữ hợp với các
sang kiểu thực thể con.
liệu phức tạp.
CSDL có quy
mô lớn.
Mô hình dữ liệu quan
hệ
Cấu trúc chính để biểu
diễn dữ liệu trong mô
hình
quan
hệ
là
các quan hệ. Một quan
hệ chứa lược đồ quan
hệ và minh họa quan hệ.
Một trường hợp quan hệ
là một bảng và lược đồ
quan hệ biểu diễn những
tên cột trong bảng. Dữ
liệu trong hai bảng liên
hệ với nhau thông qua
các cột chung.
6
Mô hình dữ liệu
Ra đời vào khoảng đầu
hướng đối tượng
năm 90, dựa trên cách
tiếp cận của phương
pháp lập trình hướng
đối tượng.
CSDL bao gồm các đối
tượng:
Mỗi đối tượng
bao
gồm
các
thuộc
tính,
phương
thức
(hành vi) của đối
tượng.
Các đối tượng
trao đổi với nhau
thông
qua
các
phương thức.
Một đối tượng có
thể được sinh ra
từ việc thừa kế từ
đối tượng khác,
nạp chồng (hay
định nghĩa lại)
phương thức của
đối tượng khác…
7
2.2.4. Hệ quản trị CSDL.
A. Định nghĩa
Hệ quản trị cơ sở dữ liệu (Database Management System - DBMS): Là một hệ
thống phần mềm cho phép tạo lập cơ sở dữ liệu và điều khiển mọi truy nhập đối với cơ
sở dữ liệu đó.
Trên thị trường phần mềm hiện nay ở Việt Nam đã xuất hiện khá nhiều phần
mềm hệ quản trị cơ sở dữ liệu như: Microsoft Access, Foxpro, DB2, SQL Server,
Oracle,.v.v…
Hệ quản trị cơ sở dữ liệu quan hệ (Relation Database Management System - RDBMS)
là một hệ quản trị cơ sở dữ liệu theo mô hình quan hệ.
B. Các khả năng của hệ quản trị CSDL.
Có hai khả năng chính cho phép phân biệt các hệ quản trị cơ sở dữ liệu với các
kiểu hệ thống lập trình khác:
Khả năng quản lý dữ liệu tồn tại lâu dài: đặc điểm này chỉ ra rằng có một
cơ sở dữ liệu tồn tại trong một thời gian dài, nội dung của cơ sở dữ liệu
này là các dữ liệu mà hệ quản trị CSDL truy nhập và quản lý.
Khả năng truy nhập các khối lượng dữ liệu lớn một cách hiệu quả. Ngoài
hai khả năng cơ bản trên, hệ quản trị CSDL còn có các khả năng khác
mà có thể thấy trong hầu hết các hệ quản trị CSDL đó là:
Hỗ trợ ít nhất một mô hình dữ liệu hay một sự trừu tượng toán học mà
qua đó người sử dụng có thể quan sát dữ liệu.
Ðảm bảo tính độc lập dữ liệu hay sự bất biến của chương trình ứng dụng
đối với các thay đổi về cấu trúc trong mô hình dữ liệu.
Hỗ trợ các ngôn ngữ cao cấp nhất định cho phép người sử dụng định
nghĩa cấu trúc dữ liệu, truy nhập dữ liệu và thao tác dữ liệu.
Quản lý giao dịch, có nghĩa là khả năng cung cấp các truy nhập đồng
thời, đúng đắn đối với CSDL từ nhiều người sử dụng tại cùng một thời
điểm.
Ðiều khiển truy nhập, có nghĩa là khả năng hạn chế truy nhập đến các dữ
liệu bởi những người sử dụng không được cấp phép và khả năng kiểm tra
tính đúng đắn của CSDL.
8
Phục hồi dữ liệu, có nghĩa là có khả năng phục hồi dữ liệu, không làm
mất mát dữ liệu với các lỗi hệ thống.
C. Các khái niệm của hệ quản trị CSDL quan hệ
Các khái niệm trong mô hình dữ liệu quan hệ:
Mô hình dữ liệu quan hệ: Làm việc trên bảng hay trên quan hệ. Trong đó: Mỗi
cột là một thuộc tính, mỗi dòng là một bộ (một bản ghi).
Miền (domain) là một tập các giá trị hoặc các đối tượng.
Thực thể là một đối tượng cụ thể hay trừu tượng trong thế giới thực mà nó tồn
tại và có thể phân biệt được với các đối tượng khác.
Thuộc tính (Attribute): Là tính chất của thực thể.
Các thực thể có các đặc tính, được gọi là các thuộc tính. Nó kết hợp với
một thực thể trong tập thực thể từ miền giá trị của thuộc tính. Thông
thường, miền giá trị của một thuộc tính là một tập các số nguyên, các số
thực, hay các chuỗi ký tự.
Một thuộc tính hay một tập thuộc tính mà giá trị của nó xác định duy
nhất mỗi thực thể trong tập các thực thể được gọi là khoá đối với tập
thực thể này.
Mỗi một thuộc tính nhận tập số các giá trị nhất định được gọi là domain
của thuộc tính đó.
Một quan hệ (Relation): Định nghĩa một cách đơn giản, một quan hệ là một
bảng dữ liệu có các cột là các thuộc tính và các hàng là các bộ dữ liệu cụ thể của quan
hệ.
Các liên kết: Một liên kết là một sự kết hợp giữa một số thực thể (hay quan hệ).
Các liên kết một – một: đây là dạng liên kết đơn giản, liên kết trên hai
thực thể là một – một, có nghĩa là mỗi thực thể trong tập thực thể này có
nhiều nhất một thực thể trong tập thực thể kia kết hợp với nó và ngược
lại.
Các liên kết một – nhiều: Trong một liên kết một – nhiều, một thực thể
trong tập thực thể A được kết hợp với không hay nhiều thực thể trong
tập thực thể B. Nhưng mỗi thực thể trong tập thực thể B được kết hợp
với nhiều nhất một thực thể trong tập thực thể A.
9
Các liên kết nhiều – nhiều: Ðây là dạng liên kết mà mỗi thực thể trong
tập thực thể này có thể liên kết với không hay nhiều thực thể trong tập
thực thể kia và ngược lại.
D. Các chức năng của hệ quản trị CSDL quan hệ
Các chức năng của hệ quản trị CSDL quan hệ có thể được phân thành các tầng
chức năng như:
Tầng giao diện (Interface layer): Quản lý giao diện với các ứng dụng.
Các chương trình ứng dụng CSDL được thực hiện trên các khung nhìn
(view) của CSDL. Ðối với một ứng dụng, khung nhìn rất có ích cho việc
biểu diễn một hình ảnh cụ thể về CSDL (được dùng chung bởi nhiều ứng
dụng). Khung nhìn quan hệ là một quan hệ ảo, được dẫn xuất từ các quan
hệ cơ sở (base relation) bằng cách áp dụng các phép toán đại số quan hệ.
Tầng điều khiển (Control Layer): chịu trách nhiệm điều khiển câu vấn
tin bằng cách đưa thêm các vị từ toàn vẹn ngữ nghĩa và các vị từ cấp
quyền.
Tầng xử lý vấn tin (Query processing layer): chịu trách nhiệm ánh xạ câu
vấn tin thành chuỗi thao tác đã được tối ưu ở mức thấp hơn. Tầng này
liên quan đến vấn đề hiệu năng. Nó phân rã câu vấn tin thành một cây
biểu thị các phép toán đại số quan hệ và thử tìm ra một thứ tự “tối ưu”
cho các phép toán này. Kết xuất của tầng này là câu vấn tin được diễn tả
bằng đại số quan hệ hoặc một dạng mã ở mức thấp.
Tầng thực thi (Execution layer): Có trách nhiệm hướng dẫn việc thực
hiện các hoạch định truy xuất, bao gồm việc quản lý giao dịch (uỷ thác,
tái khởi động) và động bộ hoá các phép đại số quan hệ. Nó thông dịch
các phép toán đại số quan hệ bằng cách gọi tầng truy xuất dữ liệu qua
các yêu cầu truy xuất và cập nhật.
Tầng truy xuất dữ liệu (data access layer): Quản lý các cấu trúc dữ liệu
dùng để cài đặt các quan hệ (tập tin, chỉ mục). Nó quản lý các vùng đệm
bằng cách lưu tạm các dữ liệu thường được truy xuất đến nhiều nhất. Sử
dụng tầng này làm giảm thiểu việc truy xuất đến đĩa.
10
Tầng duy trì nhất quán (Consistency layer): chịu trách nhiệm điều khiển
các hoạt động đồng thời và việc ghi vào nhật ký các yêu cầu cật nhật.
Tầng này cũng cho phép khôi phục lại giao dịch, hệ thống và thiết bị sau
khi bị sự cố.
E. Các ưu điểm của mô hình dữ liệu quan hệ
Cấu trúc dữ liệu dễ dùng, không cần hiểu biết sâu về kỹ thuật cài đặt.
Cải thiện tính độc lập dữ liệu và chương trình.
Cung cấp ngôn ngữ thao tác phi thủ tục.
Tối ưu hoá cách truy xuất dữ liệu.
Tăng tính bảo mật và toàn vẹn dữ liệu.
Cung cấp các phương pháp thiết kế có hệ thống. Và mở ra cho nhiều loại ứng
dụng (lớn và nhỏ).
Khoá của quan hệ:
Khoá của quan hệ (key): Là tập các thuộc tính dùng để phân biệt hai bộ
bất kỳ trong quan hệ.
Khoá ngoại của quan hệ (Foreign Key): Một thuộc tính được gọi là khoá
ngoại của quan hệ nếu nó là thuộc tính không khoá của quan hệ này
nhưng là thuộc tính khoá của quan hệ khác.
2.3. Tổng quan khai thác dữ liệu
2.3.1. Tổ chức và khai thác cơ sở dữ liệu truyền thống
Việc dùng các phương tiện tin học để tổ chức và khai thác cơ sở dữ liệu (CSDL)
đã được phát hiện từ những năm 60 của thế kỷ trước. Từ đó cho đến nay, rất nhiều
CSDL đã được tổ chức, phát triển và khai thác ở mọi quy
mô và các lĩnh vực hoạt
động của con người và xã hội. Theo như đánh giá cho thấy, lượng thông tin trên thế
giới cứ sau 20 tháng lại tăng lên gấp đôi. Kích thước và số lượng CSDL thậm chí còn
tăng nhanh hơn. Với sự phát triển của công nghệ điện tử, sự phát triển mạnh mẽ của
công nghệ phần cứng tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý có tốc độ cao cùng
với sự phát triển của các hệ thống viễn thông, người ta đã và đang xây dựng các hệ
thống thông tin nhằm tự động hoá mọi hoạt động của con người. Điều này đã tạo ra
một dòng dữ liệu tăng lên không ngừng vì ngay cả những hoạt động đơn giản như gọi
11