Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Phân cụm dữ liệu dựa trên mật độ và ứng dụng ...

Tài liệu Phân cụm dữ liệu dựa trên mật độ và ứng dụng

.PDF
70
173
103

Mô tả:

1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ NGỌC THANH PHÂN CỤM DỮ LIỆU DỰA TRÊN MẬT ĐỘ VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN – 2016 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ NGỌC THANH Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 3 PHÂN CỤM DỮ LIỆU DỰA TRÊN MẬT ĐỘ VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học TS. NGUYỄN HUY ĐỨC Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 4 THÁI NGUYÊN – 2016 LỜI CÁM ƠN Để hoàn thành được luận văn này, trước hết em xin gửi lời cảm ơn sâu sắc nhất tới TS. Nguyễn Huy Đức, đã tận tình hướng dẫn, chỉ bảo, định hướng, đóng góp những ý kiến quý báu trong suốt quá trình em thực hiện luận văn. Em xin chân thành cảm ơn các thầy, cô giáo trong trường Đại học Công nghệ thông tin và Truyền thông Thái Nguyên đã tạo mọi điều kiện tốt nhất để em hoàn thành khóa học này. Đồng thời, em cũng xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích và giúp đỡ tôi trong mọi hoàn cảnh khó khăn. Tôi xin cảm ơn cơ quan và các đồng nghiệp đã hết sức tạo điều kiện cho tôi trong suốt quá trình học tập và làm luận văn này. Thái Nguyên, ngày 17 tháng 09 năm 2016. Học viên Vũ Ngọc Thanh Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 5 MỤC LỤC MỤC LỤC ......................................................................................................... 1 DANH MỤC HÌNH ẢNH ................................................................................ 7 DANH MỤC TỪ VIẾT TẮT ............................................................................ 8 MỞ ĐẦU ........................................................................................................... 9 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM DỮ LIỆU ................................................................................................................ 11 1.1. Tổng quan về khai phá dữ liệu ............................................................. 11 1.1.1. Khái niệm ...................................................................................... 11 1.1.2. Tiến trình khai phá dữ liệu ............................................................ 12 1.1.3. Các mô hình khai phá dữ liệu ....................................................... 14 1.1.4. Các hướng tiếp cận và kỹ thuật sử dụng trong khai phá dữ liệu... 15 1.1.5. Các dạng dữ liệu có thể khai phá .................................................. 16 1.1.6. Các ứng dụng của khai phá dữ liệu ............................................... 17 1.2. Tổng quan về phân cụm dữ liệu ........................................................... 19 1.2.1. Khái niệm ...................................................................................... 19 1.2.2. Các mục tiêu của phân cụm dữ liệu .............................................. 20 1.2.3. Các ứng dụng của phân cụm dữ liệu ............................................. 22 1.2.4. Các yêu cầu của phân cụm dữ liệu................................................ 23 1.2.5. Những vấn đề còn tồn tại trong phân cụm dữ liệu ........................ 26 1.2.6. Một số khái niệm cần thiết khi tiếp cận phân cụm dữ liệu ........... 26 1.2.7. Những kỹ thuật tiếp cận trong phân cụm dữ liệu.......................... 31 CHƯƠNG 2: PHÂN CỤM DỮ LIỆU DỰA TRÊN MẬT ĐỘ ...................... 37 2.1. Giới thiệu.............................................................................................. 37 2.2. Thuật toán DBSCAN ........................................................................... 38 2.3. Thuật toán DBRS ................................................................................. 49 2.4. Thuật toán OPTICS .............................................................................. 55 2.5. Thuật toán DENCLUDE ...................................................................... 56 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM ................ 60 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 6 3.1. Ý tưởng bài toán ................................................................................... 60 3.2. Nguồn dữ liệu đầu vào ......................................................................... 60 3.3. Phương pháp giải quyết bài toán .......................................................... 60 3.4. Kết quả thực nghiệm ............................................................................ 61 KẾT LUẬN ..................................................... Error! Bookmark not defined. TÀI LIỆU THAM KHẢO ............................................................................... 66 PHỤ LỤC ........................................................................................................ 67 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 7 DANH MỤC HÌNH ẢNH Hình 1.1: Tiến trình khám phá tri thức từ cơ sở dữ liệu Hình 1.2: Kiến trúc điển hình của một hệ khai phá dữ liệu Hình 1.3: Ví dụ về phân cụm dữ liệu Hình 1.4: Ví dụ phân cụm các ngôi nhà dựa trên khoảng cách Hình 1.5: Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ Hình 2.1: Ví dụ về đối tượng nòng cốt, đối tượng biên và đối tượng nhiễu Hình 2.2: Ví dụ về mật độ đạt được trực tiếp Hình 2.3: Ví dụ về mật độ đạt được Hình 2.4: Ví dụ về mật độ liên thông Hình 2.5: Minh họa đồ thị khoảng cách 4-dist đã được sắp xếp của một CSDL Hình 2.6: Kết quả thực nghiệm đánh giá thời gian thực hiện thuật toán (tính theo giây) trên 2 thuật toán của nhóm tác giả Hình 2.7: Các cụm phát hiện được bởi CLARANS (a) và DBSCAN (b) Hình 2.8: Các cụm được phát hiện bởi DBRS(a), DBSCAN(b), K-Means(c), CLARANS(d) Hình 2.9: Sắp xếp cụm trong OPTICS phụ thuộc vào ɛ Hình 2.10: DENCLUE với hàm phân phối Gaussian Hình 3.1: Kết qua sau khi phân cụm của chương trình thực nghiệm Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 8 DANH MỤC TỪ VIẾT TẮT Từ hoặc cụm từ Từ viết tắt Từ tiếng Anh Cơ sở dữ liệu CSDL Database Khai phá tri thức trong cơ sở dữ liệu KDD Knowledge Discovery in Databases Khai phá tri thức KPTT Knowledge Discovery Khai phá dữ liệu KPDL Data Mining Phân cụm dữ liệu PCDL Data Clustering Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 9 MỞ ĐẦU Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không ngừng của ngành công nghệ thông tin nói chung và trong các ngành công nghệ phần cứng, phần mềm, truyền thông và hệ thống các dữ liệu phục vụ trong các lãnh vực kinh tế - xã hội nói riêng. Thì việc thu thập thông tin cũng như nhu cầu lưu trữ thông tin càng ngày càng lớn. Bên cạnh đó việc tin học hóa một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí ... trong đó có nhiều cơ sở dữ liệu cực lớn cỡ Gigabyte, thậm chí là Terabyte. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kĩ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền công nghệ thông tin thế giới hiện nay. Một vấn đề được đặt ra là phải làm sao trích chọn được những thông tin có ý nghĩa từ tập dữ liệu lớn để từ đó có thể giải quyết được các yêu cầu của thực tế như trợ giúp ra quyết định, dự đoán,… và khai phá dữ liệu (Data mining) đã ra đời nhằm giải quyết các yêu cầu đó. Ngay từ những ngày đầu khi xuất hiện, Data mining đã trở thành một trong những xu hướng nghiên cứu phổ biến trong lĩnh vực học máy tính và công nghệ tri thức. Nhiều thành tựu nghiên cứu của Data mining đã được áp dụng trong thực tế. Data mining có nhiều hướng quan trọng và một trong các hướng đó là phân cụm dữ liệu (Data Clustering). Phân cụm dữ liệu là quá trính tìm kiếm để phân ra các cụm dữ liệu, các mẫu dữ liệu từ tập Cơ sở dữ liệu lớn. Phân cụm dữ liệu là một phương pháp học không giám sát. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 10 Phân cụm dữ liệu là một trong những kỹ thuật để khai thác dữ liệu có hiệu quả. Phân cụm dữ liệu đã được ứng dụng trong nhiều lĩnh vực khác nhau: kinh tế, bảo hiểm, quy hoạch đô thị, nghiên cứu về địa chấn v.v… Có rất nhiều kỹ thuật tiếp cận trong phân cụm dữ liệu, tùy thuộc vào bài toán thực tế mà chúng ta có thể chọn những phương pháp cho phù hợp. Trong luận văn này em xin được trình bày những nghiên cứu của bản thân về phương pháp “Phân cụm dữ liệu dựa trên mật độ và ứng dụng”. Bố cục luận văn như sau: Ngoài các phần mở đầu, mục lục, danh mục hình ảnh, kết luận, tài liệu tham khảo, phụ lục. Luận văn được chia là 3 phần chính:  Phần 1: Tổng quan về khai phá dữ liêu và phân cụm dữ liệu Phần này giới thiệu các khái niệm cơ bản về khai phá dữ liệu và phân cụm dữ liệu. Các phương pháp, lãnh vực và các hướng tiếp cận trong phân cụm dữ liệu.  Phần 2: Phương pháp phân cụm dữ liệu dựa trên mật độ Phần này trình bày chi tiết phương pháp phân cụm dữ liệu dựa trên mật độ và các thuật toán tiêu biểu của phương pháp này.  Phần 3: Xây dựng chương trình thực nghiệm Xây dựng chương trình thực nghiệm phân cụm dữ liệu dựa trên mật độ với giải thuật DBSCAN. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 11 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM DỮ LIỆU 1.1. Tổng quan về khai phá dữ liệu 1.1.1. Khái niệm Có nhiều định nghĩa về Khai phá dữ liệu (Data Mining) được đưa ra, nhìn chung, có thể hiểu khai phá dữ liệu là quá trình tìm ra các quy luật, các mối quan hệ và các thông tin có ích tiềm ẩn giữa các mẫu dữ liệu trong một cơ sở dữ liệu. Các thông tin có ích này không hoặc khó có thể được tìm ra bởi các hệ cơ sở dữ liệu giao dịch truyền thống. Các tri thức mà khai phá dữ liệu mang lại là công cụ hữu hiệu đối với tổ chức trong việc hoạch định chiến lược và ra quyết định kinh doanh. Khác với các câu hỏi mà hệ cơ sở dữ liệu truyền thống có thể trả lời như:  Hãy hiển thị số tiền ông Smith trong ngày 5 tháng Giêng ?: thu nhận thông tin riêng lẻ do xử lý giao dịch trực tuyến (on-line transaction processing – OLTP).  Có bao nhiêu nhà đầu tư nước ngoài mua cổ phiếu X trong tháng trước?: thu nhận thông tin thống kê do hệ thống hỗ trợ quyết định thống kê (stastical decision suppport system - DSS).  Hiển thị mọi cổ phiếu trong CSDL với mệnh giá tăng ? thu nhận dữ liệu đa chiều do xử lý phân tích trực tuyến (on-line analytic processing OLAP). Khai phá dữ liệu giúp trả lời các câu hỏi mang tính trừu tượng, tổng quát hơn như:  Các cổ phiếu tăng giá có đặc trưng gì ?  Tỷ giá US$ - DMark có đặc trưng gì ?  Hy vọng gì về cổ phiếu X trong tuần tiếp theo ? Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 12  Trong tháng tiếp theo, sẽ có bao nhiêu đoàn viên công đoàn không trả được nợ của họ ?  Những người mua sản phẩm Y thường mua những sản phẩm nào nữa ? Khai phá dữ liệu là sự kết hợp của nhiều chuyên ngành như cơ sở dữ liệu, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, tính toán hiệu năng cao và các phương pháp tính toán mềm… 1.1.2. Tiến trình khai phá dữ liệu Một số nhà khoa học xem khai phá dữ liệu (KPDL) là một cách gọi khác của một thuật ngữ rất thông dụng: Khám phá tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database- KDD). Mặt khác, khi chia các bước trong quá trình khám phá tri thức, một số nhà nghiên cứu lại cho rằng, KPDL chỉ là một bước trong quá trình khám phá tri thức [5]. Như vậy, khi xét ở mức tổng quan thì hai thuật ngữ này là tương đương nhau, nhưng khi xét cụ thể thì KPDL được xem là một bước trong quá trình khám phá tri thức. Nhìn chung, khai phá dữ liệu hay khám phá tri thức từ cơ sở dữ liệu bao gồm các bước sau [4]: Hình 1.1: Tiến trình khám phá tri thức từ cơ sở dữ liệu Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 13  Trích chọn dữ liệu: Là quá trình trích lọc một lượng dữ liệu phù hợp, cần thiết từ tập dữ liệu lớn (cơ sở dữ liệu tác nghiệp, kho dữ liệu)…  Tiền xử lý dữ liệu: Là bước làm sạch dữ liệu (xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, ngoại lai, dữ liệu không nhất quán…), rút gọn dữ liệu (lấy mẫu dữ liệu, lượng tử hóa…), rời rạc hóa dữ liệu. Kết quả sau bước này là dữ liệu có tính nhất quán, đầy đủ, được rút gọn và được rời rạc hóa.  Chuyển đổi dữ liệu: Là bước chuẩn hóa khuôn dạng và làm mịn dữ liệu, nhằm đưa dữ liệu về dạng thuận lợi nhất để phục vụ cho việc áp dụng các giải thuật khai phá dữ liệu ở bước sau.  Khai phá dữ liệu: Sử dụng các phương pháp, kỹ thuật, các thuật toán để trích lọc ra mẫu có ý nghĩa cùng với các tri thức, quy luật, biểu thức mô tả mối quan hệ của dữ liệu trong một khía cạnh nào đó. Đây là bước quan trọng và tốn nhiều thời gian nhất của toàn bộ tiến trình KDD.  Đánh giá và biểu diễn tri thức: Trình bày các tri thức, quy luật, biểu thức có ý nghĩa đã tìm được ở bước trước dưới các dạng thức gần gũi, dễ hiểu đối với người sử dụng như đồ thị, biểu đồ, cây, bảng biểu, luật…Đồng thời đưa ra những đánh giá về tri thức khám phá được theo những tiêu chí nhất định. Trong giai đoạn khai phá dữ liệu, có thể cần sự tương tác của con người để điều chỉnh cách thức và kỹ thuật sử dụng trong khai phá, nhằm thu được tri thức phù hợp nhất. Dựa trên các bước của quá trình khai phá dữ liệu như trên, kiến trúc điển hình của một hệ khai phá dữ liệu có thể bao gồm các thành phần như sau: Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 14 Hình 1.2: Kiến trúc điển hình của một hệ khai phá dữ liệu [4] 1.1.3. Các mô hình khai phá dữ liệu Mô hình khai phá dữ liệu là mô tả về phương pháp, cách thức khai phá thông tin từ dữ liệu và định hướng kiểu tri thức cần khai phá. Một mô hình khai phá dữ liệu có thể được mô tả ở 2 mức:  Mức chức năng (Function level): Mô tả mô hình bằng những thuật ngữ về dự định sử dụng. Ví dụ: Phân lớp, phân cụm…  Mức biểu diễn (Representation level): Biểu diễn cụ thể một mô hình. Ví dụ: Mô hình log-linear, cây phân lớp, phương pháp láng giềng gần nhất… Các mô hình khai phá dữ liệu dựa trên 2 kiểu học: có giám sát và không giám sát (đôi khi được nói đến như là học trực tiếp và không trực tiếp -directed and undirected learning) [6]. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 15  Các hàm học có giám sát (Supervised learning functions) được sử dụng để dự đoán giá trị. Một ví dụ của thuật toán học có giám sát bao gồm Naive Bayes cho phân lớp (classification).  Các hàm học không giám sát được dùng để tìm ra cấu trúc bên trong, các quan hệ hoặc tính giống nhau trong nội dung dữ liệu nhưng không có lớp hay nhãn nào được gán ưu tiên. Ví dụ của các thuật toán học không giám sát gồm phân nhóm k-mean (k-mean clustering) và các luật kết hợp Apriori. Tương ứng có 2 loại mô hình khai phá dữ liệu:  Các mô hình dự báo (học có giám sát): - Phân lớp: nhóm các đối tượng thành các lớp riêng biệt và dự đoán một đối tượng sẽ thuộc vào lớp nào. - Hồi qui (Regression): xấp xỉ hàm và dự báo các giá trị liên tục.  Các mô hình mô tả (học không giám sát): - Phân cụm (Clustering): Tìm các nhóm tự nhiên trong dữ liệu. - Các mô hình kết hợp (Association models): Phân tích “giỏ hàng”. - Trích chọn đặc trưng (Feature extraction): Tạo các thuộc tính (đặc trưng) mới như là kết hợp của các thuộc tính ban đầu. 1.1.4. Các hướng tiếp cận và kỹ thuật sử dụng trong khai phá dữ liệu Xuất phát từ hai mô hình khai phá dữ liệu chủ yếu như đã đề cập ở trên, các bài toán (hay chức năng) khai phá dữ liệu giải quyết thường được phân chia thành các dạng sau [4]:  Mô tả khái niệm (concept description & summarization): . Tổng quát, tóm tắt các đặc trưng dữ liệu, Ví dụ: tóm tắt văn bản…  Phân lớp và dự đoán (classification & prediction): Xây dựng các mô hình (chức năng) để mô tả và phân biệt khái niệm cho các lớp hoặc khái Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 16 niệm để dự đoán trong tương lai, xếp một đối tượng vào một trong những lớp đã biết trước.  Luật kết hợp (association rules): Biểu diễn mối tương quan nhân quả giữa dữ liệu và xu hướng của dữ liệu dưới dạng luật biểu diễn tri thức ở dạng khá đơn giản.  Khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao.  Phân cụm (clustering/segmentation): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước. Phân cụm còn được gọi là học không giám sát (học không có thầy – unsupervised learning).  Phân tích bất thường (ngoại lai): Phát hiện sự bất thường của dữ liệu: đối tượng dữ liệu không tuân theo hành vi chung của toàn bộ dữ liệu nhằm phát hiện gian lận hoặc phân tích các sự kiện hiếm… 1.1.5. Các dạng dữ liệu có thể khai phá Khai phá dữ liệu là kết hợp của nhiều lĩnh vực khoa học, xử lý nhiều nhiều kiểu dữ liệu khác nhau [4]. Sau đây là một số kiểu dữ liệu điển hình:  CSDL quan hệ (relational databases)  CSDL đa chiều (multidimensional structures, data warehouses)  CSDL dạng giao dịch (transactional databases)  CSDL quan hệ - hướng đối tượng (object-relational databases)  Dữ liệu không gian và thời gian (spatial and temporal data)  Dữ liệu chuỗi thời gian (time-series data) Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 17  CSDL đa phương tiện (multimedia databases) như âm thanh (audio), hình ảnh (image), phim ảnh (video), .v.v.  Dữ liệu Text và Web (text database & www) 1.1.6. Các ứng dụng của khai phá dữ liệu Khai phá dữ liệu được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực khác nhau. Chẳng hạn như giải quyết các bài toán phức tạp trong các ngành đòi hỏi kỹ thuật cao, như tìm kiếm mỏ dầu từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệ thống sản xuất; quy hoạch và phát triển các hệ thống quản lý và sản xuất trong thực tế như dự đoán tải sử dụng điện, mức độ tiêu thụ sản phẩm, phân nhóm khách hàng; áp dụng cho các vấn đề xã hội như phát hiện tội phạm, tăng cường an ninh… Có thể liệt kê ra đây một số ứng dụng điển hình như:  Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support)  Điều trị y học (medical treatment): mối liên hệ giữa triệu chứng, chẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẫu thuật, …).  Text mining & Web mining: phân lớp văn bản và các trang web, tóm tắt văn bản, .v.v.  Tin-sinh (bio-informatics): tìm kiếm, đối sánh các hệ gene và thông tin di truyền, mối liên hệ giữa một số hệ gene và một số bệnh di truyền, .v.v.  Tài chính và thị trường chứng khoán (finance & stock market): phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán, .v.v.  Bảo hiểm (insurance)  .v.v. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 18 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 19 1.2. Tổng quan về phân cụm dữ liệu 1.2.1. Khái niệm Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ấn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định. Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thành các nhóm dữ liệu với trong đó các đối tượng tương tự như nhau. Trong mỗi nhóm, một số chi tiết có thể không quan tâm đến để đổi lấy dữ liệu đơn giản hóa. Hay ta có thể hiểu “Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự nhau theo một tính chất nào đó, những đối tượng không tương tự tính chất sẽ ở nhóm khác” [1]. Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ... Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm. Như vậy, phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các đối tượng trong một cụm “tương tự” (Similar) với nhau và các đối tượng trong các cụm khác nhau sẽ “không tương tự” (Dissimilar) với nhau. Số các cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định. Chúng ta có thể thấy điều này với một ví dụ đơn giản như sau [8]: Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 20 Hình 1.3: Ví dụ về phân cụm dữ liệu Trong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào các dữ liệu đã cho; các tiêu chí “tương tự” để phân cụm trong trường hợp này là khoảng cách: hai hoặc nhiều đối tượng thuộc nhóm của chúng được “đóng gói” theo một khoảng cách nhất định. Điều này được gọi là phân cụm dựa trên khoảng cách. Một kiểu khác của phân cụm dữ liệu là phân cụm dữ liệu dựa vào khái niệm: hai hay nhiều đối tượng thuộc cùng nhóm nếu có một định nghĩa khái niệm chung cho tất cả các đối tượng trong đó. Nói cách khác, đối tượng của nhóm phải phù hợp với nhau theo miêu tả các khái niệm đã được định nghĩa, không phải theo những biện pháp đơn giản tương tự. 1.2.2. Các mục tiêu của phân cụm dữ liệu Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một bộ dữ liệu không có nhãn. Nhưng để có thể quyết định được cái gì tạo thành một cụm tốt. Nhưng làm thế nào để quyết định cái gì đã tạo nên một phân cụm dữ liệu tốt? Nó có thể được hiển thị rằng không có tiêu chuẩn tuyệt đối “tốt nhất” mà sẽ là độc lập với mục đích cuối cùng của phân cụm dữ liệu. Do đó, mà người sử dụng phải cung cấp tiêu chuẩn, theo cách như vậy mà kết quả của phân cụm dữ liệu sẽ phù hợp với nhu cầu của họ cần. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- Xem thêm -

Tài liệu liên quan