Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Luận văn smote inffc giải quyết nhiễu và các phần tử ở đường biên trong phân lớp...

Tài liệu Luận văn smote inffc giải quyết nhiễu và các phần tử ở đường biên trong phân lớp mất cân bằng bởi bộ lọc dựa trên sự hợp nhất các phân lớp.

.PDF
65
469
134

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ---------------OO------------ GIÁP THỊ PHƢƠNG THẢO SMOTE-INFFC: GIẢI QUYẾT NHIỄU Ở ĐƢỜNG BIÊN TRONG PHÂN LỚP MẤT CÂN BẰNG BẰNG PHƢƠNG PHÁP TÁI LẤY MẪU VỚI BỘ LỌC CÓ KIỂM SOÁT ĐỘ NHẠY CẢM NHIỄU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS. ĐẶNG XUÂN THỌ HÀ NỘI, NĂM 2017 LỜI CAM ĐOAN Tôi xin cam đoan bản luận văn này là kết quả nghiên cứu của cá nhân tôi. Các số liệu và tài liệu đƣợc trích dẫn trong luận án là trung thực. Kết quả nghiên cứu này không trùng với bất cứ công trình nào đã đƣợc công bố trƣớc đó. Tôi chịu trách nhiệm với lời cam đoan của mình. Hà Nội, tháng 6 năm 2017 Tác giả luận văn Giáp Thị Phƣơng Thảo i LỜI CẢM ƠN Để hoàn thành luận văn, em xin bày tỏ lòng biết ơn sâu sắc đến các thầy cô giáo Trƣờng Đại học Sƣ phạm Hà Nội, đặc biệt là các thầy cô trong khoa Công nghệ thông tin, những ngƣời đã truyền đạt cho em nhiều kiến thức và đã tạo điều kiện giúp em thực hiện luận văn này. Em xin bày tỏ lòng biết ơn chân thành đến TS. Đặng Xuân Thọ đã dành nhiều thời gian tâm huyết, tận tình hƣớng dẫn, chỉ bảo cho em trong suốt quá trình thực hiện đề tài. Cuối cùng, em gửi lời biết ơn cha mẹ và anh chị em trong gia đình, các anh chị em đồng nghiệp luôn động viên và giúp đỡ trong quá trình học tập và nghiên cứu Mặc dù đã có nhiều cố gắng để hoàn thành luận văn một cách tốt nhất, tuy nhiên do thời gian nghiên cứu còn ít, bản thân còn thiếu kinh nghiệm trong nghiên cứu khoa học nên luận văn vẫn còn thiếu sót. Rất mong nhận đƣợc sự góp ý của thầy cô giáo và anh chị em đồng nghiệp. Em xin chân thành cảm ơn! Hà Nội, tháng 6 năm 2017 Học viên Giáp Thị Phƣơng Thảo ii MỤC LỤC LỜI CAM ĐOAN .............................................................................................. i LỜI CẢM ƠN ................................................................................................... ii MỤC LỤC ........................................................................................................ iii DANH MỤC TỪ VIẾT TẮT ............................................................................... v DANH MỤC BẢNG BIỂU ............................................................................. vi DANH MỤC CÁC HÌNH VẼ ........................................................................ vii PHẦN I: MỞ ĐẦU .......................................................................................... 1 PHẦN II: NỘI DUNG ..................................................................................... 5 CHƢƠNG I. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU................................. 5 1.1. Khai phá dữ liệu ........................................................................................... 5 1.1.1 Khái niệm. ................................................................................................ 5 1.1.2 Quá trình khai phá dữ liệu....................................................................... 6 1.1.3 Các kỹ thuật khai phá dữ liệu ................................................................. 8 1.2. Phân lớp.......................................................................................................10 1.2.1. Giới thiệu phân lớp ...............................................................................10 1.2.2. Một số vấn đề liên quan đến phân lớp dữ liệu ....................................11 1.3. Phân lớp mất cân bằng .............................................................................12 1.3.1. Phƣơng pháp tái lấy mẫu ......................................................................13 1.3.2 Học chi phí nhạy cảm (Cost-sensitive learning) ..................................15 1.4. Nhiễu và xử lý nhiễu ..................................................................................16 CHƢƠNG II. NGHIÊN CỨU PHƢƠNG PHÁP SMOTE-INFFC XỬ LÝ NHIỄU VÀ CÁC PHẦN TỬ ĐƢỜNG BIÊN TRONG PHÂN LỚP MẤT CÂN BẰNG. ..................................................................................19 2.1. Giới thiệu các phƣơng pháp tiếp cận giải quyết dữ liệu mất cân bằng ...19 2.1.1. Tiếp cận mức độ dữ liệu .......................................................................19 2.1.2. Tiếp cận mức độ thuật toán ..................................................................20 iii 2.2. Kỹ thuật sinh thêm phần tử nhân tạo ở lớp thiểu số............................21 2.2.1. Sinh thêm phần tử ở lớp thiểu số với việc thay thế ............................21 2.2.2. SMOTE .................................................................................................22 2.2.3. Một số kỹ thuật sử dụng SMOTE làm giảm phần tử nhiễu ...............25 2.3. Một số vấn đề khó khăn do nhiễu. ..........................................................26 2.4. Giới thiệu các bộ lọc nhiễu .......................................................................26 2.4.1. Lọc tập hợp (EF - Ensemble Filter).....................................................27 2.4.2. Lọc phân vùng lặp lại (IPF - Iterative-Partitioning Filter).................28 2.4.3. Lọc nhiễu dựa trên hợp nhất phân lớp (INFFC - Iterative Noise Filter based on the Fusion of Classifiers) ......................................................29 2.5. Phƣơng pháp SMOTE-INFFC xử lý nhiễu và các phần tử ở đƣờng biên trong phân lớp mất cân bằng .....................................................36 CHƢƠNG III. THỰC NGHIỆM ....................................................................39 3.1. Dữ liệu..........................................................................................................39 3.2. Tiêu chí đánh giá. .......................................................................................39 3.3 Phƣơng pháp phân tích ..............................................................................44 3.4. Kết quả và đánh giá. ..................................................................................44 PHẦN 3: KẾT LUẬN .......................................................................................54 1. Những kết quả thu đƣợc của luận văn .......................................................54 2. Hƣớng phát triển trong tƣơng lai ............................................................ 54 TÀI LIỆU THAM KHẢO................................................................................55 iv DANH MỤC TỪ VIẾT TẮT SMOTE Synthetic Minority Over sampling Technique INFFC Iterative Noise Filter based on the Fusion of Classifiers IPF Iterative Partitioning Filter EF Ensemble Filter FC Fusion of Classifiers SVM Support Vector Machine SL Safe Level BL Border Line ROC Receiver Operating Characteristic AUC Area Under Curve v DANH MỤC BẢNG BIỂU Bảng 1: Ví dụ về nhiễu.................................................................................... 17 Bảng 2: Bộ dƣ liệu thực nghiệm ..................................................................... 39 Bảng 3: Ma trận nhầm lẫn ............................................................................... 39 Bảng 4: Kết quả của bộ dữ liệu abalone ......................................................... 45 Bảng 5: Kết quả của bộ dữ liệu blood ............................................................. 46 Bảng 6: Kết quả của bộ dữ liệu ecoli .............................................................. 47 Bảng 7: Kết quả của bộ dữ liệu newthyroid.................................................... 48 Bảng 8: Kết quả của bộ dữ liệu haberman ...................................................... 49 Bảng 9: Kết quả Gmean của các bộ dữ liệu sau thực nghiệm ........................ 50 vi DANH MỤC CÁC HÌNH VẼ Hình 1: Quá trình khai phá tri thức ................................................................... 7 Hình 2: Ví dụ về oversampling ....................................................................... 21 Hình 3: Mô tả thuật toán SMOTE ................................................................... 23 Hình 4: Sơ đồ thực hiện lọc của INFFC ......................................................... 30 Hình 5: Tập dữ liệu huấn luyện ban đầu ......................................................... 37 Hình 6: Tập dữ liệu huấn luyện sau khi sử dụng SMOTE – INFFC .............. 37 Hình 7: Sơ đồ quá trình thực hiện phƣơng pháp SMOTE-INFFC ................. 38 Hình 8: Ví dụ về đồ thị ROC .......................................................................... 41 Hình 9: Ví dụ về đồ thị AUC .......................................................................... 42 Hình 10: Biểu đồ so sánh giá trị AUC của bộ dữ liệu abalone. ...................... 45 Hình 11: Biểu đồ so sánh giá trị AUC của bộ dữ liệu blood .......................... 46 Hình 12: Biểu đồ so sánh giá trị AUC của bộ dữ liệu ecoli............................ 47 Hình 13: Biểu đồ so sánh giá trị AUC của bộ dữ liệu newthyroid. ................ 48 Hình 14: Biểu đồ so sánh giá trị AUC của bộ dữ liệu haberman. .................. 49 Hình 15: Biểu đồ so sánh giá trị Gmean của bộ dữ liệu abalone .................... 51 Hình 16: Biểu đồ so sánh giá trị Gmean của bộ dữ liệu blood ....................... 51 Hình 17: Biểu đồ so sánh giá trị Gmean của bộ dữ liệu ecoli ........................ 52 Hình 18: Biểu đồ so sánh giá trị Gmean của bộ dữ liệu haberman ................ 52 Hình 19: Biểu đồ so sánh giá trị Gmean của bộ dữ liệu newthyroid .............. 53 vii PHẦN I: MỞ ĐẦU 1. Lý do chọn đề tài Trong khai phá dữ liệu, hai vấn đề phổ biến về chất lƣợng dữ liệu mà thƣờng ảnh hƣởng đến phân lớp dữ liệu trong thực tế là lớp nhiễu và lớp mất cân bằng. Lớp nhiễu, nơi các giá trị thuộc tính đƣợc ghi nhầm lẫn làm rối một bộ phân lớp và làm giảm hiệu suất dự đoán. Lớp mất cân bằng xảy ra khi một lớp chỉ chiếm một phần nhỏ trong những phân tử trong tập dữ liệu, và trong trƣờng hợp nhƣ vậy thì phân lớp thƣờng kém chính xác trên lớp thiểu số. Hiệu suất phân lớp càng trở nên tồi tệ hơn khi hai vấn đề xảy ra đồng thời. Hiện nay để giải quyết bài toàn phân lớp dữ liệu có chứa lớp mất cân bằng và lớp nhiễu đa số các nghiên cứu dựa trên hai hƣớng tiếp cận chính là dựa trên mức độ dữ liệu và dựa trên mức độ thuật toán. Tiếp cận dựa trên mức độ thuật toán là cải tiến các kỹ thuật tìm kiếm hoặc chiến lƣợc phân lớp để phù hợp cho loại dữ liệu mất cân bằng và xử lý đúng đắn các nhiễu hoặc ít chịu ảnh hƣởng bởi sự xuất hiện của nó. Tiếp cận dựa trên mức độ dữ liệu bao gồm những phƣơng pháp tiền xử lý các tập dữ liệu nhằm loại bỏ các phần tử nhiễu nhƣ một bƣớc trƣớc và điều chỉnh phân bố dữ liệu của các lớp làm giảm tính mất cân bằng trong lớp mất cân bằng . Trong các phƣơng pháp trên có phƣơng pháp sinh thêm phần tử nhân tạo ở lớp thiểu số (SMOTE) đã đƣợc xuất hiện trong nhiều công trình khoa học và đã có các kết quả nhất định. Mặc dù SMOTE đã hoàn thành rất tốt việc phân bố số lƣợng Phần tử ở mỗi lớp. Khi sử dụng độc lập thì nó có thể có kết quả không tốt nhƣ nó có thể hoặc nó có thể phản tác dụng trong nhiều trƣờng hợp. Đó là bởi vì SMOTE có một số hạn chế liên quan đến sinh thêm phần tử “mù”. Bởi vậy việc sinh thêm các phần tử tích cực (ở lớp thiểu số) chỉ làm cho các phần tử mới tạo ra và những phần tử ở mỗi lớp là gần sát nhau. Trong khi các đặc tính khác của dữ 1 liệu bị bỏ qua nhƣ sự phân bố của các phần tử ở lớp đa số. Những hạn chế này có thể làm tăng thêm những khó khăn tạo bởi các phần tử nhiễu và các phần tử ở đƣờng biên trong quá trình học. Đó là tạo ra quá nhiều các phần tử tích cực không cần thiết mà không thuận lợi cho việc học của lớp thiểu số. Phá vỡ các ranh giới giữa các lớp và tăng sự chồng chéo giữa chúng. Tác giả đề xuất một sự mở rộng của SMOTE thông qua một nhân tố mới với một bộ lọc lặp đi lặp lại dựa trên tập hợp các phân lớp đó là INFFC (Iterative Noise Filter based on the Fusion of Classifiers) để loại bỏ nhiễu. Phƣơng pháp SMOTE – INFFC trong phân lớp dữ liệu mất cân bằng. Phƣơng pháp này sử dụng kỹ thuật tái lấy mẫu SMOTE để sinh thêm phần tử nhân tạo ở lớp thiểu số, cân bằng phân lớp và áp dụng kỹ thuật lọc INFFC (Iterative Noise Filter based on the Fusion of Classifiers) để loại bỏ nhiễu và các phần tử ở đƣờng biên. 2. Mục đích nghiên cứu Tổng quan về khai phá dữ liệu, bài toán phân lớp, nhiễu và xử lý nhiễu. Nghiên cứu phƣơng pháp SMOTE, các bộ lọc nhiễu. Đề xuất mở rộng của SMOTE thông qua một nguyên tố mới, một bộ lọc có kiểm soát độ nhạy cảm nhiễu INFFC (Iterative Noise Filter based on the Fusion of Classifiers), có thể khắc phục đƣợc vấn đề phát sinh bởi nhiễu và phần tử ở đƣờng biên trong các tập dữ liệu không cân bằng và thực nghiệm trên ngôn ngữ R. 3. Khách thể và đối tƣợng nghiên cứu Tìm hiểu những vấn đề cơ bản về thuật toán SMOTE, các bộ lọc nhiễu và ngôn ngữ R. Đi sâu vào nghiên cứu, tìm hiểu thuật toán SMOTE, các bộ lọc nhiễu, ngôn ngữ R. 2 Phƣơng pháp mới SMOTE-INFFC: Giải quyết nhiễu ở đƣờng biên trong phân lớp mất cân băng bằng phƣơng pháp tái lấy mẫu với bộ lọc dựa vào hợp nhất các phân lớp. Thực nghiệm dựa trên bộ dữ liệu chuẩn. 4.Giả thuyết khoa học Giải quyết nhiễu và các phần tử ở đƣờng biên trong phân lớp mất cân bằng bằng phƣơng pháp SMOTE-INFFC. 5. Nhiệm vụ nghiên cứu Nghiên cứu phƣơng pháp SMOTE, nghiên cứu bộ lọc nhiễu INFFC, và thực hiện kết hợp SMOTE và INFFC thành bộ lọc nhiễu sử dụng cho phân lớp mất cân bằng. 6. Giới hạn phạm vi nghiên cứu Tiến hành thực nghiệm phƣơng pháp SMOTE-INFFC trên một số bộ dữ liệu chuẩn. Đánh giá về hiệu suất phân lớp các bộ dữ liệu sau khi sử dụng phƣơng pháp SMOTE-INFFC dựa trên các tiêu chí nhƣ Gmean, AUC. Phạm vi nghiên cứu trên các bộ dữ liệu mất cân bằng. 7. Phƣơng pháp nghiên cứu - Phƣơng pháp phân tích, tổng hợp - Phƣơng pháp quan sát, thực nghiệm, thảo luận, trình bày, tham khảo ý kiến đánh giá dựa trên kết quả thống kê. 8. Đóng góp mới của luận văn Luận văn đã nghiên cứu cơ sở lý luận và thực tiễn của một số bộ lọc nhiễu trên cơ sở tổng quan có chọn lọc một số bộ lọc đã đƣợc các nhà khoa học trong lĩnh vực khai phá dữ liệu và học máy trình bày, kết hợp đúc rút thực tiễn tác giả đề xuất bộ lọc nhiễu mới SMOTE-INFFC sử dụng lọc nhiễu cho phân lớp mất cân bằng. 3 9. Cấu trúc luận văn Nội dung chính của luận văn đƣợc trình bày trong 3 chƣơng: Chƣơng I. Giới thiệu về khai phá dữ liệu. Chƣơng II. Nghiên cứu phƣơng pháp SMOTE-INFFC xử lý nhiễu và các phần tử ở đƣờng biên trong phân lớp mất cân bằng. Chƣơng III. Thực nghiệm. 4 PHẦN II: NỘI DUNG CHƢƠNG I. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU Trong chương này sẽ nghiên cứu khái niệm cơ bản về khai phá dữ liệu, sau đó đi vào tìm hiểu một số nội dung chính của khai thác dữ liệu như mô hình phân lớp, phân lớp với dữ liệu mất cân bằng, dữ liệu nhiễu và cách xử lý dữ liệu nhiễu. 1.1. Khai phá dữ liệu 1.1.1 Khái niệm. Chúng ta đang sống trong một thế giới thông tin luôn mở rộng, dữ liệu mà con ngƣời thu thập và lƣu trữ đƣợc là rất lớn và có thể vƣợt ngoài khả năng quản lý của con ngƣời. Vì vậy việc cần thiết phải tìm cách tự động phân tích dữ liệu, tự động phân loại, tóm tắt, phát hiện và mô tả các xu hƣớng trong nó là hết sức quan trọng và cần thiết trong các lĩnh vực nhƣ trong y tế, phân tích thị trƣờng, giáo dục, kỹ thuật sản xuất, quan hệ khách hàng, ngân hàng tài chính, phát hiện xâm nhập, điều tra tội phạm, tin sinh học.. Dữ liệu ngày càng tăng nhanh và đa dạng trong các lĩnh vực nhƣ vậy, rõ ràng các phƣơng pháp thủ công truyền thống áp dụng để phân tích dữ liệu sẽ không hiệu quả, tốn kém và dễ dẫn đến những sai lệch. Do đó để có thể khai phá hiệu quả các cơ sở dữ liệu lớn cần phải có những kỹ thuật mới, các kỹ thuật khai phá dữ liệu (Data Mining). Dữ liệu do con ngƣời tạo ra ngày càng nhiều hơn về số lƣợng, tăng nhanh về khối lƣợng, phát triển mạnh về quy mô khiến việc phân loại, lựa chọn, khai thác, sử dụng gặp những khó khăn nhất định. Khái niệm về khai phá dữ liệu (Data Mining) ra đời hỗ trợ công việc này. Do sự phát triển nhanh chóng về phạm vi áp dụng và các phƣơng pháp tìm kiếm tri thức, nên đã có nhiều quan điểm khác nhau về khai phá dữ liệu. 5 Nhƣng ở một mức độ trừu tƣợng nhất định chúng ta định nghĩa khai phá dữ liệu nhƣ sau: Khai phá dữ liệu (đôi khi đƣợc gọi là dữ liệu hoặc khám phá tri thức) là quá trình phân tích dữ liệu từ những quan điểm khác nhau, tổng hợp nó thành thông tin có ích. 1.1.2 Quá trình khai phá dữ liệu Quá trình khai phá dữ liệu đƣợc thực hiện qua các bƣớc sau: 1) Nghiên cứu lĩnh vực: Cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định đƣợc những tri thức ta cần chắt lọc, từ đó định hƣớng để tránh tốn thời gian cho những tri thức không cần thiết. 2) Tạo tập tin dữ liệu đầu vào: Xây dựng tập tin để lƣu trữ các dữ liệu đầu vào để máy tính có thể lƣu trữ và xử lý. 3) Tiền xử lý, làm sạch, mã hóa: Ở bƣớc này ta tiến hành bỏ bớt những dữ liệu rƣờm rà, không cần thiết, tinh chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý. 4) Rút gọn chiều: Thông thƣờng một tập dữ liệu có chiều khá lớn sẽ sinh ra một lƣợng dữ liệu khổng lồ, ví dụ với n chiều ta sẽ có 2n tổ hợp. Do đó, đây là một bƣớc quan trọng giúp giảm đáng kể hao tổn về tài nguyên trong quá trình xử lý tri thức. 5) Chọn tác vụ khai phá dữ liệu: Để đạt đƣợc mục đích ta cần, ta cần chọn đƣợc tác vụ khai phá dữ liệu sao cho phù hợp. Thông thƣờng có các tác vụ sau: * Đặc trƣng (feature) * Phân biệt (discrimination) * Kết hợp (association) * Phân lớp (classification) * Gom cụm (clusterity) 6 * Xu thế (trend analysis) * Phân tích độ lệch * Phân tích hiếm 6) Chọn các thuật giải Khai phá dữ liệu 7) Khai phá dữ liệu: Tìm kiếm tri thức Sau khi tiến hành các bƣớc trên thì đây là bƣớc chính của cả quá trình, ta sẽ tiến hành khai thác và tìm kiếm tri thức. 8) Đánh giá mẫu tìm đƣợc: Cần đánh giá lại xem trong các tri thức tìm đƣợc, ta sẽ sử đụng đƣợc những tri thức nào, những tri thức nào dƣ thừa, không cần thiết 9) Biểu diễn tri thức: Biểu diễn tri thức vừa thu thập đƣợc dƣới dạng ngôn ngữ tự nhiên và hình thức sao cho ngƣời dùng có thể hiểu đƣợc những tri thức đó. 10) Sử dụng các tri thức vừa khám phá Hình 1: Quá trình khai phá tri thức [11] 7 1.1.3 Các kỹ thuật khai phá dữ liệu Tùy thuộc vào các loại dữ liệu và các ứng dụng khác nhau sẽ sử dụng các kỹ thuật khai phá dữ liệu phù hợp. Hiện nay có một số kỹ thuật khai phá dữ liệu đƣợc áp dụng nhiều nhƣ Khai phá luật kết hợp, phân loại, phân cụm, dự đoán, mẫu tuần tự, cây quyết định... Luật kết hợp: là một trong những kỹ thuật khai thác dữ liệu nổi tiếng nhất. Trong luật kết hợp, một mô hình đƣợc phát hiện dựa trên mối quan hệ giữa các hạng mục trong cùng một giao dịch. Đó là lý do tại sao khai phá luật kết hợp cũng đƣợc gọi là kỹ thuật liên kết . Kỹ thuật liên kết đƣợc sử dụng trong phân tích giỏ hàng để xác định một tập hợp các sản phẩm mà khách hàng thƣờng mua với nhau. Các nhà bán lẻ đang sử dụng kỹ thuật hiệp hội để nghiên cứu thói quen mua của khách hàng. Dựa vào dữ liệu bán hàng trƣớc đây, các nhà bán lẻ có thể nhận ra rằng khách hàng luôn mua khoai tây chiên khi họ mua bia, và do đó họ có thể đặt bia và khoai tây chiên cạnh nhau để tiết kiệm thời gian cho khách hàng và tăng doanh thu. Phân lớp: là một kỹ thuật khai phá dữ liệu cổ điển dựa trên học máy. Về cơ bản, phân lớp đƣợc sử dụng để phân lớp mỗi mục trong một bộ dữ liệu thành một trong một nhóm các nhóm hoặc nhóm đƣợc xác định trƣớc. Phƣơng pháp phân lớp sử dụng các kỹ thuật toán học nhƣ cây quyết định, lập trình tuyến tính, mạng nơ-ron và thống kê. Trong phân lớp, đã có nhiều nhà phát triển các phần mềm có thể học cách phân lớp các mục dữ liệu thành các nhóm. Ví dụ, phân lớp trong ứng dụng "cho tất cả hồ sơ của nhân viên rời khỏi công ty, dự đoán ai sẽ rời khỏi công ty trong thời gian tới" Trong trƣờng hợp này, hồ sơ của nhân viên đƣợc chia thành hai nhóm có tên "bỏ đi" và "ở lại". Và sau đó chúng ta có thể yêu cầu phần mềm khai thác dữ liệu phân lớp nhân viên vào các nhóm riêng biệt. 8 Phân cụm: là một kỹ thuật khai thác dữ liệu làm cho một cụm các đối tƣợng có ý nghĩa hoặc có ích có các đặc tính tƣơng tự sử dụng kỹ thuật tự động. Kỹ thuật phân cụm định nghĩa các lớp và đặt các đối tƣợng trong mỗi lớp, trong khi trong kỹ thuật phân lớp, các đối tƣợng đƣợc gán vào các lớp đƣợc xác định trƣớc. Để làm cho khái niệm rõ ràng hơn, chúng ta có thể quản lý cuốn sách trong thƣ viện làm ví dụ. Trong thƣ viện, có rất nhiều sách về các chủ đề có sẵn. Thách thức là làm thế nào để giữ cho những cuốn sách theo cách mà ngƣời đọc có thể tham gia một số cuốn sách về một chủ đề cụ thể mà không có rắc rối. Bằng cách sử dụng kỹ thuật xếp nhóm, chúng tôi có thể giữ các sách có một số loại tƣơng đồng trong một cụm hoặc một kệ và gắn nhãn nó với một cái tên có ý nghĩa. Nếu độc giả muốn lấy sách trong chủ đề đó. Dự đoán: là một trong những kỹ thuật khai phá dữ liệu phát hiện mối quan hệ giữa các biến độc lập và mối quan hệ giữa các biến phụ thuộc và độc lập . Ví dụ , kỹ thuật phân tích dự đoán có thể đƣợc sử dụng trong bán để dự đoán lợi nhuận trong tƣơng lai nếu chúng ta coi việc bán là một biến độc lập, lợi nhuận có thể là một biến phụ thuộc. Sau đó dựa trên số liệu bán và lợi nhuận trong quá khứ, chúng ta có thể vẽ đƣờng cong hồi quy đƣợc sử dụng để dự đoán lợi nhuận. Phân tích mẫu tuần tự là một trong kỹ thuật khai thác dữ liệu nhằm tìm kiếm hoặc xác định mô hình tƣơng tự, các sự kiện hoặc xu hƣớng thƣờng xuyên trong dữ liệu giao dịch trong một khoảng thời gian kinh doanh. Trong bán hàng, với dữ liệu giao dịch lịch sử, các doanh nghiệp có thể xác định một bộ các mặt hàng mà khách hàng mua với nhau vào những thời điểm khác nhau trong năm. Sau đó, các doanh nghiệp có thể sử dụng thông tin này để khuyến nghị khách hàng mua nó với các giao dịch tốt hơn dựa trên tần số mua hàng của họ trong quá khứ. 9 Cây quyết định: là một trong những kỹ thuật khai thác dữ liệu đƣợc sử dụng phổ biến nhất vì mô hình của nó rất dễ hiểu đối với ngƣời dùng. Trong kỹ thuật cây quyết định, gốc của cây quyết định là một câu hỏi đơn giản hoặc điều kiện có nhiều câu trả lời. Mỗi câu trả lời sau đó dẫn đến một tập hợp các câu hỏi hoặc điều kiện giúp chúng tôi xác định dữ liệu để chúng tôi có thể đƣa ra quyết định cuối cùng dựa trên nó. Tùy thuộc vào nhu cầu phân tích dữ liệu mà ngƣời ta có thể sử dụng đơn lẻ từng kỹ thuật hoặc kết hợp các kỹ thuật để đạt kết quả nhƣ mong muốn. 1.2. Phân lớp. 1.2.1. Giới thiệu phân lớp Phân lớp là một trong những kỹ thuật khai thác dữ liệu đƣợc sử dụng chủ yếu để phân tích một tập dữ liệu và với mỗi trƣờng hợp của nó đƣợc cho một lớp sao cho lỗi phân lớp là ít nhất. Nó đƣợc sử dụng để trích xuất các mô hình, xác định chính xác các lớp dữ liệu quan trọng trong tập dữ liệu cho trƣớc. Phân lớp là một quá trình gồm hai bƣớc [24] đó là xây dựng mô hình hay chính là xây dựng phân lớp và sử dụng mô hình Bước thứ nhất: Xây dựng mô hình (learning). Xây dựng mô hình là mô tả một tập hợp các lớp đƣợc xác định trƣớc. Mỗi bộ hoặc mẫu đƣợc giả định là thuộc về một lớp đƣợc xác định trƣớc, đƣợc xác định bởi thuộc tính của nhãn lớp. Tập hợp các bộ ký tự dùng để xây dựng mô hình là tập huấn luyện. Mô hình đƣợc biểu diễn dƣới dạng các quy tắc phân loại, cây quyết định hoặc các công thức toán học. Bước thứ 2: sử dụng mô hình (classification) Bƣớc này là bƣớc phân lớp. Ở đây dữ liệu kiểm thử đƣợc sử dụng để ƣớc tính độ chính xác của các quy tắc phân lớp. Các quy tắc phân lớp có thể 10 đƣợc áp dụng cho bộ dữ liệu mới nếu độ chính xác đƣợc coi là chấp nhận đƣợc.Vì vậy, phân lớp là quá trình gán nhãn lớp từ bộ dữ liệu có nhãn lớp không biết. Độ chính xác của quy tắc phân lớp đƣợc ƣớc tính và nếu nó là tìm thấy chấp nhận đƣợc sau đó áp dụng cho các bộ dữ liệu khác. Các vấn đề phân lớp đơn giản nhất là phân lớp nhị phân mà chỉ có hai giá trị thấp và cao. Cái khác vấn đề phân lớp đã có hơn hai giá trị. Có kỹ thuật khác nhau đƣợc sử dụng để phân lớp dữ liệu để xác định mối quan hệ giữa các giá trị của các yếu tố dự báo và giá trị của mục tiêu. Các phƣơng pháp thƣờng đƣợc sử dụng để khai phá dữ liệu nhiệm vụ phân lớp có thể đƣợc phân loại thành các nhóm sau đây Phƣơng pháp dựa trên cây quyết định Phƣơng pháp dựa trên luật Dựa trên bộ nhớ học tập Các mạng Neural Mạng Bayes Máy vector hỗ trợ. 1.2.2. Một số vấn đề liên quan đến phân lớp dữ liệu Vấn đề chính là chuẩn bị dữ liệu cho phân lớp và nó liên quan đến các hoạt động sau: Vệ sinh dữ liệu: Làm sạch dữ liệu bao gồm việc loại bỏ nhiễu và sửa chữa các giá trị bị thiếu. Nhiễu đƣợc gỡ bỏ bằng cách áp dụng các kỹ thuật làm mịn và vấn đề thiếu giá trị đƣợc giải quyết bằng cách thay thế giá trị còn thiếu bằng giá trị phổ biến nhất cho thuộc tính đó. Phân tích sự liên quan dữ liệu: Cơ sở dữ liệu cũng có thể có các thuộc tính không liên quan. Phân tích tƣơng quan đƣợc sử dụng để biết liệu có hai thuộc tính nào có liên quan hay không. 11 Chuyển đổi và giảm dữ liệu: Dữ liệu có thể đƣợc chuyển đổi bằng bất kỳ phƣơng pháp nhƣ: +Chuẩn hóa: Dữ liệu đƣợc chuyển đổi bằng cách sử dụng chuẩn hóa. Việc chuẩn hóa liên quan đến việc mở rộng tất cả các giá trị cho thuộc tính cho trƣớc để làm cho chúng rơi vào một phạm vi quy định nhỏ. Chuẩn hóa đƣợc sử dụng khi ở bƣớc học tập, các mạng thần kinh hoặc các phƣơng pháp đo lƣờng đƣợc sử dụng. +Tổng quát: Các dữ liệu cũng có thể đƣợc chuyển đổi bằng cách tổng quát hóa nó với khái niệm cao hơn. Với mục đích này, chúng ta có thể sử dụng các hệ thống phân cấp khái niệm. Tiếp theo là so sánh các phƣơng pháp phân lớp. Đây là tiêu chí để so sánh các phƣơng pháp phân lớp Độ chính xác: Độ chính xác của phân loại là khả năng phân loại. Nó dự đoán nhãn lớp một cách chính xác và độ chính xác của dự đoán đƣợc đề cập đến mức độ dự báo cho trƣớc có thể đoán đƣợc giá trị của thuộc tính dự đoán cho một dữ liệu mới. Tốc độ: Điều này đề cập đến chi phí tính toán trong việc tạo ra và sử dụng phân loại hoặc dự đoán. Tính mạnh mẽ: Nó đề cập đến khả năng phân loại hoặc dự đoán để đƣa ra dự đoán chính xác từ dữ liệu ồn ào. Khả năng mở rộng: Khả năng mở rộng đề cập đến khả năng để xây dựng các phân lớp hoặc dự đoán một cách hiệu quả; Cho số lƣợng lớn dữ liệu. Khả năng giải thích: Nó đề cập đến mức độ phân lớp hoặc dự đoán đã hiểu. 1.3. Phân lớp mất cân bằng Phân lớp mất cân bằng xuất hiện ở nhiều lĩnh vực quan trọng và đòi hỏi nhiều thách thức khác nhau từ viễn thám, tràn dầu, lỗi máy móc và phát hiện 12
- Xem thêm -

Tài liệu liên quan