Đăng ký Đăng nhập
Trang chủ 01tran quang sang...

Tài liệu 01tran quang sang

.DOC
11
343
142

Mô tả:

Phương pháp lấy mẫu mới của tập dữ liệu lớn không cân bằng dựa trên biểu đồ lớp (lớp biên)
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI -----o0o----- ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 60.48.01.01 Đề tài: NGHIÊN CỨU PHƯƠNG PHÁP ĐIỀU CHỈNH MỨC ĐỘ CÂN BẰNG DỮ LIỆU DỰA TRÊN RANH GIỚI LỚP - Cơ sở đào tạo: Trường Đại học Sư phạm Hà Nội - Chuyên ngành: Khoa học máy tính - Khóa 26 (2016 - 2018) - Người hướng dẫn: TS. Đặng Xuân Thọ,Trường ĐHSP Hà Nội - Học viên thực hiện: Trần Quang Sang Đăk Lăk, tháng 10 năm 2017 0 ĐỀ CƯƠNG LUÂÂN VĂN THẠC SĨ Đề tài: Nghiên cứu phương pháp điều chỉnh mức độ cân bằng dữ liệu dựa trên ranh giới lớp Người hướng dẫn: TS. Đặng Xuân Thọ, Trường Đại học Sư phạm Hà Nội. Người thực hiện: Trần Quang Sang, học viên Cao học K26, chuyên ngành Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học sư phạm Hà Nội. PHẦN 1: MỞ ĐẦU 1. Lý do chọn đề tài Ngành công nghiệp IT đang thay đổi, các công ty đang dần phụ thuộc vào công nghệ thông tin ngày khá nhiều, các dịch vụ IT quan trọng đang dịch chuyển từ việc tập trung vận hành và lưu trữ sang việc xem xét công nghệ thông tin như một công cụ thúc đẩy phát triển trong kinh doanh. Điều này đã khởi động hàng loạt các thay đổi, các cải tiến làm xoay chuyển công nghiệp IT hiện nay. Một trong các thay đổi đó chính là việc khai thác các dữ liệu, các ứng dụng thuộc lĩnh vực Khai phá dữ liệu. Một số ứng dụng khai phá dữ liệu điển hình: • Phân tích dữ liệu tài chính (Financial Data Analysis) • Công nghiệp bán lẻ (Retail Industry) • Công nghiệp viễn thông (Telecommunication Industry) • Phân tích dữ liệu sinh học (Biological Data Analysis) • Phát hiện xâm nhập (Intrusion Detection) • Một số ứng dụng trong khoa học (Scientific Applications) Tuy nhiên một vấn đề khó khăn gặp phải khi ứng dụng khai phá dữ liệu vào các bộ dữ liệu mất cân bằng thì kết quả so sánh khó thấy được sự khác biệt, hiện nay một số nhà khoa học, một số chuyên gia đã có các nghiên cứu về phân lớp dữ liêu, phân cụm dữ liệu đem lại sự hiệu quả hơn. 1 PHƯƠNG PHÁP NGHIÊN CỨU ĐIỀU CHỈNH MỨC ĐỘ CÂN BẰNG DỮ LIỆU DỰA TRÊN RANH GIỚI LỚP [1] hứa hẹn có được một kết quả phản ánh khá chính xác về dữ liệu mất cân bằng; điều đó có thể giúp ích cho các ứng dựng khai phá dữ liệu trên các bộ dữ liệu mất cân bằng thuộc các lĩnh vực tin sinh học, khai phá dữ liệu phân tán, khai phá dữ liệu thời gian thực,... 2. Mục đích nghiên cứu - Tìm hiểu về khai phá dữ liệu, ứng dụng khai phái dữ liệu dựa trên các bộ dữ liệu mất cân bằng - Tìm hiểu về phương pháp nghiên cứu điều chỉnh mức độ cân bằng dữ liệu dựa trên ranh giới lớp 3. Đối tượng nghiên cứu Các phương pháp phân lớp dữ liệu trên các bộ dữ liệu mất cân bằng 4. Nhiệm vụ nghiên cứu Tìm hiểu về khai phá dữ liệu, phân lớp dữ liệu Tìm hiểu các phương pháp về làm cân bằng dữ liệu Ứng dụng phương pháp nghiên cứu điều chỉnh mức độ cân bằng dữ liệu dựa trên ranh giới lớp trên các bộ dữ liệu chuẩn. 5. Phạm vi nghiên cứu Tập trung nghiên cứu các vấn đề về kiến thức khái phá dữ liệu, phân lớp dữ liệu Tìm hiểu về độ do, về ngôn ngữ R Nghiên cứu phương pháp nghiên cứu điều chỉnh mức độ cân bằng dữ liệu dựa trên ranh giới lớp trên các bộ dữ liệu chuẩn. Viết ứng dụng, và đánh giá kết quả thực nghiệm 6. Phương pháp nghiên cứu 2 Nghiên cứu lý thuyết, đọc các giáo trình, các bài báo liên quan đến khai phá dữ liệu, phân lớp dữ liệu Tập hợp, phân tích, thực nghiệm, đối chiếu rút trích và viết luận văn 3 PHẦN 2: DỰ KIẾN NỘI DUNG LUẬN VĂN Dự kiến nô i dung của luâ ôn văn gồm có 3 chương chính. ô MỞ ĐẦU Chương I. Tổng quan về khai phá dữ liệu 1.1. Giới thiệu về khai phá dữ liệu 1.1.1. Vì sao phải khai phá tri thức, khai phá dữ liệu? 1.1.2. Ngành công nghiệp dựa trên dữ liệu 1.2. Khái niệm phát hiện tri thức trong cơ sở dữ liệu 1.2.1.Giải thích thuật ngữ 1.2.2. Quá trình phát hiện tri thức trong dữ liệu 1.2.3. Bước khai phá dữ liệu trong quá trình phát hiện tri thức từ dữ liệu 1.2.4. Kiến trúc một hệ thống khai phá dữ liệu 1.3. Một số lĩnh vực ứng dụng khai phá dữ liệu điển hình 1.4. Các bài toán khai phá dữ liệu điển hình 1.5. Dữ liệu mất cân bằng và vấn đề hiện nay 1.6. Kết luận chương 1 4 Chương II. Kỹ thuật phân lớp dữ liệu dựa trên ranh giới lớp 2.1. Giới thiệu phân lớp dữ liệu 2.2. Một số phương pháp đã tiếp cận 2.3. Điều chỉnh dữ liệu mất cân bằng 2.4. Làm sạch dữ liệu sử dụng phân lớp 2.5. Thuật toán phân lớp dữ liệu dựa trên ranh giới lớp 2.4. Kết luận chương 2 Chương III. Cài đặt và thử nghiệm 3.1. Tiêu chí đánh giá 3.1.1 Ma trận nhầm lẫn 3.1.2 F-Measure 3.1.2 G-mean 3.2. Thử nghiệm và kết quả 3.3. Kết luận chương 3 KẾT LUẬN - Các kết quả đạt được của luận văn - Hướng nghiên cứu tiếp theo 5 TÀI LIÊÂU THAM KHẢO CHÍNH Tiếng Anh: [1] . Xing Sheng, Zhai Junhai, Wang Xiaolan, Yuan Ming (2015). A new resampling method of imbalanced large data based on class boundary [2] . Jiawei Han and Micheline Kamber (2006). Data Mining: Concepts and Techniques, Second Edition Tiếng Việt: [3] . Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2016). Giáo trình khai phá dữ liệu [4] . Đỗ Ngọc Quỳnh (2017). Nghiên cứu phương pháp dec-svm phân lớp dữ liệu mất cân bằng [5] . Nguyễn Thị Lan Anh (2017). Thuật toán hmu trong bài toán phân lớp dữ liệu mất cân bằng 6 PHẦN 3: KẾ HOẠCH THỰC HIỆN ĐỀ TÀI Nội dung công việc Thời gian thực hiện - Nhận đề tài Tháng 9/2017 - Tìm, đọc tài liệu, phác thảo đề cương Tháng 10/2017 - Xin ý kiếm nhận xét của giảng viên hướng dẫn về bản đề cương V0.1 Tháng 10/2017 - Viết và hoàn thành đề cương Tháng 10-11/2017 - Tiếp tục xin ý kiến giảng viên để hoàn thiện bản Tuần thức 2 tháng đề cương 11/2017 - Tiếp tục tìm và đọc tài liệu Tháng 12/201701/2018 - Viết chương 1 và 2. - Tìm hiểu về ngôn ngữ R - Xin ý kiến nhận xét của giảng viên về bản luận văn V.01 Tuần thứ 2 tháng 01/2018 - Xây dựng thuật toán, viết ứng dụng, viết chương 3 Tháng 2 - 3/2018 - Xin ý kiến của giảng viên hướng dẫn về bản luận văn V.02 Tuần đầu tháng 3/2018 - Hoàn chỉnh luận văn Tháng 4/2018 - Làm các thủ tục chuẩn bị báo cáo luận văn Tháng 5/2018 - Bảo vệ luận văn Tháng 6/2018 ....................., ngày ......... tháng ....... năm 201….. Người thực hiê Ân Người hướng dẫn khoa học Trần Quang Sang TS. Đăng Xuân Thọ 7 Chủ tịch hô Âi đồng xét duyê Ât Ý TƯỞNG CỦA CỦA PHƯƠNG PHÁP NGHIÊN CỨU ĐIỀU CHỈNH MỨC ĐỘ CÂN BẰNG DỮ LIỆU DỰA TRÊN RANH GIỚI LỚP Bước 0: Dữ liệu đầu vào là một ma trận gồm m phần tử (bản ghi, mẫu), n thuộc tính (cột) và b1,…,bn là các nhãn (loại). Bước 1: Sắp xếp ma trận theo thuộc tính đầu tiên Nếu giá trị thuộc tính của các mẫu liền kề là giống nhau thì căn cứ vào các thuộc tính tiếp theo Giả sử ở thuộc tính đầu tiên, các giá trị a1=a2=a3 thì cần căn cứ vào các thuộc tính b, c và d. Từ đó ta sẽ có các ma trận Array1; Array2; Array3, một cách tương ứng. Điều này giải thích cho việc, nó có thể có n-1 ma trận khi sắp xếp cho từng thuộc tính 8 Bước 2: Ở mổi ma trận đã sắp xếp ta sẽ thiết lập yếu tố lớp biên (tham số biên) vào ma trận này. Khởi tạo tham số biên bằng 0 Nếu 2 phần tử liền kề khác nhãn thì cộng mỗi tham số biên lên 1. Nếu giống nhau thì không làm gì. Căn cứ vào Array1; Array2; Array3 sẽ xây dựng được các tham số biên cho thuộc tính đầu tiên ở Array1’; Array2’; Array3’ Bước 3: Cộng dồn cột tham số ở các ma trận Array1’; Array2’; Array3’ (lưu ý: cộng dồn theo từng dòng, dòng a1 thì cộng dòng a1, dòng a2 thì cộng dòng a2,…) Bước 4: Làm tương tự cho các thuộc tính còn lại. Giả thiết rằng chúng ta tính toán được như ma trận hình bên Bước 5: Thiết lập một ngưỡng K. Nếu chọn 9 K= 6 có nghĩa là chúng ta loại bỏ các phần tử lớp đa số có giá trị vector biên lớn hơn hoặc bằng 18. Điều đó có ý nghĩa là loại bỏ các phần tử đa số không nằm gần lớp biên hoặc không có ý nghĩa đối với kết quả của sự phân loại Việc loại bỏ lớp đa số dựa vào ngưỡng K thích hợp chúng không chỉ cải thiện độ chính xác của sự phân loại mà còn cải thiện độ đo G-mean và F-measure 10
- Xem thêm -

Tài liệu liên quan