Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng...

Tài liệu Khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng

.PDF
68
150
148

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG Ngành: Kỹ Thuật Phần Mềm Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 8480103.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRẦN TRỌNG HIẾU Hà Nội – 2019 LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với đề tài “Khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng” được trình bày trong luận văn này là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của thầy giáo TS. Trần Trọng Hiếu, không sao chép lại của người khác. Tất cả các nguồn tài liệu tham khảo, các công trình nghiên cứu liên quan đều được trích dẫn cụ thể. Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ phát hiện nào về sự sao chép mà không có trích dẫn trong tài liệu tham khảo. LỜI CÁM ƠN Em xin chân thành cám ơn thầy giáo TS. Trần Trọng Hiếu người đã nhiệt tình hướng dẫn, chỉ bảo trong suốt quá trình hoàn thành luận văn này cũng như cả giai đoạn bắt đầu xây dựng đề cương xác định hướng nghiên cứu của luận văn. Em xin chân thành cám ơn toàn thể quý thầy cô trong Khoa CNTT đã tận tình truyền đạt những kiến thức quý báu cũng như tạo mọi điều kiện thuận lợi nhất cho em trong quá trình học tập nghiên cứu. Tôi xin chân thành cám ơn ban lãnh đạo, đồng nghiệp tại Trung tâm Công nghệ Thông tin – Ngân hàng Vietinbank đã tạo rất nhiều điều kiện cho tôi trong việc nghiên cứu và thực hiện luận văn. Xin chân thành cảm ơn gia đình, các học viên trong lớp Cao học K22 đã hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề tài luận văn thạc sĩ một cách hoàn chỉnh. Tôi xin cám ơn đề tài cấp Đại học Quốc Gia Hà Nội mã số: QG.19.23 Hà Nội, ngày tháng năm 2019 Tác giả luận văn Phạm Trung Kiên MỤC LỤC LỜI CAM ĐOAN ................................................................................................. i LỜI CÁM ƠN ...................................................................................................... ii DANH MỤC CÁC TỪ VIẾT TẮT ................................................................... vi DANH MỤC HÌNH VẼ .................................................................................... vii GIỚI THIỆU ........................................................................................................ 1 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ................................. 3 1.1. Khai phá dữ liệu là gì? .............................................................................. 3 1.2. Lợi ích của Khai phá dữ liệu .................................................................... 3 1.3. Các bước chính trong khai phá dữ liệu..................................................... 4 1.4. Các kỹ thuật khai phá dữ liệu ................................................................... 5 Kỹ thuật phân lớp ............................................................................... 5 Kỹ thuật phân cụm ............................................................................. 5 Kỹ thuật phân tích luật kết hợp .......................................................... 5 Kỹ thuật bài toán hồi quy ................................................................... 5 Kỹ thuật dự đoán ................................................................................ 5 Kỹ thuật phân tích chuỗi .................................................................... 6 Kỹ thuật phân tích độ lệch.................................................................. 6 1.5. Các thuật toán phân lớp ............................................................................ 6 Rừng ngẫu nhiên - Random Forest .................................................... 6 Hồi quy logistic - Logistic Regression ............................................... 7 Cây quyết định - Decision tree ........................................................... 7 Phân lớp sác xuất - Navie Bayes ........................................................ 8 Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) ......................... 8 Stochastic Gradient Descent............................................................... 9 Láng giềng gần nhất – (K-Nearest Neighbours) ................................ 9 1.6. Ứng dụng của khai phá dữ liệu................................................................. 9 1.7. Đề tài khai phá dữ liệu phân lớp rủi ro tín dụng .................................... 13 CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG....... 14 2.1. Lý thuyết rủi ro tín dụng ......................................................................... 14 Khái niệm rủi ro tín dụng ................................................................. 14 Những nguyên nhân phát sinh rủi ro tín dụng.................................. 14 Phân loại nhóm nợ ............................................................................ 14 Điều kiện vay vốn ............................................................................ 15 Căn cứ xác định định mức cho vay .................................................. 16 Đối tượng áp dụng ............................................................................ 16 Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân ........... 16 2.2. Phát biểu bài toán ................................................................................... 18 2.3. Quy trình phân lớp xây dựng mô hình ................................................... 19 2.4. Mô hình phân lớp dự báo rủi ro .............................................................. 21 2.5. Lựa chọn nghiên cứu thuật toán ............................................................. 22 Phân lớp Cây quyết định .................................................................. 22 2.5.1.1. Thuật toán cây quyết định .......................................................... 22 2.5.1.2. Hoạt động của thuật toán Cây quyết định .................................. 23 2.5.1.3. Các biện pháp lựa chọn thuộc tính ............................................. 24 2.5.1.4. Thông tin đạt được ..................................................................... 24 2.5.1.5. Tỷ lệ tăng ................................................................................... 25 2.5.1.6. chỉ số Gini .................................................................................. 25 Phân lớp Naive Bayes ...................................................................... 26 2.5.2.1. Quy trình phân lớp ..................................................................... 26 2.5.2.2. Phân lớp Naive Bayes là gì? ...................................................... 27 2.5.2.3. Hoạt động của phân lớp Naive Bayes ........................................ 28 CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK .............. 29 3.1. Khảo sát hoạt động tín dụng của hệ thống Vietinbank........................... 29 Tổng quan hoạt động tín dụng của Vietinbank ................................ 29 Các biện pháp quản trị nợ xấu đã được áp dụng tại VietinBank ..... 31 3.1.2.1. Hệ thống xếp hạng tín dụng: ...................................................... 31 3.1.2.2. Công tác dự báo nợ có khả năng chuyển xấu: ........................... 31 3.1.2.3. Những tồn tại, hạn chế ............................................................... 31 3.2. Mô tả bài toán áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng ................ 32 3.3. Mô hình dữ liệu tại Core Vietinbank ...................................................... 33 3.4. Môi trường .............................................................................................. 34 3.5. Thu thập dữ liệu ...................................................................................... 34 3.6. Biến đổi dữ liệu, tính toán sinh ra các bảng ........................................... 35 3.7. Làm sạch dữ liệu..................................................................................... 37 Giảm bớt dữ liệu............................................................................... 37 3.8. Lựa chọn dữ liệu ..................................................................................... 37 3.9. Tìm hiểu dữ liệu...................................................................................... 38 3.10. Lựa chọn thuật toán ............................................................................. 39 3.11. Lựa chọn công cụ ................................................................................ 39 3.12. Xây dựng mô hình phân lớp ................................................................ 40 Lựa chọn dữ liệu & thuộc tính ......................................................... 40 Mô hình Cây quyết định J48 ............................................................ 42 3.12.2.1. Xây dựng cây ............................................................................. 42 3.12.2.2. Tham số thuật toán J48 trên Weka............................................. 46 3.12.2.3. Tham số dữ liệu training ............................................................ 46 3.12.2.4. Thực nghiệm dữ liệu với J48 trên Weka.................................... 47 3.12.2.5. Đánh giá các lần chạy thực nghiệm với thuật toán J48 ............. 48 Phân lớp Naive Bayes ...................................................................... 49 3.12.3.1. Cấu hình tham số thuật toán Naive Bayes ................................. 49 3.12.3.2. Đánh giá các lần chạy thực nghiệm thuật toán Naive Bayes ..... 52 3.13. Đánh giá mô hình. ............................................................................... 52 So sánh kết quả các lần chạy giữa 2 thuật toán ................................ 52 Đánh giá lần chạy J48 đạt tỷ lệ phân lớp đúng cao nhất .................. 53 Đánh giá lần chạy Navie đạt tỷ lệ dữ liệu tập huấn 55% ................. 54 3.14. Triển khai tích hợp hệ thống Khai phá dữ liệu.................................... 55 CHƯƠNG 4: KẾT LUẬN ................................................................................ 57 4.1. Các kết quả đã đạt được.......................................................................... 57 4.2. Mục tiêu tương lai................................................................................... 57 TÀI LIỆU THAM KHẢO ................................................................................ 59 DANH MỤC CÁC TỪ VIẾT TẮT NHNN Ngân hàng nhà nước Việt Nam TMCP Thương mại cổ phần VietinBank Ngân hàng TMCP Công thương Việt Nam KPDL Khai phá dữ liệu TSĐB Tài sản đảm bảo RRTD Rủi ro tín dụng HĐTD Hoạt động tín dụng DANH MỤC HÌNH VẼ Hình 1.3.1: Lợi ích của Khai phá dữ liệu .............................................................. 3 Hình 1.3.1: Các bước khai phá dữ liệu................................................................. 4 Hình 1.3.2: Các bước chuẩn bị data ...................................................................... 4 Hình 2.3.1: Phát biểu bài toán ............................................................................ 18 Hình 2.4.1: Quy trình huấn luyện - training ........................................................ 20 Hình 2.4.2: Quy trình test dữ liệu ....................................................................... 21 Hình 2.4.3: Quy trình áp dụng mô hình .............................................................. 21 Hình 2.5.1: Mô hình phân lớp dự báo rủi ro ....................................................... 21 Hình 2.6.1: Cây quyết định ................................................................................. 23 Hình 2.6.2: luồng hoạt động của cây quyết định ................................................ 24 Hình 2.6.3: Quy trình phân lớp ........................................................................... 27 Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017 .......................................... 29 Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017 ................ 30 Hình 3.1.3: So sánh chỉ tiêu tín dụng, huy động, lợi nhuận, nợ xấu ................... 30 Hình 3.1.4: Biểu đồ kiểm soát nợ xấu giai đoạn 2010 đến 2017 ........................ 30 Hình 3.3.1: Mô hình datawarehouse của Vietinbank .......................................... 33 Hình 3.4.1: Môi trường thực nghiệm .................................................................. 34 Hình 3.5.1: Mô hình thu thập dữ liệu .................................................................. 34 Hình 3.8.1: Lựa chọn dữ liệu .............................................................................. 37 Hình 3.9.1: Biểu diễn dữ liệu .............................................................................. 39 Hình 3.12.2: Đặt khoảng cho thuộc tính định mức được vay ............................. 41 Hình 3.12.3: Đặt khoảng cho thuộc tính định mức được vay ............................. 41 Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi..................................................... 42 Hình 3.12.5: Chọn công cụ chạy bảng độ lợi thông tin trên Weka..................... 43 Hình 3.12.6: Bảng độ lợi thông tin trên Weka .................................................... 43 Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin...................................................... 44 Hình 3.12.8: Hướng dẫn vào màn hình tham số J48 trên Weka ......................... 46 Hình 3.12.9: Hướng dẫn cấu hình tham số xuất dữ liệu trên Weka.................... 46 Hình 3.12.11: Biểu đồ xác suất J48..................................................................... 48 Hình 3.12.12: Cấu hình tham số thuật toán Naive Bayes ................................... 49 Hình 3.12.13: Kết quả chạy thuật toán Naive Bayes trên Weka......................... 50 Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes ..................................................... 51 Hình 3.12.15: Biểu đồ tỷ lệ chính xác Navie Bayes ........................................... 52 Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes............... 52 Hình 3.13.2: kết quả lần chạy phù hợp nhất J48 ................................................. 53 Hình 3.13.3: kết quả lần chạy phù hợp nhất Navie Bayes .................................. 55 Hình 3.14.1: Màn hình login 3600 ....................................................................... 55 Hình 3.14.2: Màn hình giao diện ........................................................................ 56 Hình 3.14.3: Màn hình kết quả............................................................................ 56 1 GIỚI THIỆU Hoạt động tín dụng (HĐTD) trong ngành ngân hàng là đặc biệt quan trọng vì vậy việc đánh giá và phân loại rủi ro là nhiệm vụ hàng đầu trong quản trị vận hành. Vì lẽ đó nên hiện nay hầu hết các ngân hàng trên thế giới nói chung và Việt Nam nói riêng đều có những hệ thống hỗ trợ trong việc phân loại & đánh giá rủi ro. Hiện nay các ngân hàng hầu hết đều sử dụng mô hình chấm điểm tín dụng để hỗ trợ đánh giá rủi ro và xếp hạng tín dụng, để từ đó làm cơ sở có quyết định cho khách hàng vay hay không. Các ngân hàng khác nhau thì cũng có thể khác nhau về cấu trúc & cách vận hành hệ thống xếp hạng tín dụng, ví dụ như: cơ cấu và trọng số của các chỉ tiêu, ước tính mức rủi ro gắn liền với các mức xếp hạng, số lượng các mức xếp hạng, hay các chính sách khách hàng, chính sách tín dụng áp dụng v.v... [6] Hầu hết các Ngân hàng sử dụng bảng chỉ tiêu (bảng danh sách các thang điểm tín dụng ứng với từng thông tin hồ sơ khách hàng, như: thu nhập, nghề nghiệp, tài sản thế chấp…) dùng để tổng hợp và chấm điểm tín dụng đối với khách hàng, nếu thang điểm là tốt thì khách hàng sẽ được tiếp cận với khoản vay tương ứng Từ thực tế cho thấy, quy trình xét duyệt cho vay gặp phải nhiều vấn đề như:  Chất lượng thẩm định tín dụng phụ thuộc vào trình độ phân tích, cũng như chủ quan đánh giá của cán bộ tín dụng.  Các NHTM sử dụng mô hình này sẽ phải bỏ ra nhiều nguồn lực & thời gian để thẩm định thông tin khách hàng, cũng như đòi hỏi cán bộ tín dụng phải có tính chuyên nghiệp, có thâm niên, kỹ năng  Đặc biệt là mô hình chấm điểm này chưa có khả năng dự báo được rủi ro mà mới chỉ đánh giá được phần nào rủi ro nhờ điểm xếp hạng (dựa trên thông tin hiện có của hệ thống) Tác giả hiện đang công tác ở Ngân hàng TMCP Vietinbank với vị trí công việc là cán bộ IT có trách nhiệm hỗ trợ các module nghiệp vụ trong đó có module Tín dụng. Từ những hạn chế của mô hình chấm điểm xếp hạng tín dụng hiện tại là phụ thuộc cơ bản vào yếu tố con con người, và với mong muốn đề xuất giải pháp cải tiến trong hoạt động quản lý rủi ro tín dụng. Vậy nên, tác giả xin đề xuất hướng nghiên cứu của luận văn là: Ứng dụng khai phá dữ liệu nhằm hỗ trợ đánh giá và dự đoán phân loại rủi ro tín dụng của các khoản vay mới. Với mục 2 tiêu là xây dựng được mô hình phân lớp làm cơ sở tri thức để dự đoán phân loại nợ tốt/xấu với tập khách hàng mới, và phạm vi bài toán trong khuôn khổ luận văn sẽ tập trung vào mảng nghiệp vụ “Cho vay tín dụng với khách hàng cá nhân”. Luận văn được tổ chức thành 4 chương gồm: Chương 1: Trình bày tổng quan thế nào là khai phá dữ liệu, các bước trong quy trình khai phá dữ liệu và các phương pháp khai phá dữ liệu. Các ứng dụng phổ biến của khai phá dữ liệu Chương 2: Nghiên cứu quy trình quản lý hoạt động rủi ro tín dụng Ngân hàng. Từ những hạn chế trong thực tế vận hành quy trình quản lý rủi ro tín dụng, tác giả đề xuất xây dựng mô hình quản lý rủi ro bằng phương pháp khai phá dữ liệu. Mô hình này đáp ứng là cơ sở tri thức để hỗ trợ công tác quản lý rủi ro trên các phương diện: Phân loại rủi ro & dự đoán rủi ro. Và từ tính chất của dữ liệu cho vay, tác giả chọn tìm hiểu chi tiết các thuật toán dùng để áp dụng là: Cây quyết định, Navie Bayes Chương 3: ứng dụng nghiên cứu trên dữ liệu thực nghiệm của Ngân hàng Vietinbank. Trong chương này tác giả thực hiện các nội dung:  Thu thập dữ liệu  Phân tích dữ liệu  Xây dựng mô hình phân lớp dự báo rủi ro  Tích hợp Module Khai phá dữ liệu và hệ thống Khảo sát tín dụng 3600 của Ngân hàng Vietinbank Chương 4: Tóm tắt những kết quả đã và chưa đạt được, từ đó đưa ra những mục tiêu và hướng tiếp cận trong tương lai. 3 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Khai phá dữ liệu là gì? Khai phá dữ liệu là quá trình phân lớp, sắp xếp các tập hợp dữ liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân tích dữ liệu. Các công cụ khai phá dữ liệu cho phép các doanh nghiệp có thể dự đoán được xu hướng tương lai [1][2]. 1.2. Lợi ích của Khai phá dữ liệu Lợi ích chính của Khai phá dữ liệu nằm ở khả năng phát hiện các mẫu và mối liên hệ tiềm ẩn trong cơ sở dữ liệu. Hay nói cách khác giúp ta làm chủ kho dữ liệu lớn, bằng mô hình tri thức được xây dựng dựa trên nguồn dữ liệu có sẵn, Khai phá dữ liệu đem lại nhiều giá trị như:  Lịch sử bán hàng và hành vi của khách hàng có thể được sử dụng để xây dựng các mô hình dự báo doanh số, sản phẩm và dịch vụ mới cho tương lai.  Các công ty trong ngành tài chính sử dụng các công cụ Khai phá dữ liệu để xây dựng các mô hình phát hiện rủi ro và gian lận.  Trong Lĩnh vực sản xuất công nghiệp có thể sử dụng Khai phá dữ liệu trong việc cải thiện an toàn sản phẩm, xác định các vấn đề về chất lượng, quản lý chuỗi cung ứng và cải thiện hoạt động vận hành sản xuất... Hình 1.3.1: Lợi ích của Khai phá dữ liệu 4 1.3. Các bước chính trong khai phá dữ liệu Dữ liệu thực tế Tìm hiểu nghiệp vụ Tập hợp dữ liệu Tìm hiểu dữ liệu Triển khai Chuẩn bị dữ liệu Làm sạch dữ liệu Xây dựng mô hình Chuyển đổi dữ liệu Chọn lọc dữ liệu Kiểm thử & Đánh giá mô hình Dữ liệu dùng để Khai phá Hình 1.3.1: Các bước khai phá dữ liệu Bước 1: Tìm hiểu nghiệp vụ - Business Understanding Bước 2: Tìm hiểu dữ liệu - Data Understanding Bước 3: Chuẩn bị dữ liệu - Data preparation Việc chuẩn bị dữ liệu bao gồm các bước Dữ liệu thực tế Tập hợp dữ liệu Làm sạch dữ liệu Chuyển đổi dữ liệu Chọn lọc dữ liệu Dữ liệu dùng để Khai phá Hình 1.3.2: Các bước chuẩn bị data Bước 4: Xây dựng mô hình hóa - Model Building Bước 5: Kiểm thử và đánh giá mô hình - Testing and Evaluation 5 Bước 6: Triển khai - Deployment 1.4. Các kỹ thuật khai phá dữ liệu Kỹ thuật phân lớp Kỹ thuật phân lớp là một trong những kỹ thuật Khai phá dữ liệu phổ biến nhất, ví dụ như: quản lý rủi ro hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi nhóm khách hàng, hay phân tích xem nhóm khách hàng nào có khả năng sẽ chuyển sang dùng sản phẩm dịch vụ của đối thủ cạnh tranh của công ty… Kỹ thuật phân lớp là dữ liệu được tổ chức trong các lớp cho trước, hay còn được gọi là học có quan sát. Trong kỹ thuật phân loại người ta sử dụng các nhãn lớp cho trước để sắp xếp các đối tượng. Mà trong đó, một tập huấn luyện bao gồm các đối tượng đã được kết hợp với các nhãn đã biết. Những thuật toán có quan sát sẽ được áp dụng cho tập các đối tượng cần phân loại để từ đó có thể mô hình hóa sự phân lớp của dữ liệu. Kỹ thuật phân cụm Kỹ thuật phân cụm khác biệt với kỹ thuật phân lớp là các nhãn lớp chưa biết và không có dữ liệu huấn luyện. Đối tượng được phân cụm dựa trên các thuộc tính tương đồng giữa chúng. Bài toán phân cụm còn hay được gọi là học không có giám sát. Kỹ thuật phân tích luật kết hợp Kỹ thuật phân tích luật kết hợp, hay còn gọi là kỹ thuật phân tích giỏ hàng bởi vì nó thường được sử dụng rộng rãi trong phân tích các giao dịch dữ liệu, các bài toán lựa chọn hàng hóa đi kèm… Kỹ thuật phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên hệ giữa các thuộc tính dữ liệu mà thường xuất hiện cùng nhau trong các tập dữ liệu. Kỹ thuật bài toán hồi quy Kỹ thuật hồi quy cũng tương tự như kỹ thuật phân lớp. Điểm khác biệt là hồi quy dự đoán cho các dữ liệu liên tục. Kỹ thuật dự đoán Dự đoán là phần quan trọng của KHAI PHÁ DỮ LIỆU. Có hai loại dự đoán chính:  Dự đoán về một số giá trị dữ liệu chưa biết hay có xu hướng sắp xảy ra 6  Dự đoán để phân lớp dựa trên (một tập huấn luyện và giá trị thuộc tính) của đối tượng. Kỹ thuật phân tích chuỗi Là kỹ thuật để tìm ra các mẫu trong một loạt các giá trị hay trạng thái rời rạc. Ví dụ: việc chọn mua hàng hóa của khách hàng có thể mô hình là một chuỗi dữ liệu. Hành động chọn mặt hàng A, sau đó chọn mặt hàng B, C… là một chuỗi các trạng thái rời rạc. Trong khi đó thời gian lại là chuỗi số liên tục. Phân tích chuỗi (PTC) và phân tích luật kết hợp (PTLKH) giống nhau ở chỗ đều phân tích tập hợp các đối tượng hay trạng thái. Điểm khác biệt là mô hình chuỗi phân tích sự chuyển của các trạng thái, trong khi mô hình luật kết hợp thì coi mỗi một mặt hàng trong giỏ hàng là như nhau và độc lập. Với mô hình chuỗi, thì việc chọn mặt hàng A trước mặt hàng B hay việc chọn mặt hàng B trước A sau là khác nhau. Còn ở mô hình kết hợp thì cả hai trường hợp đều không khác nhau. Kỹ thuật phân tích độ lệch Kỹ thuật này còn được gọi theo cách khác là phát hiện điểm biên. Điểm biên là những đối tượng dữ liệu mà không tuân theo các đặc tính và hành vi chung. Bài toán phát hiện điểm biên ứng dụng rất nhiều trong các ứng dụng. Điển hình ứng dụng quan của bài toán phát hiện điểm biên là bài toán kiểm tra xác nhận thẻ tín dụng… 1.5. Các thuật toán phân lớp Rừng ngẫu nhiên - Random Forest Định nghĩa: Phân lớp rừng ngẫu nhiên là một công cụ ước tính phù hợp với một số cây quyết định trên các mẫu dữ liệu con khác nhau và sử dụng trung bình để cải thiện độ chính xác dự đoán của mô hình và kiểm soát sự phù hợp quá mức. Cỡ mẫu phụ luôn giống với cỡ mẫu đầu vào ban đầu nhưng các mẫu được vẽ thay thế. Ưu điểm: Giảm phân lớp rừng phù hợp quá mức và ngẫu nhiên là chính xác hơn so với cây quyết định trong hầu hết các trường hợp. Nhược điểm: Dự đoán thời gian thực chậm, khó thực hiện và thuật toán phức tạp. 7 Hồi quy logistic - Logistic Regression Hồi quy logistic là đối tác phân loại với hồi quy tuyến tính. Dự đoán được ánh xạ từ 0 đến 1 thông qua hàm logistic , có nghĩa là dự đoán có thể được hiểu là xác suất của lớp. Bản thân các mô hình vẫn là "tuyến tính", vì vậy chúng hoạt động tốt khi các lớp của bạn có thể phân tách tuyến tính (nghĩa là chúng có thể được phân tách bằng một bề mặt quyết định duy nhất). Hồi quy logistic cũng có thể được thường xuyên hóa bằng cách xử phạt các hệ số với cường độ hình phạt có thể điều chỉnh.  Điểm mạnh: Đầu ra có một diễn giải xác suất tốt và thuật toán có thể được thường xuyên hóa để tránh bị quá mức. Các mô hình logistic có thể được cập nhật dễ dàng với dữ liệu mới bằng cách sử dụng gốc dốc ngẫu nhiên.  Điểm yếu: Hồi quy logistic có xu hướng hoạt động kém khi có nhiều ranh giới quyết định phi tuyến tính. Họ không đủ linh hoạt để tự nhiên nắm bắt các mối quan hệ phức tạp hơn. Cây quyết định - Decision tree Cây hồi quy (còn gọi là cây quyết định) học theo kiểu phân cấp bằng cách liên tục chia dữ liệu của bạn thành các nhánh riêng biệt để tối đa hóa mức tăng thông tin của mỗi lần phân tách.Cấu trúc phân nhánh này cho phép cây hồi quy tự nhiên học các mối quan hệ phi tuyến tính. Các phương thức của bộ đồng phục, chẳng hạn như Rừng ngẫu nhiên (RF) và Cây tăng cường Gradient (GBM), kết hợp các dự đoán từ nhiều cây riêng lẻ. Chúng ta sẽ không đi sâu vào cơ học cơ bản của chúng ở đây, nhưng trên thực tế, RF thường hoạt động rất tốt trong khi GBM khó điều chỉnh hơn nhưng có xu hướng có hiệu suất cao hơn.  Điểm mạnh: Cây quyết định có thể học các mối quan hệ phi tuyến tính và khá mạnh mẽ đối với các ngoại lệ. Bộ sưu tập thực hiện rất tốt trong thực tế, chiến thắng nhiều cuộc thi học máy cổ điển (tức là không học sâu).  Điểm yếu: Không bị giới hạn, các cây riêng lẻ dễ bị quá mức vì chúng có thể tiếp tục phân nhánh cho đến khi chúng ghi nhớ dữ liệu đào tạo. Tuy nhiên, điều này có thể được giảm bớt bằng cách sử dụng các bản hòa tấu. 8 Phân lớp sác xuất - Navie Bayes Naive Bayes là một thuật toán rất đơn giản dựa trên xác suất và số đếm có điều kiện . Về cơ bản, mô hình của bạn thực sự là một bảng xác suất được cập nhật thông qua dữ liệu đào tạo của bạn. Để dự đoán một quan sát mới, bạn chỉ cần "tra cứu" xác suất của lớp trong "bảng xác suất" dựa trên các giá trị tính năng của nó. Nó được gọi là "ngây thơ" bởi vì giả định cốt lõi của nó về sự độc lập có điều kiện (tức là tất cả các tính năng đầu vào là độc lập với nhau) hiếm khi đúng trong thế giới thực.  Điểm mạnh: Mặc dù giả định độc lập có điều kiện hiếm khi đúng, các mô hình Navie Bayes thực sự hoạt động tốt một cách đáng ngạc nhiên trong thực tế, đặc biệt là vì chúng đơn giản như thế nào. Chúng rất dễ thực hiện và có thể mở rộng quy mô với tập dữ liệu của bạn.  Điểm yếu: Do tính đơn giản tuyệt đối của chúng, các mô hình NB thường bị đánh bại bởi các mô hình được đào tạo và điều chỉnh đúng cách bằng các thuật toán trước được liệt kê. Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) Các máy véc-tơ hỗ trợ (SVM) sử dụng một cơ chế gọi là hạt nhân , về cơ bản tính khoảng cách giữa hai quan sát. Thuật toán SVM sau đó tìm thấy một ranh giới quyết định tối đa hóa khoảng cách giữa các thành viên gần nhất của các lớp riêng biệt. Ví dụ, một SVM với đường tuyến tính tương tự như hồi quy logistic. Do đó, trong thực tế, lợi ích của SVM thường đến từ việc sử dụng các hạt nhân phi tuyến tính để mô hình hóa các ranh giới quyết định phi tuyến tính.  Điểm mạnh: SVM có thể mô hình hóa các ranh giới quyết định phi tuyến tính và có nhiều hạt nhân để lựa chọn. Chúng cũng khá mạnh mẽ để chống lại quá mức, đặc biệt là trong không gian nhiều chiều.  Điểm yếu: Tuy nhiên, SVM rất tốn bộ nhớ, khó điều chỉnh hơn do tầm quan trọng của việc chọn đúng kernel và không mở rộng tốt cho các bộ dữ liệu lớn hơn. Hiện tại trong ngành, rừng ngẫu nhiên thường được ưa thích hơn SVM. 9 Stochastic Gradient Descent Định nghĩa: Stochastic gradient gốc là một cách tiếp cận đơn giản và rất hiệu quả để phù hợp với các mô hình tuyến tính. Nó đặc biệt hữu ích khi số lượng mẫu rất lớn. Nó hỗ trợ các chức năng mất khác nhau và hình phạt để phân lớp. Ưu điểm: Hiệu quả và dễ thực hiện. Nhược điểm: Yêu cầu một số siêu tham số và nó nhạy cảm với tính năng mở rộng. Láng giềng gần nhất – (K-Nearest Neighbours) Định nghĩa: Phân lớp dựa trên hàng xóm là một kiểu lười học vì nó không cố gắng xây dựng một mô hình nội bộ chung, mà chỉ lưu trữ các trường hợp của dữ liệu đào tạo. Phân lớp được tính từ một phiếu bầu đa số đơn giản của k hàng xóm gần nhất của mỗi điểm. Ưu điểm: Thuật toán này dễ thực hiện, mạnh mẽ đến dữ liệu đào tạo ồn ào và hiệu quả nếu dữ liệu đào tạo lớn. Nhược điểm: Cần xác định giá trị của K và chi phí tính toán cao vì nó cần máy tính khoảng cách của mỗi trường hợp cho tất cả các mẫu đào tạo. 1.6. Ứng dụng của khai phá dữ liệu Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai các nhiệm vụ của khai phá dữ liệu. Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi Chăm sóc sức khỏe Khai phá dữ liệu có tiềm năng lớn để cải thiện các hệ thống y tế. Nó sử dụng dữ liệu và phân tích để xác định các thực tiễn tốt nhất giúp cải thiện việc chăm sóc và giảm chi phí. Các nhà nghiên cứu sử dụng các phương pháp Khai phá dữ liệu như cơ sở dữ liệu đa chiều, học máy, điện toán mềm, trực quan hóa dữ liệu và thống kê. Khai thác có thể được sử dụng để dự đoán khối lượng bệnh nhân trong mọi thể loại. Các quy trình được phát triển để đảm bảo rằng bệnh nhân được chăm sóc phù hợp tại đúng nơi và đúng thời điểm. Khai phá dữ liệu cũng có thể giúp các công ty bảo hiểm chăm sóc sức khỏe phát hiện gian lận và lạm dụng. Phân tích thị trường Phân tích thị trường là một kỹ thuật mô hình dựa trên lý thuyết rằng nếu bạn mua một nhóm mặt hàng nhất định, bạn có nhiều khả năng mua một nhóm mặt 10 hàng khác. Kỹ thuật này có thể cho phép nhà bán lẻ hiểu hành vi mua hàng của người mua. Thông tin này có thể giúp nhà bán lẻ biết nhu cầu của người mua và thay đổi cách bố trí cửa hàng cho phù hợp. Sử dụng phân tích so sánh kết quả giữa các cửa hàng khác nhau, giữa các khách hàng trong các nhóm nhân khẩu học khác nhau có thể được thực hiện. Giáo dục Có một lĩnh vực mới nổi, được gọi là Khai phá dữ liệu giáo dục, liên quan đến việc phát triển các phương pháp khám phá kiến thức từ dữ liệu có nguồn gốc từ Môi trường giáo dục. Các mục tiêu của Khai phá dữ liệu trong giáo dục được xác định là dự đoán hành vi học tập trong tương lai của học sinh, nghiên cứu các tác động của hỗ trợ giáo dục và nâng cao kiến thức khoa học về học tập. Khai phá dữ liệu có thể được sử dụng bởi một tổ chức để đưa ra quyết định chính xác và cũng để dự đoán kết quả của học sinh. Với kết quả, tổ chức có thể tập trung vào những gì cần dạy và cách dạy. Mô hình học tập của các sinh viên có thể được nắm bắt và sử dụng để phát triển các kỹ thuật để dạy họ. Kỹ thuật sản xuất Kiến thức là tài sản tốt nhất mà một doanh nghiệp sản xuất sẽ sở hữu. Các công cụ Khai phá dữ liệu có thể rất hữu ích để khám phá các mẫu trong quy trình sản xuất phức tạp. Khai phá dữ liệu có thể được sử dụng trong thiết kế cấp hệ thống để trích xuất các mối quan hệ giữa kiến trúc sản phẩm, danh mục sản phẩm và dữ liệu nhu cầu của khách hàng. Nó cũng có thể được sử dụng để dự đoán thời gian phát triển sản phẩm, chi phí và sự phụ thuộc giữa các nhiệm vụ khác. Quản lý quan hệ khách hàng Quản lý quan hệ khách hàng là tất cả về việc có được và giữ chân khách hàng, cũng cải thiện lòng trung thành của khách hàng và thực hiện các chiến lược tập trung vào khách hàng. Để duy trì mối quan hệ đúng đắn với khách hàng, một doanh nghiệp cần thu thập dữ liệu và phân tích thông tin. Đây là nơi Khai phá dữ liệu đóng vai trò của nó. Với công nghệ Khai phá dữ liệu, dữ liệu thu thập được có thể được sử dụng để phân tích. Thay vì bối rối nơi tập trung để giữ chân khách hàng, những người tìm kiếm giải pháp có được kết quả được lọc. Phát hiện gian lận Hàng tỷ đô la đã bị mất cho các hành động gian lận. Các phương pháp phát hiện gian lận truyền thống rất tốn thời gian và phức tạp. Hỗ trợ Khai phá dữ liệu trong việc cung cấp các mẫu có ý nghĩa và biến dữ liệu thành thông tin. Bất kỳ thông tin nào là hợp lệ và hữu ích là kiến thức. Một hệ thống phát hiện gian lận
- Xem thêm -

Tài liệu liên quan