Đăng ký Đăng nhập
Trang chủ Ngoại ngữ Kiến thức tổng hợp Ứng dụng thuật toán xgboost vào dự đoán tế bào bất thường ở cổ tử cung...

Tài liệu Ứng dụng thuật toán xgboost vào dự đoán tế bào bất thường ở cổ tử cung

.PDF
75
1
52

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGỤY VŨ PHƯƠNG MAI ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Bình Định – Năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGỤY VŨ PHƯƠNG MAI ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG Ngành : Khoa học dữ liệu ứng dụng Mã số : 8904648 Người hướng dẫn: GS. NGUYỄN THANH THỦY LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu và thực hiện luận văn thực sự của riêng tôi, dưới sự hướng dẫn của GS. Nguyễn Thanh Thủy. Mọi tham khảo từ các nguồn tài liệu, công trình nghiên cứu liên quan trong nước và quốc tế đều được trích dẫn một cách rõ ràng trong luận văn. Mọi sao chép không hợp lệ hay vi phạm quy chế tôi xin hoàn toàn chịu trách nhiệm và chịu mọi kỷ luật của trường Đại học Quy Nhơn. Bình Định, ngày tháng năm 2022. Học viên Ngụy Vũ Phương Mai LỜI CẢM ƠN Trong quá trình thực hiện và hoàn thiện luận văn này, tôi xin gửi lời cảm ơn chân thành nhất đến các thầy cô trong Khoa Toán và Khoa Công nghệ Thông tin Trường Đại học Quy Nhơn cũng như các thầy thính giảng ở các trường, các viện ở Thành phố Hồ Chính Minh đã cung cấp cho tôi những kiến thức quý báu trong suốt 2 năm học vừa qua. Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc nhất tới GS. Nguyễn Thanh Thủy đã dành nhiều thời gian vô cùng quý báu để định hướng và hướng dẫn tôi tận tình cũng như tạo điều kiện thuận lợi để tôi có thể hoàn thành tốt nhất luận văn của mình. Tôi xin chân thành cảm ơn! Học viên thực hiện Ngụy Vũ Phương Mai MỤC LỤC TRANG PHỤ BÌA LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU .......................................................................................................... 1 CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI ............................................................ 3 1.1 Đặt vấn đề................................................................................................ 3 1.2. Một số kết quả nghiên cứu trong và ngoài nước.................................... 4 1.2.1. Kết quả nghiên cứu trên thế giới. ................................................... 4 1.2.2. Kết quả nghiên cứu trong nước. ..................................................... 5 1.3. Mục tiêu luận văn ................................................................................... 5 1.4. Đối tượng và phương pháp nghiên cứu. ................................................ 5 1.5. Ý nghĩa của đề tài................................................................................... 5 1.5.1. Ý nghĩa khoa học. ............................................................................ 5 1.5.2. Ý nghĩa thực tiễn. ............................................................................ 6 1.6. Bố cục luận văn. ..................................................................................... 6 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT .............................................................. 8 2.1. Tổng quan về phân tích dữ liệu. ............................................................. 8 2.1.1. Phân tích dữ liệu là gì? ................................................................... 8 2.1.2. Tại sao phải phân tích dữ liệu? ...................................................... 8 2.1.3. Quy trình phân tích dữ liệu. ............................................................ 9 2.1.4. Các loại hình phân tích. ................................................................ 11 2.2. Ứng dụng học máy trong phân tích dữ liệu. ........................................ 14 2.2.1. Khái niệm học máy (Machine Learning). ..................................... 14 2.2.2. Các loại thuật toán học máy. ........................................................ 14 2.2.3. Ứng dụng. ...................................................................................... 15 2.3. Phân tích dữ liệu trong y khoa. ............................................................ 15 2.3.1. Phân tích hình ảnh trong y khoa. .................................................. 15 2.3.2. Nghiên cứu di truyền học. ............................................................. 16 2.3.3. Điều chế thuốc............................................................................... 16 2.3.4. Phân tích và chẩn đoán bệnh. ....................................................... 16 2.3.5. Trợ lý sức khỏe và ứng dụng chăm sóc sức khỏe.......................... 17 2.4. Thuật toán XGBoost. ........................................................................... 17 2.4.1. Cơ sở hình thành. .......................................................................... 17 2.4.2. Ưu điểm của thuật toán. ................................................................ 19 2.4.3. Ứng dụng của thuật toán trong các lĩnh vực. ............................... 20 2.5. Đánh giá mô hình ................................................................................. 20 2.5.1. Độ đo dùng trong phân loại. ......................................................... 20 2.5.2. ROC (Receiver Operating Characteristic) và AUC (Area Under The Curve). .............................................................................................. 22 2.5.3. Đánh giá mô hình bằng kiểm tra chéo. ......................................... 23 2.6. Cơ sở dữ liệu y khoa. ........................................................................... 25 2.6.1. Mối liên quan giữa tế bào bất thường và bệnh ung thư cổ tử cung ................................................................................................................. 25 2.6.2. Đặc điểm lâm sàng và cận lâm sàng cổ tử cung........................... 25 CHƯƠNG 3: MÔ HÌNH DỰ BÁO TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG ............................................................................................................. 27 3.1 Phát biểu bài toán. ................................................................................. 27 3.2. Ứng dụng học máy phân tích dữ liệu bài toán tế bào bất thường. ....... 28 3.2.1. Hiểu bài toán. ................................................................................ 28 3.2.2. Hiểu dữ liệu. .................................................................................. 29 3.2.3. Chuẩn bị dữ liệu. ........................................................................... 37 3.2.4. Mô hình hóa. ................................................................................. 42 3.2.5. Đánh giá mô hình. ......................................................................... 43 3.3. Thực nghiệm mô hình. ......................................................................... 50 3.3.1. Tập dữ liệu toàn bộ. ...................................................................... 50 3.3.2. Tập thử nghiệm với bộ dữ liệu mới hoàn toàn. ............................. 52 KẾT LUẬN VÀ KIẾN NGHỊ ...................................................................... 57 DANH MỤC TÀI LIỆU THAM KHẢO ..................................................... 59 PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) DANH MỤC BẢNG BIỂU Bảng 3.1 Kiểu dữ liệu của các thuộc tính……………………………………39 DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 2.1. Mô tả quy trình phân tích dữ liệu.................................................... 11 Hình 2.2. Ví dụ về phân tích mô tả ................................................................. 12 Hình 2.3. Ví dụ về phân tích dự đoán ............................................................. 13 Hình 2.4. Ví dụ về phân tích đề xuất .............................................................. 14 Hình 2.5. Tổng quan về XGBoost................................................................... 17 Hình 2.6. Các tính năng của XGBoost ............................................................ 18 Hình 2.7. Mô hình dự đoán sử dụng Gradient Boosting ................................. 19 Hình 2.8. Bảng mô tả ma trận nhầm lẫn ......................................................... 21 Hình 2.9. Ví dụ về đường cong ROC và AUC ............................................... 23 Hình 3.1. Mô hình xây dựng giải pháp hỗ trợ chẩn đoán bệnh ...................... 28 Hình 3.2. Tập dữ liệu thu thập được ............................................................... 29 Hình 3.3. Đặc điểm nơi cư trú ......................................................................... 30 Hình 3.4. Dân tộc ............................................................................................ 30 Hình 3.5. Trình độ học vấn ............................................................................. 31 Hình 3.6. Kinh tế gia đình ............................................................................... 31 Hình 3.7. Triệu chứng cơ năng ....................................................................... 32 Hình 3.8. Triệu chứng thực thể ....................................................................... 32 Hình 3.9. Tình trạng kinh nguyệt .................................................................... 33 Hình 3.10. Tuổi giao hợp lần đầu ................................................................... 34 Hình 3.11. Tiền sử bệnh viêm nhiễm phụ khoa .............................................. 35 Hình 3.12. Phân tích mối tương quan trong tập dữ liệu.................................. 36 Hình 3.13. Tập dữ liệu đủ tiêu chuẩn cuối cùng ............................................. 39 Hình 3.14. Mức độ quan trọng của các thuộc tính ảnh hưởng đến kết quả .... 44 Hình 3.15. Biểu đồ mất mát đường cong học tập XGBoost ........................... 46 Hình 3.16. Biểu đồ lỗi phân loại đường cong học tập XGBoost .................... 46 Hình 3.17 Ma trận nhầm lẫn ........................................................................... 47 Hình 3.18 Đường cong Precision – Recall...................................................... 48 Hình 3.19 Biểu đồ ROC-AUC của mô hình ................................................... 49 Hình 3.20 Ma trận nhầm lẫn trên tập dữ liệu toàn bộ. .................................... 50 Hình 3.21 Biểu đồ đường cong Precision – Recall trên tập dữ liệu toàn bộ .. 51 Hình 3.22 Đường cong ROC trên tập dữ liệu toàn bộ .................................... 52 Hình 3.23 Ma trận nhầm lẫn trên tập thử nghiệm mới hoàn toàn. .................. 53 Hình 3.24 Biểu đồ đường cong Precision – Recall trên tập dữ liệu thực nghiệm mới hoàn toàn ..................................................................................... 54 Hình 3.25 Đường cong ROC trên tập dữ liệu thực nghiệm mới hoàn toàn .... 55 1 MỞ ĐẦU Những năm gần đây, việc ứng dụng công nghệ thông tin trong hầu hết các lĩnh vực đều được quan tâm và đầu tư, mang lại hiệu quả rõ rệt. Trong số đó, lĩnh vực y tế đã có nhiều chuyển biến tích cực trong công tác điều hành, quản lý, đặc biệt là chẩn đoán. Nhờ vào ứng dụng công nghệ thông tin, trình độ chuyên môn của bác sĩ, y tá được nâng cao; các phương tiện để chẩn đoán và điều trị cũng được tự động hóa đem lại sự thoải mái cho bệnh nhân. Đây cũng chính là tiền đề để ứng dụng các thành tựu của công nghệ thông tin hiệu quả và mạnh mẽ hơn nữa. Lĩnh vực y tế trên thế giới đã đạt được những thành tựu đột phá nhờ ứng dụng công nghệ thông tin, đặc biệt là ứng dụng trí tuệ nhân tạo, học máy trong chẩn đoán và điều trị bệnh. Một ví dụ điển hình như sử dụng dữ liệu từ bệnh nhân kết hợp thuật toán học máy để tạo ra ứng dụng chẩn đoán sớm bệnh Alzheimer trước khi các triệu chứng bắt đầu can thiệp vào cuộc sống hàng ngày của bệnh nhân. Vì vậy, việc phát triển ứng dụng trí tuệ nhân tạo trong y tế là điều vô cùng cần thiết và cấp thiết. Hiện nay, ung thư đang là căn bệnh nguy hiểm với tỉ lệ tử vong là không nhỏ. Điều đáng lo ngại là căn bệnh này thường khó nhận ra khi ở giai đoạn sớm và chưa có thuốc đặc trị hay phòng bệnh hoàn toàn. Ngoài ra, những khu vực vùng sâu vùng xa, những nơi chăm sóc sức khỏe còn thiếu về năng lực lẫn máy móc thiết bị càng hạn chế việc bệnh nhân có đủ cơ hội thăm khám thường xuyên sức khỏe của mình. Trong bối cảnh đó, đề tài nghiên cứu và đưa ra một công cụ giúp bệnh nhân phát hiện ra sớm những bất thường trong cơ thể để kịp thời có hướng xử lý. Cụ thể hơn là nghiên cứu về tế bào bất thường ở cổ tử cung – nguyên nhân 2 gây ra bệnh lý ung thư cổ tử cung ở phụ nữ, khá phổ biến ở nữ giới cùng với ung thư vú. Nghiên cứu tiến hành theo các bước chính: Tìm hiểu nghiệp vụ y tế liên quan đến tế bào bất thường ở cổ tử cung; Thu thập và xử lý dữ liệu; Tìm hiểu và áp dụng thuật toán XGBOOST vào bài toán; Xây dựng mô hình học máy dự đoán; Thực nghiệm và đánh giá mô hình. 3 CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI 1.1 Đặt vấn đề Khoa học dữ liệu là một lĩnh vực liên ngành về các quá trình và các hệ thống rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, có cấu trúc hay phi cấu trúc [2]. Khoa học dữ liệu sử dụng các kỹ thuật để khai phá dữ liệu tạo ra các tri thức hữu ích, giúp có thêm thông tin mới, hỗ trợ ra quyết định. Trên thực tế, Khoa học dữ liệu là sự tiếp nối của phân tích dữ liệu dựa trên khoa học thống kê, khai phá dữ liệu khám phá tri thức trong các cơ sở dữ liệu. Theo Tổ chức Y tế Thế giới (WHO), ung thư cổ tử cung là nguyên nhân hàng đầu gây tử vong ở phụ nữ, chiếm 12% trong các ung thư ở nữ giới và 85% trường hợp xảy ra ở nước đang phát triển. Năm 2012, có 528.000 trường hợp ung thư mới được chẩn đoán và 266.000 phụ nữ tử vong , cứ mỗi phút có 2 phụ nữ tử vong vì ung thư cổ tử cung. Việt Nam cũng có 5.664 phụ nữ mắc bệnh và tỷ lệ mắc mới là 13,6/100.000 dân. Tại Cần Thơ và Đồng bằng sông Cửu Long có tỷ lệ mắc mới là 17,1/100.000 dân. Bệnh đang có xu hướng gia tăng nhưng thường phát hiện ở giai đoạn muộn nên biện pháp can thiệp sẽ kém hiệu quả và tỷ lệ tử vong tăng . Nhiều nơi trên thế giới không có chương trình sàng lọc tế bào cổ tử cung – âm đạo. Chỉ có dưới 5% phụ nữ ở các nước đang phát triển đã từng được làm phết tế bào cổ tử cung. Ngược lại, theo một báo cáo, tới 89% phụ nữ ở Mỹ từng được làm phết tế bào cổ tử cung ít nhất một lần trong vòng 3 năm trở lại đây [2] [24] [25]. Mặc dù bệnh rất nguy hiểm nhưng hầu hết ung thư cổ tử cung có thể phòng tránh được. Một trong những cách phòng tránh hiệu quả căn bệnh này là phát hiện và điều trị sớm các tổn thương tiền ung thư trước khi chúng trở thành ung thư bằng các xét nghiệm sàng lọc [3] [20] - xét nghiệm PAP. Xét nghiệm PAP ( Phết tế bào cổ tử cung) là xét nghiệm tế bào học để tìm những tế bào bất thường trong lớp biểu mô cổ tử cung. Mục đích của việc này là để phát hiện ung 4 thư cổ tử cung – một bệnh lý ác tính rất thường gặp ở phụ nữ, nhất là ở các nước đang phát triển. Đây là một xét nghiệm đơn giản, thường được thực hiện giúp sàng lọc phát hiện sớm tổn thương tiền ung thư hoặc ung thư cổ tử cung giai đoạn sớm ở phụ nữ trước khi chúng có thể chuyển thành ung thư xâm lấn, để có thể điều trị khỏi hoàn toàn. Do đó, giảm số bệnh nhân chết vì ung thư cổ tử cung, có thể tiến hành điều trị và ngăn chặn trước khi nó bắt đầu ung thư [10] [19]. Phần trăm rủi ro mắc bệnh ung thư cổ tử cung khi có tế bào bất thường ở cổ tử cung được cho là đáng báo động. Vậy giải pháp nào cho bệnh nhân có kinh tế thấp khi chi phí xét nghiệm PAP hàng năm khá lớn và cho những bệnh nhân ở nơi không có chương trình sàng lọc này? Vậy, cùng với tính ứng dụng của khoa học dữ liệu vào thực tiễn, luận văn này có mục tiêu nghiên cứu, thử nghiệm ứng dụng thuật toán XGBOOST xây dựng mô hình học máy vào việc dự đoán tế bào bất thường ở cổ tử cung để thông báo cũng như cảnh báo tình trạng sức khỏe của bệnh nhân để bệnh nhân kịp thời kiểm tra và phát hiện sớm để điều trị. 1.2. Một số kết quả nghiên cứu trong và ngoài nước. 1.2.1. Kết quả nghiên cứu trên thế giới. Nhiều ứng dụng trên thế giới được cho ra đời để hỗ trợ chẩn đoán nhanh và điều trị bệnh tốt hơn như Hệ thống chuyên gia y tế DiagnosisPro [26]; Hệ thống chẩn đoán y tế Caduceus của Harry Pope [27]; PSG-Expert (2000) chẩn đoán bệnh mất ngủ [9]; Naser xây dựng một hệ thống chẩn đoán bệnh về da (2008) [22]; BI-RADS (2007) chẩn đoán ung thư vú [17]; PUFF (1982) dùng để phân tích kết quả xét nghiệm chức năng phổi [23]; MYCIN (1973) hỗ trợ chẩn đoán bệnh nhiễm trùng máu [15];…. 5 1.2.2. Kết quả nghiên cứu trong nước. Việc ứng dụng công nghệ thông tin trong y tế những năm gần đây ở Việt Nam đang dần được phát triển. Cụ thể một số nghiên cứu như: hệ thống hỗ trợ kiểm tra đơn thuốc [5], hỗ trợ ra quyết định trong việc chẩn đoán lâm sàng [4], hỗ trợ xác định gen ảnh hưởng ung thư vú [7] 1.3. Mục tiêu luận văn Đề tài tập trung vào nghiên cứu tổng quan về thuật toán học máy XGBOOST, các kỹ thuật chính liên quan tới thuật toán XGBOOST cũng như tiềm năng của ứng dụng trong thực tiễn. Ngoài ra, tìm hiểu database (cơ sở dữ liệu) y khoa về tế bào bất thường ở cổ tử cung, bệnh ung thư cổ tử cung và phân tích các yếu tố liên quan tế bào bất thường cổ tử cung cũng như thu thập dữ liệu bệnh nhân. Trên cơ sở đó, đề xuất giải pháp dùng thuật toán XGBOOST xây dựng mô hình dự đoán tế bào bất thường ở cổ tử cung dựa trên dữ liệu đã có. Việc xây dựng hệ thống thử nghiệm, đánh giá chất lượng, độ hiệu quả của hỗ trợ dự đoán cũng là mục tiêu chính của đề tài. 1.4. Đối tượng và phương pháp nghiên cứu. Đề tài tập trung phân tích dữ liệu, nghiên cứu thuật toán Xgboost nhằm để áp dụng vào việc xây dựng mô hình dự đoán bệnh trong y khoa. Luận văn cũng thu thập dữ liệu bệnh nhân đã từng đến khám và điều trị tại Bệnh viện Phong – Da liễu Trung ương Quy Hòa. Bên cạnh đó, sử dụng phương pháp thu thập số liệu, phương pháp phân tích và tổng hợp, phương pháp thực nghiệm cùng với sự hỗ trợ chuyên môn của các bác sĩ chuyên môn. 1.5. Ý nghĩa của đề tài. 1.5.1. Ý nghĩa khoa học. Đề tài góp phần hỗ trợ cho các y bác sĩ chẩn đoán cũng như phát hiện sớm những bất thường trong cơ thể cho bệnh nhân. Ngoài ra cũng mong muốn 6 rằng những người đang công tác trong lĩnh vực Y học và Khoa học dữ liệu cùng nhau phối hợp tìm ra những giải pháp tốt hơn nữa trong vấn đề chẩn đoán và điều trị bệnh bằng cách kết hợp hai lĩnh vực với nhau. 1.5.2. Ý nghĩa thực tiễn. Trong y học, chẩn đoán và phát hiện ra bệnh là cả một quá trình và các bác sĩ không những phải nắm vững chuyên môn mà còn cần phải có đầy đủ trang thiết bị y tế mới chẩn đoán chính xác bệnh. Việc chẩn đoán sai dẫn đến việc điều trị sai hoặc không tìm ra bệnh, gây ra những tổn thất lớn về mặt vật chất lẫn tinh thần của bệnh nhân và gia đình họ. Việc phát hiện ra bệnh sớm và chính xác thì tỉ lệ chữa khỏi sẽ tăng lên đồng thời cũng giúp cho bệnh nhân và gia đình họ đưa ra những quyết định điều trị thích hợp. Vì vậy, chẩn đoán và phát hiện sớm bệnh sẽ phần nào giúp các y bác sĩ đưa ra các hướng điều trị phù hợp, hiệu quả. Đồng thời cảnh báo và tư vấn giúp bệnh nhân tránh khỏi những biến chứng nguy hiểm cũng như giảm được gánh nặng về mặt kinh tế cho bệnh nhân và xã hội. 1.6. Bố cục luận văn. Luận văn bao gồm các phần sau: MỞ ĐẦU Chương 1: Tổng quan đề tài Giới thiệu về những vấn đề liên quan đến phân tích dữ liệu (Data Analytics), cơ sở hình thành đề tài, mục tiêu, đối tượng nghiên cứu, phương pháp nghiên cứu, ý nghĩa thực tiễn và bố cục luận văn. Chương 2: Cơ sở lý thuyết - Tổng quan về phân tích dữ liệu - Ứng dụng học máy trong phân tích dữ liệu - Phân tích dữ liệu trong Y khoa 7 - Thuật toán XGBOOST và ứng dụng của nó trong các lĩnh vực khác nhau Chương 3. Mô hình dự báo tế bào bất thường ở cổ tử cung. Trong chương này, luận văn trình bày về bài toán dự đoán nguy cơ có tế bào bât thường ở cổ tử cung và các kỹ thuật chính sử dụng thuật toán XGBOOST: - Hiểu nghiệp vụ, xác định mục tiêu và yêu cầu của bài toán; - Hiểu dữ liệu : thu thập và làm quen với dữ liệu thô ban đầu, đưa ra đánh giá về chất lượng của dữ liệu. - Chuẩn bị dữ liệu: xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu chuẩn” để cho chạy mô hình và phân tích. - Mô hình hoá: Lựa chọn và áp dụng các kỹ thuật cùng phương pháp phù hợp, sau đó xây dựng mô hình phân tích dữ liệu, … - Đánh giá mô hình để đánh giá kết quả thu được từ mô hình, đánh giá mô hình đã đáp ứng được mục tiêu đã đề ra hay chưa, phân tích các chỉ số đạt được của mô hình và đưa quyết định về việc sử dụng kết quả phân tích vào thực tế. KẾT LUẬN VÀ KIẾN NGHỊ 8 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT 2.1. Tổng quan về phân tích dữ liệu. 2.1.1. Phân tích dữ liệu là gì? Phân tích dữ liệu (Data Analytics) là hoạt động biến dữ liệu thô, lộn xộn thành thông tin chi tiết hữu ích bằng cách dọn dẹp dữ liệu, chuyển đổi và kiểm tra dữ liệu. Sau đó, thông tin chi tiết thu thập từ dữ liệu được trình bày trực quan dưới dạng biểu đồ, đồ thị hoặc trang tổng quan với mục tiêu giúp hỗ trợ sự phát triển và hỗ trợ việc đưa ra quyết định của một công ty hoặc tổ chức. Phân tích dữ liệu có nhiều khía cạnh và nhiều cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên gọi khác nhau và được sử dụng trong các lĩnh vực kinh doanh khoa học va khoa học xã hội khác nhau. Tất cả các phương pháp phân tích dữ liệu khác nhau này đều dựa trên hai lĩnh vực cốt lõi: phương pháp định lượng và định tính trong nghiên cứu. Về cốt lõi, phân tích dữ liệu là xác định và dự đoán các xu hướng, tìm ra các mẫu, mối tương quan và mối quan hệ trong dữ liệu có sẵn, đồng thời tìm ra giải pháp cho các vấn đề phức tạp. 2.1.2. Tại sao phải phân tích dữ liệu? Phân tích dữ liệu được ứng dụng vào tất cả các ngành nghề trong hiện tại. Việc này rất quan trọng và mang lại tiềm năng lớn cho doanh nghiệp hoặc tổ chức. Cụ thể: a. Ra quyết định có cơ sở : Từ góc độ quản lý, chúng ta có thể hưởng lợi từ việc phân tích dữ liệu của mình vì nó giúp đưa ra quyết định dựa trên thực tế chứ không phải trực giác đơn thuần. Ví dụ: Ta có thể hiểu nơi đầu tư vốn của mình, phát hiện các cơ hội tăng trưởng, dự đoán thu nhập của mình hoặc giải quyết các tình huống rủi ro trước khi chúng trở thành sự thật. b. Giảm chi phí và tiết kiệm thời gian: Một lợi ích lớn khác là giảm chi phí. Điển hình là khi nhờ sự trợ giúp của các công nghệ tiên tiến như phân tích 9 dự đoán, các doanh nghiệp hay tổ chức có thể phát hiện ra các cơ hội, xu hướng và mô hình cải tiến trong dữ liệu của mình; từ đó lập kế hoạch chiến lược cho phù hợp mà không tốn nhiều thời gian. Điều này sẽ giúp chúng ta tiết kiệm tiền bạc và nguồn lực để thực hiện các chiến lược. Không chỉ vậy, trong các tình huống khác nhau như số lượng hàng bán ra và nhu cầu mua vào, bạn cũng có thể dự đoán sản lượng và nguồn cung. c. Nhắm mục tiêu khách hàng tốt hơn: Khách hàng được cho là yếu tố quan trọng nhất trong bất kỳ doanh nghiệp nào. Bằng cách sử dụng phân tích để có được tầm nhìn tổng quát về tất cả các khía cạnh liên quan đến khách hàng của mình, chúng ta có thể hiểu họ sử dụng kênh nào để giao tiếp với ta, sở thích, thói quen, hành vi mua hàng của họ v.v. Về lâu dài, nó sẽ thúc đẩy thành công cho các chiến lược tiếp thị của chúng ta, hỗ trợ ta xác định khách hàng tiềm năng mới và tránh lãng phí nguồn lực vào việc nhắm mục tiêu sai người hoặc gửi sai thông điệp. Ngoài ra còn có thể theo dõi mức độ hài lòng của khách hàng bằng cách phân tích đánh giá của khách hàng v.v. 2.1.3. Quy trình phân tích dữ liệu. Phân tích dữ liệu bao gồm các giai đoạn sau: a. Giai đoạn 1: Hiểu nghiệp vụ (Business Understanding) Trước hết, cần tìm ra mục đích của việc thực hiện phân tích dữ liệu và quyết định loại phân tích dữ liệu nào mà ta muốn thực hiện. Trong giai đoạn này, ta cần quyết định những gì cần phân tích và làm thế nào để đo lường nó, phải hiểu lý do tại sao ta đang điều tra và những biện pháp ta phải sử dụng để thực hiện phân tích này. b. Giai đoạn 2: Hiểu dữ liệu (Data Understanding). Thu thập và làm quen với dữ liệu thô ban đầu, đưa ra đánh giá về chất lượng của dữ liệu và một vài insights sơ bộ. Việc thu thập dữ liệu có thể ở nhiều 10 dạng khác nhau như nguồn nội bộ hoặc bên ngoài, khảo sát, phỏng vấn, bảng câu hỏi,…. c. Giai đoạn 3: Chuẩn bị dữ liệu (Data Preparation). Mặc dù đã có được các dữ liệu cần thiết, nhưng không phải bất kì dữ liệu nào được thu thập cũng hữu ích và liên quan đến mục đích phân tích của chúng ta. Do đó, cần xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu chuẩn” để cho chạy mô hình và phân tích. Việc chuẩn bị có thể bao gồm các thao tác như làm sạch, tổng hợp hoặc định dạng lại dữ liệu,…..Giai đoạn này cần phải được thực hiện trước khi phân tích vì dựa trên việc làm sạch dữ liệu, kết quả phân tích của chúng ta sẽ gần hơn với kết quả mong đợi. Có thể xử lý dữ liệu bằng các công cụ như Excel, Google Sheets,… d. Giai đoạn 4: Mô hình hóa (Modeling). Lựa chọn và áp dụng các kỹ thuật cùng phương pháp phù hợp, sau đó xây dựng mô hình phân tích dữ liệu. Việc điều chỉnh các tham số để tối ưu hóa mô hình cũng được thực hiện trong bước này. e. Giai đoạn 5: Đánh giá (Evaluation). Giai đoạn này sẽ đánh giá kết quả thu được từ mô hình, xem liệu mô hình đã đáp ứng được mục tiêu đã đề ra ở giai đoạn đầu tiên hay chưa. Xem xét lại cả quá trình phân tích để biết đạt và chưa đạt ở chỗ nào và đưa ra quyết định về việc sử dụng kết quả phân tích và thực tế. f. Giai đoạn 6: Triển khai giải pháp (Deployment). Sau các bước trên, cuối cùng là cần biến kết quả cũng như các kiến thức của việc phân tích thành các quyết định hoặc những thông tin dễ hiểu cho người xem. Tùy vào yêu cầu của bài toán, công việc của giai đoạn này rất đa dạng. Có thể chỉ đơn giản là một báo cáo nghiệp vụ hoặc phức tạp hơn là một công cụ hay phần mềm chạy mô hình ra quyết định hàng ngày cho đối tượng sử dụng.
- Xem thêm -

Tài liệu liên quan