Đăng ký Đăng nhập
Trang chủ Luận văn thạc sĩ nhận dạng cảm xúc khuôn mặt bằng mạng nơ ron tích chập...

Tài liệu Luận văn thạc sĩ nhận dạng cảm xúc khuôn mặt bằng mạng nơ ron tích chập

.PDF
105
1
108

Mô tả:

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LÊ MINH TIẾN NHẬN DẠNG CẢM XÚC KHUÔN MẶT SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2020 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LÊ MINH TIẾN NHẬN DẠNG CẢM XÚC KHUÔN MẶT SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. BÙI THANH HÙNG BÌNH DƯƠNG – 2020 ii LỜI CAM ĐOAN Tên tôi là: Lê Minh Tiến Sinh ngày: 22/07/1991 Học viên lớp cao học CH18HT01 – Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài “Nhận dạng cảm xúc khuôn mặt bằng mạng nơ-ron tích chập.” do Thầy TS. Bùi Thanh Hùng hướng dẫn là công trình nghiên cứu của riêng chúng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc, trích dẫn rõ ràng. Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai chúng tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học. Bình Dương, tháng 12 năm 2020 Tác giả luận văn Lê Minh Tiến iii LỜI CẢM ƠN Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp đỡ và hướng dẫn tận tình của Thầy hướng dẫn TS. Bùi Thanh Hùng, luận văn Cao học “Nhận dạng cảm xúc khuôn mặt bằng mạng nơron tích chập” đã hoàn thành. Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy hướng dẫn TS.Bùi Thanh Hùng đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn này. Đồng thời tôi gửi lời cảm ơn đến các thầy, cô đã giảng dạy truyền đạt kiến thức quý báo cho tôi trong suốt thời gian học tập và nghiên cứu. Tôi chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này. iv TÓM TẮT LUẬN VĂN Trong thời đại 4.0 hiện nay, cùng với sự bùng nổ của trí tuệ nhân tạo, đã có rất nhiều công trình nghiên cứu máy học được công bố, trong số đó lĩnh vực thị giác máy tính nói chung cũng như nhận dạng hình ảnh nói riêng là một trong các lĩnh vực được rất đông người quan tâm hiện thời. Trong đó, bài toán nhận dạng cảm xúc khuôn mặt dựa trên cách trích xuất đặc trưng sử dùng mạng nơ-ron mang lại hiệu quả cao bởi tính ổn định và thích nghi rất tốt khi dữ liệu đầu vào có thay đổi. Cảm xúc khuôn mặt là một trong những phương thức quan trọng nhất để thể hiện cảm xúc của con người trong giao tiếp xã hội. Tự động nhận dạng biểu hiện khuôn mặt đã trở thành một chủ đề “yêu thích” trong lĩnh vực nghiên cứu thị giác máy tính. Trong luận văn này, chúng tôi xin đề xuất một phương pháp sử dụng mô hình học sâu mạng nơ-ron tích chập (CNN) để nhận dạng cảm xúc khuôn mặt người thông qua hình ảnh. Bằng cách khai thác các tính năng ưu việt của CNN, xây dựng một mô hình CNN của riêng chúng tôi, mô hình đề xuất của chúng tôi đạt được kết quả tốt hơn so với các mô hình khác. Các thí nghiệm được thực hiện trên cơ sở dữ liệu FER-2013 và điểm ma trận chính xác và nhầm lẫn được sử dụng để đánh giá mô hình của chúng tôi. Một phần kết quả nghiên cứu của chúng tôi, bài báo: “Facial Expression Recognition with CNN-LSTM” đã được công bố tại Hội nghị RICE 2020 lần thứ 5 - International Conference on Research in Intelligent and Computing in Engineering tháng 6/2020 và giành được giải thưởng Bài báo xuất sắc nhất (Best Paper Awards) của Hội nghị. v MỤC LỤC LỜI CAM ĐOAN ......................................................................................... iii LỜI CẢM ƠN ................................................................................................iv TÓM TẮT LUẬN VĂN .................................................................................v MỤC LỤC .....................................................................................................vi DANH MỤC CHỮ VIẾT TẮT .................................................................. viii DANH MỤC BẢNG BIỂU ...........................................................................ix DANH MỤC HÌNH, ĐỒ THỊ ........................................................................x CHƯƠNG 1 ....................................................................................................1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU ............................................1 1.1. Lý do chọn đề tài .................................................................................. 1 1.2. Mục tiêu nghiên cứu .............................................................................2 1.3. Đối tượng, phạm vi nghiên cứu ............................................................ 2 1.4. Phương pháp nghiên cứu ......................................................................3 1.5. Ý nghĩa khoa học và thực tiễn .............................................................. 3 1.6. Bố cục luận văn .................................................................................... 4 CHƯƠNG 2 ....................................................................................................6 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN..................... 6 2.1. Mạng Nơ-ron tích chập ........................................................................6 2.1.1. Mạng Nơ-ron nhân tạo ...................................................................6 2.1.2. Mạng Nơ-ron tích chập ................................................................ 16 2.2. Các mô hình học sâu CNN .................................................................22 2.2.1. Sự hình thành và phát triển .......................................................... 22 2.2.2. Các mô hình CNN tiêu biểu ......................................................... 23 2.3. Nhận dạng cảm xúc khuôn mặt .......................................................... 34 2.3.1. Tổng quan .................................................................................... 34 2.3.2. Hướng tiếp cận .............................................................................38 2.3.3. Hướng đề xuất nghiên cứu ........................................................... 41 vi 2.4. Các nghiên cứu liên quan ...................................................................42 2.5. Tiểu kết chương .................................................................................. 44 CHƯƠNG 3 ..................................................................................................45 MÔ HÌNH ĐỀ XUẤT................................................................................... 45 3.1. Tổng quan mô hình đề xuất ................................................................ 45 3.2. Các đặc trưng của mô hình .................................................................46 3.2.1. Phát hiện khuôn mặt.....................................................................46 3.2.2. Nhận dạng cảm xúc với CNN ...................................................... 48 3.2.3. Mô hình học sâu lai CNN-LSTM ................................................ 56 3.2.4. Nhận dạng cảm xúc ......................................................................59 3.2.5. Phương pháp đánh giá kết quả ..................................................... 60 CHƯƠNG 4 ..................................................................................................61 THỰC NGHIỆM .......................................................................................... 61 4.1. Dữ liệu ................................................................................................ 61 4.2. Huấn luyện mô hình ...........................................................................63 4.3. Đánh giá ............................................................................................. 66 4.4. Xây dựng ứng dụng ............................................................................71 CHƯƠNG 5 ..................................................................................................79 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 79 5.1. Kết luận .............................................................................................. 79 5.2. Hướng phát triển ................................................................................. 80 CÔNG TRÌNH CÔNG BỐ ...........................................................................81 TÀI LIỆU THAM KHẢO ............................................................................82 vii DANH MỤC CHỮ VIẾT TẮT KÝ HIỆU TÊN TIẾNG ANH ANN Artificial Neural Network CNN Convolution Neural Network FC Fully Connected RELU Rectified Linear Unit RGB Red Green Blue SVM Support Vector Machines LSTM Long short term memory viii DANH MỤC BẢNG BIỂU Bảng 4. 1: Bảng thống kê dữ liệu .................................................................61 Bảng 4. 2: Đánh giá độ chính xác của mô hình ............................................67 Bảng 4. 3: Bảng Confusion Matrix ............................................................... 67 Bảng 4. 4: Đánh giá độ chính xác trên các mô hình CNN khác nhau ..........70 Bảng 4. 5: Đối sánh các nghiên cứu liên quan. ............................................71 ix DANH MỤC HÌNH, ĐỒ THỊ Hình 2. 1: Mạng Nơ-ron sinh học [21] ........................................................... 6 Hình 2. 2: Cấu trúc của mạng nơ-ron nhân tạo [21] .......................................7 Hình 2. 3: Quá trình xử lý của một nơ-ron trong ANN [21] .......................... 8 Hình 2. 4: Đồ thị các hàm kích hoạt: (a). Hàm Tanh; (b). Hàm ReLU; .........9 Hình 2. 5: AlphaGo của Google ...................................................................12 Hình 2. 6: Mô phỏng cách tính lan truyền ngược [1] ...................................14 Hình 2. 7: Mô hình các lớp cơ bản CNN [22] ..............................................17 Hình 2. 8: Ví dụ một mô hình CNN ............................................................. 18 Hình 2. 9: Minh họa tích chập trên ma trận ảnh ...........................................19 Hình 2. 10: Phương thức Average Pooling và Max Pooling ........................ 21 Hình 2. 11: Ví dụ về cấu trúc CNN [22]....................................................... 22 Hình 2. 12: Các cột mốc phát triển của mạng CNN .....................................23 Hình 2. 13: Sơ đồ phát triển của các mô hình mạng CNN ........................... 23 Hình 2. 14: các mô hình học sâu CNN ......................................................... 24 Hình 2. 15: Kiến trúc LeNet .........................................................................25 Hình 2. 16: Kiến trúc AlexNet ......................................................................25 Hình 2. 17: Kiến trúc VGG-16 .....................................................................26 Hình 2. 18: Kiến trúc GoogleNet - Inception version 1 ............................... 29 Hình 2. 19: Kiến trúc GoogleNet - Inception version 3 ............................... 31 Hình 2. 20: Kiến trúc ResNet .......................................................................32 Hình 2. 21: Kiến trúc tóm tắt của mang ResNet-50 .....................................34 Hình 2. 22: Mô hình bài toán nhận dạng cảm xúc khuôn mặt người ...........37 x Hình 2. 23: Cấu trúc tổng quan của hệ thống ...............................................37 Hình 2. 24: Kiến trúc Mạng nơ ron đa kênh sử dụng 2 kênh. ...................... 42 Hình 2. 25: Mô hình mạng FRR-CNN ......................................................... 43 Hình 2. 26: Chi tiết của module tích chập .................................................... 43 Hình 3. 1: Mô hình tổng quan .......................................................................45 Hình 3. 2: Ví dụ các bộ lọc Haar ..................................................................47 Hình 3. 3: Cơ chế hoạt động của bộ lọc Haar ...............................................47 Hình 3. 4: Phát hiện khuôn mặt ....................................................................48 Hình 3. 5: Góc nhìn của máy tính với một bức ảnh......................................49 Hình 3. 6: Minh họa một mô hình xử lý hình ảnh qua các lớp của CNN .....50 Hình 3. 7: Minh họa phép tích chập (convolution) .......................................51 Hình 3. 8: Fillter 5x5 dùng để phát hiện một cạnh cong .............................. 52 Hình 3. 9: Fillter phát hiện thành công các cạnh cong .................................52 Hình 3. 10: Đầu ra Feature map của hình ảnh sau khi được lọc qua 1 Fillter ....................................................................................................................... 53 Hình 3. 11: Minh họa Feature map khi có thêm padding ............................. 54 Hình 3. 12: Minh họa kết quả đầu ra của hàm kích hoạt ReLU ................... 54 Hình 3. 13: Minh họa kết quả Max Pooling (2x2) ........................................55 Hình 3. 14: Vector đặc trưng của hình ảnh ................................................... 56 Hình 3. 15: Mô hình học sâu lai CNN-LSTM ..............................................57 Hình 3. 16: Cấu trúc CNN 5 tầng .................................................................58 Hình 3. 17: Cấu trúc CNN-LSTM ................................................................ 59 xi Hình 4. 1: Cơ sở dữ liệu Facial Expression Recognition 2013 (FER2013) .62 Hình 4. 2: Phân chia dữ liệu .........................................................................62 Hình 4. 3: Cấu trúc mô hình CNN 1 tầng 3 lớp ............................................64 Hình 4. 4: Cấu trúc mô hình CNN 5 tầng ..................................................... 65 Hình 4. 5: Cấu trúc mô hình CNN-LSTM .................................................... 66 Hình 4. 6: Cấu trúc mô hình CNN – VGG16 ...............................................68 Hình 4. 7: Cấu trúc mô hình CNN-ResNet50 ...............................................69 Hình 4. 8: Cấu trúc mô hình CNN - 5 Tầng ................................................. 70 Hình 4. 9: Giao diện chính ............................................................................72 Hình 4. 10: Giao diện phân tích dữ liệu ........................................................ 72 Hình 4. 11: Giao diện mô hình huấn luyện ................................................... 73 Hình 4. 12: Giao diện kết quả huấn luyện .................................................... 74 Hình 4. 13: Giao diện đánh giá kiểm tra ....................................................... 74 Hình 4. 14: Giao diện đánh giá thực nghiệm ................................................ 75 Hình 4. 15: Nhận dạng cảm xúc Happy ........................................................ 76 Hình 4. 16: Nhận dạng cảm xúc Surprise ..................................................... 76 Hình 4. 17: Nhận dạng cảm xúc Sad ............................................................ 77 Hình 4. 18: Nhận dạng cảm xúc Neutral ...................................................... 77 Hình 4. 19: Nhận dạng cảm xúc Angry ........................................................ 78 xii CHƯƠNG 1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.1. Lý do chọn đề tài Theo các chuyên gia, giao tiếp phi ngôn ngữ chiếm 2/3 hiệu quả giao tiếp, phần còn lại là giao tiếp bằng lời nói chỉ chiếm 1/3. Nói về giao tiếp phi ngôn ngữ, cảm xúc khuôn mặt đóng một vai trò quan trọng để truyền tải thông điệp phi ngôn ngữ trong giao tiếp của con người hiện đại vì chúng giúp chúng ta giải thích hầu hết ý nghĩa ẩn của lời nói. Nói cách khác, khuôn mặt của con người có thể truyền tải hàng ngàn cảm xúc như hạnh phúc, buồn bã, sợ hãi, giận dữ, bất ngờ, ghê tởm, v.v… [1, 2]. Ngày nay, có thể thấy rằng nhận dạng cảm xúc khuôn mặt tự động đã trở thành một chủ đề yêu thích của nhiều nhà nghiên cứu. Nó không chỉ liên quan đến lĩnh vực thị giác máy tính, học máy mà còn cả lĩnh vực khoa học hành vi. Do đó, các ứng dụng nhận dạng cảm xúc khuôn mặt tự động có tiềm năng lớn trong nhiều lĩnh vực khác nhau như an ninh - bảo mật, phát hiện nói dối, tương tác giữa người với máy tính, an toàn cho người lái xe, chăm sóc sức khỏe và giáo dục. Hầu hết các cơ sở dữ liệu chứa cảm xúc khuôn mặt sử dụng cùng một phân loại chính của cảm xúc con người được trình bày lần đầu bởi Ekman và đồng nghiệp. [3]. Họ đã giới thiệu nghiên cứu chuyên đề về cảm xúc khuôn mặt và xác định những cảm xúc cơ bản dựa trên nghiên cứu đa văn hóa, điều đó chỉ ra rằng con người thể hiện những cảm xúc cơ bản nhất định theo cùng một cách trên khắp thế giới. Họ đã phân loại những trạng thái khuôn mặt thành các cảm xúc tương ứng đó là hạnh phúc, buồn, bất ngờ, sợ hãi, ghê tởm, giận dữ và không cảm xúc. Nghiên cứu này đã được khai thác rộng rãi trong điện toán nhận thức do tính đơn giản và phổ quát của nó. 1 Trong luận văn này, chúng tôi trình bày một phương pháp để nhận dạng cảm xúc khuôn mặt bằng cách áp dụng các ưu điểm của phương pháp học sâu CNN. Chúng tôi sử dụng Mạng nơ-ron tích chập để trích xuất các đặt tính và nhận dạng biểu hiện khuôn mặt bằng Bộ nhớ ngắn dài hạn. Chúng tôi tiến hành thử nghiệm trên cơ sở dữ liệu FER-2013 và đánh giá bằng độ chính xác và ma trận nhầm lẫn. Các nghiên cứu gần đây cho thấy mạng nơ-ron tích chập CNN mang lại hiệu quả nhận dạng cao bởi nó có tính thích nghi cao và hoạt động ổn định. Vì vậy chúng tôi chọn đề tài : “Nhận dạng cảm xúc khuôn mặt sử dụng mạng nơ-ron tích chập” cho luận văn tốt nghiệp cao học của mình. 1.2. Mục tiêu nghiên cứu Luận văn của chúng tôi hướng tới việc nghiên cứu một mô hình có chức năng phát hiện khuôn mặt người qua hình ảnh và có thể nhận dạng được cảm xúc của khuôn mặt đó thông qua việc ứng dụng các phương pháp học sâu để trích xuất đặc trưng và nhận dạng hình ảnh. Qua việc nghiên cứu các phương pháp học sâu cho bài toán nhận dạng hình ảnh kết hợp với ngôn ngữ lập trình Python, chúng tôi muốn xây dựng một chương trình nhận dạng được cảm xúc của một người qua camera theo thời gian thực. 1.3. Đối tượng, phạm vi nghiên cứu Để thực hiện được mục tiêu đề ra, chúng tôi đã hướng đến nghiên cứu các vấn đề sau: - Đối tượng nghiên cứu của luận văn là các phương pháp phát hiện khuôn mặt người, các phương pháp nhận dạng cảm xúc khuôn mặt. - Phạm vi nghiên cứu các phương pháp học sâu, hiệu năng và cách sử dụng chúng từ đó đề xuất một phương pháp cụ thể hiệu quả nhất. 2 1.4. Phương pháp nghiên cứu Để thực hiện luận văn này, chúng tôi đã sử dụng các phương pháp nghiên cứu sau: - Phương pháp phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng hợp và nghiên cứu các tài liệu về Mạng nơ-ron tích chập (Convolutional Neural Network – CNN); Phương pháp phát hiện khuôn mặt Haar Cascade Classifiers, các tài liệu thuật toán máy học chọn lọc hình ảnh, nhận dạng khuôn mặt. Tìm hiểu các kiến thức liên quan đến kỹ thuật lập trình. - Phương pháp thực nghiệm: Sau khi nghiên cứu lý thuyết, xác định vấn đề bài toán, đề xuất mô hình, dựa trên kết quả của các nghiên cứu trước đó chúng tôi sẽ thực nghiệm mô hình trên một phương pháp học sâu lai là một kết hợp giữa những lợi thế của mô hình CNN tự tạo, kết hợp các thư viện thích hợp hỗ trợ cho việc xây dựng một hệ thống máy học nhận hình ảnh đầu vào và xử lý cho ra kết quả là cảm xúc của khuôn mặt trên hình ảnh. - Phương pháp so sánh và đánh giá: phân tích đánh giá mô hình đề xuất với các mô hình nghiên cứu trước bằng các độ đo Loss và Accuracy. 1.5. Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học: Luận văn của chúng tôi góp phần giới thiệu các lý thuyết về cảm xúc khuôn mặt con người, cách xây dựng một hệ thống nhận dạng và phân loại hình ảnh. Góp phần nghiên cứu thêm về các mô hình học sâu trong lĩnh vực nhận dạng và phân loại hình ảnh phổ biến trên thế giới CNN. 3 Cài đặt thử nghiệm và đánh giá các mô hình nhận dạng, phân loại hình ảnh bằng thực nghiệm như CNN 3 lớp, Resnet, VGG, CNN 7 tầng tự tạo và đánh giá bằng các độ đo khác nhau. Nghiên cứu này tạo tiền đề cho các nghiên cứu tiếp theo. Ý nghĩa thực tiễn: Luận văn xây dựng ứng dụng trực quan các mô hình để phát hiện và nhận dạng cảm xúc khuôn mặt người. Bên cạnh đó ứng dụng cũng thống kê số liệu thể hiện sự so sánh giữa các mô hình khác nhau trong các quá trình huấn luyện, kiểm thử và kiểm tra mô hình nhận dạng cảm xúc khuôn mặt người được xây dựng dựa trên mô hình CNN. Luận văn xây dựng thành công hệ thống nhận dạng cảm xúc khuôn mặt người để áp dụng cho nhiều lĩnh vực thực tiễn như an ninh - bảo mật, phát hiện nói dối, tương tác giữa người với máy tính, an toàn cho người lái xe, chăm sóc sức khỏe và giáo dục, nhằm đáp ứng các yêu cầu nhận dạng và bảo mật ngày càng cao. 1.6. Bố cục luận văn Nội dung luận văn được chia thành các phần như sau: Chương 1: Tổng quan về lĩnh vực nghiên cứu. Chương 1 trình bày khái quát về bài toán nhận dạng cảm xúc khuôn mặt, những ứng dụng cũng như mục tiêu của đề tài. Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan: Chương 2 trình bày cơ sở lý thuyết và các nghiên cứu liên quan đến các thuật toán phát hiện, nhận dạng và phân loại hình ảnh được phát triển trong luận văn. Chương 3: Mô hình đề xuất: Chương 3 trình bày phương pháp phát hiện khuôn mặt, phương pháp nhận dạng, phân loại cảm xúc, sơ đồ liên kết giữa mô hình và ứng dụng web. 4 Chương 4: Thực nghiệm: Chương 4 trình bày quá trình thực nghiệm, kết quả đạt được, phân tích và đánh giá các kết quả đạt được. Chương 5: Kết luận và hướng phát triển: Chương 5 tổng quát kết quả thực hiện, đưa ra các hướng phát triển cho mô hình trong tương lai. 5 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2.1. Mạng Nơ-ron tích chập 2.1.1. Mạng Nơ-ron nhân tạo Mạng Nơ-ron nhân tạo (Artificial Neural Network – ANN) là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật hay còn gọi là mạng Nơ-ron sinh học (hình 2.1) [21]. Cấu tạo từ số lượng lớn các nơ-ron được kết nối với nhau để xử lý thông tin. ANN giống như bộ não con người, được học bởi kinh nghiệm thông qua huấn luyện, có khả năng lưu giữ những kinh nghiệm tri thức và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết. ANN được giới thiệu năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits. [21] Hình 2. 1: Mạng Nơ-ron sinh học [21] Các ứng dụng của Mạng neuron được sử dụng trong rất nhiều lĩnh vực như điện, điện tử, kinh tế, quân sự,… để giải quyết các bài toán có độ phức tạp và đòi hỏi có độ chính xác cao như điều khiển tự động, khai phá dữ liệu, nhận dạng,… Một ANN gồm ba tầng: lớp đầu vào (input layer), các lớp ẩn (hidden layers) và cuối cùng là lớp đầu ra (output layer) được mô tả trong hình 2.2 6 [21], trong đó, lớp ẩn gồm nhiều nơ-ron nhận dữ liệu đầu vào từ các lớp trước đó để xử lý và chuyển đổi các dữ liệu này cho các lớp tiếp theo. Một ANN có thể có nhiều lớp ẩn hoặc không có lớp ẩn. Hình 2. 2: Cấu trúc của mạng nơ-ron nhân tạo [21] Mỗi node trong mạng gọi là một nơ-ron. Mỗi nơ-ron nhận các dữ liệu đầu vào xử lý chúng và trả ra một kết quả duy nhất. Kết quả đầu ra của nơron này có thể làm dữ liệu đầu vào của các nơ-ron khác. Hình 2.3 [21] mô tả quá trình xử lý của một nơ-ron trong ANN. Trong đó input là dữ liệu đầu vào, output là kết quả đầu ra. Trọng số liên kết hay trọng số (connection weights hay gọi tắt là weights) là thành phần rất quan trọng, thể hiện mức độ quan trọng đối với quá trình xử lý dữ liệu từ lớp này sang lớp khác. Quá trình học của ANN thực ra là quá trình điều chỉnh trọng số của các dữ liệu đầu vào. 7 Hình 2. 3: Quá trình xử lý của một nơ-ron trong ANN [21] Hàm tổng Σ tính tổng của tích trọng số và dữ liệu vào. Hàm tính tổng một nơ-ron của k dữ liệu đầu vào của lớp thứ i 𝑎𝑖 = ∑ 𝑥𝑘 𝜔𝑖,𝑘 (2.1) Hàm kích hoạt hay hàm chuyển đổi 𝑓 tính toán đầu ra của một nơ-ron để chuyển đến lớp tiếp theo trong mạng nơ-ron. Hàm kích hoạt phi tuyến được sử dụng vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược giản thông qua các biến đổi đại số thành mô hình perceptron một lớp (là mô hình ANN đơn giản nhất, không có lớp ẩn). Một số hàm kích hoạt phi tuyến thường dùng là ReLU (Rectified Linear Unit), sigmoid, logistic, Gaussian, tanh, softmax. Hình 2.4 [21] Hàm ReLU: Hàm Sigmoid: Hàm Tanh: 𝑓 (𝑥 ) = { 0 𝑥 𝑓 (𝑥 ) = 𝑓 (𝑥 ) = ,𝑥 < 0 ,𝑥 ≥ 0 1 1+𝑒 −𝑥 1 1+𝑒 −2𝑥 8 −1 (2.2) (2.3) (2.4)
- Xem thêm -

Tài liệu liên quan