ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
LÊ MINH TIẾN
NHẬN DẠNG CẢM XÚC KHUÔN MẶT
SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
BÌNH DƯƠNG – 2020
UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
LÊ MINH TIẾN
NHẬN DẠNG CẢM XÚC KHUÔN MẶT
SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP
CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. BÙI THANH HÙNG
BÌNH DƯƠNG – 2020
ii
LỜI CAM ĐOAN
Tên tôi là: Lê Minh Tiến
Sinh ngày: 22/07/1991
Học viên lớp cao học CH18HT01 – Trường Đại học Thủ Dầu Một
Xin cam đoan: Đề tài “Nhận dạng cảm xúc khuôn mặt bằng mạng
nơ-ron tích chập.” do Thầy TS. Bùi Thanh Hùng hướng dẫn là công trình
nghiên cứu của riêng chúng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc,
trích dẫn rõ ràng.
Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như
nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai chúng
tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học.
Bình Dương, tháng 12 năm 2020
Tác giả luận văn
Lê Minh Tiến
iii
LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động
viên, giúp đỡ và hướng dẫn tận tình của Thầy hướng dẫn TS. Bùi Thanh
Hùng, luận văn Cao học “Nhận dạng cảm xúc khuôn mặt bằng mạng nơron tích chập” đã hoàn thành.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy hướng dẫn TS.Bùi Thanh Hùng đã tận tình chỉ dẫn, giúp đỡ
tôi hoàn thành luận văn này. Đồng thời tôi gửi lời cảm ơn đến các thầy, cô
đã giảng dạy truyền đạt kiến thức quý báo cho tôi trong suốt thời gian học
tập và nghiên cứu.
Tôi chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,
khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và
hoàn thành luận văn này.
iv
TÓM TẮT LUẬN VĂN
Trong thời đại 4.0 hiện nay, cùng với sự bùng nổ của trí tuệ nhân tạo,
đã có rất nhiều công trình nghiên cứu máy học được công bố, trong số đó
lĩnh vực thị giác máy tính nói chung cũng như nhận dạng hình ảnh nói riêng
là một trong các lĩnh vực được rất đông người quan tâm hiện thời. Trong đó,
bài toán nhận dạng cảm xúc khuôn mặt dựa trên cách trích xuất đặc trưng sử
dùng mạng nơ-ron mang lại hiệu quả cao bởi tính ổn định và thích nghi rất
tốt khi dữ liệu đầu vào có thay đổi.
Cảm xúc khuôn mặt là một trong những phương thức quan trọng nhất
để thể hiện cảm xúc của con người trong giao tiếp xã hội. Tự động nhận
dạng biểu hiện khuôn mặt đã trở thành một chủ đề “yêu thích” trong lĩnh
vực nghiên cứu thị giác máy tính. Trong luận văn này, chúng tôi xin đề xuất
một phương pháp sử dụng mô hình học sâu mạng nơ-ron tích chập (CNN)
để nhận dạng cảm xúc khuôn mặt người thông qua hình ảnh. Bằng cách khai
thác các tính năng ưu việt của CNN, xây dựng một mô hình CNN của riêng
chúng tôi, mô hình đề xuất của chúng tôi đạt được kết quả tốt hơn so với các
mô hình khác. Các thí nghiệm được thực hiện trên cơ sở dữ liệu FER-2013
và điểm ma trận chính xác và nhầm lẫn được sử dụng để đánh giá mô hình
của chúng tôi.
Một phần kết quả nghiên cứu của chúng tôi, bài báo: “Facial
Expression Recognition with CNN-LSTM” đã được công bố tại Hội nghị
RICE 2020 lần thứ 5 - International Conference on Research in Intelligent
and Computing in Engineering tháng 6/2020 và giành được giải thưởng Bài
báo xuất sắc nhất (Best Paper Awards) của Hội nghị.
v
MỤC LỤC
LỜI CAM ĐOAN ......................................................................................... iii
LỜI CẢM ƠN ................................................................................................iv
TÓM TẮT LUẬN VĂN .................................................................................v
MỤC LỤC .....................................................................................................vi
DANH MỤC CHỮ VIẾT TẮT .................................................................. viii
DANH MỤC BẢNG BIỂU ...........................................................................ix
DANH MỤC HÌNH, ĐỒ THỊ ........................................................................x
CHƯƠNG 1 ....................................................................................................1
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU ............................................1
1.1. Lý do chọn đề tài .................................................................................. 1
1.2. Mục tiêu nghiên cứu .............................................................................2
1.3. Đối tượng, phạm vi nghiên cứu ............................................................ 2
1.4. Phương pháp nghiên cứu ......................................................................3
1.5. Ý nghĩa khoa học và thực tiễn .............................................................. 3
1.6. Bố cục luận văn .................................................................................... 4
CHƯƠNG 2 ....................................................................................................6
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN..................... 6
2.1. Mạng Nơ-ron tích chập ........................................................................6
2.1.1. Mạng Nơ-ron nhân tạo ...................................................................6
2.1.2. Mạng Nơ-ron tích chập ................................................................ 16
2.2. Các mô hình học sâu CNN .................................................................22
2.2.1. Sự hình thành và phát triển .......................................................... 22
2.2.2. Các mô hình CNN tiêu biểu ......................................................... 23
2.3. Nhận dạng cảm xúc khuôn mặt .......................................................... 34
2.3.1. Tổng quan .................................................................................... 34
2.3.2. Hướng tiếp cận .............................................................................38
2.3.3. Hướng đề xuất nghiên cứu ........................................................... 41
vi
2.4. Các nghiên cứu liên quan ...................................................................42
2.5. Tiểu kết chương .................................................................................. 44
CHƯƠNG 3 ..................................................................................................45
MÔ HÌNH ĐỀ XUẤT................................................................................... 45
3.1. Tổng quan mô hình đề xuất ................................................................ 45
3.2. Các đặc trưng của mô hình .................................................................46
3.2.1. Phát hiện khuôn mặt.....................................................................46
3.2.2. Nhận dạng cảm xúc với CNN ...................................................... 48
3.2.3. Mô hình học sâu lai CNN-LSTM ................................................ 56
3.2.4. Nhận dạng cảm xúc ......................................................................59
3.2.5. Phương pháp đánh giá kết quả ..................................................... 60
CHƯƠNG 4 ..................................................................................................61
THỰC NGHIỆM .......................................................................................... 61
4.1. Dữ liệu ................................................................................................ 61
4.2. Huấn luyện mô hình ...........................................................................63
4.3. Đánh giá ............................................................................................. 66
4.4. Xây dựng ứng dụng ............................................................................71
CHƯƠNG 5 ..................................................................................................79
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 79
5.1. Kết luận .............................................................................................. 79
5.2. Hướng phát triển ................................................................................. 80
CÔNG TRÌNH CÔNG BỐ ...........................................................................81
TÀI LIỆU THAM KHẢO ............................................................................82
vii
DANH MỤC CHỮ VIẾT TẮT
KÝ HIỆU
TÊN TIẾNG ANH
ANN
Artificial Neural Network
CNN
Convolution Neural Network
FC
Fully Connected
RELU
Rectified Linear Unit
RGB
Red Green Blue
SVM
Support Vector Machines
LSTM
Long short term memory
viii
DANH MỤC BẢNG BIỂU
Bảng 4. 1: Bảng thống kê dữ liệu .................................................................61
Bảng 4. 2: Đánh giá độ chính xác của mô hình ............................................67
Bảng 4. 3: Bảng Confusion Matrix ............................................................... 67
Bảng 4. 4: Đánh giá độ chính xác trên các mô hình CNN khác nhau ..........70
Bảng 4. 5: Đối sánh các nghiên cứu liên quan. ............................................71
ix
DANH MỤC HÌNH, ĐỒ THỊ
Hình 2. 1: Mạng Nơ-ron sinh học [21] ........................................................... 6
Hình 2. 2: Cấu trúc của mạng nơ-ron nhân tạo [21] .......................................7
Hình 2. 3: Quá trình xử lý của một nơ-ron trong ANN [21] .......................... 8
Hình 2. 4: Đồ thị các hàm kích hoạt: (a). Hàm Tanh; (b). Hàm ReLU; .........9
Hình 2. 5: AlphaGo của Google ...................................................................12
Hình 2. 6: Mô phỏng cách tính lan truyền ngược [1] ...................................14
Hình 2. 7: Mô hình các lớp cơ bản CNN [22] ..............................................17
Hình 2. 8: Ví dụ một mô hình CNN ............................................................. 18
Hình 2. 9: Minh họa tích chập trên ma trận ảnh ...........................................19
Hình 2. 10: Phương thức Average Pooling và Max Pooling ........................ 21
Hình 2. 11: Ví dụ về cấu trúc CNN [22]....................................................... 22
Hình 2. 12: Các cột mốc phát triển của mạng CNN .....................................23
Hình 2. 13: Sơ đồ phát triển của các mô hình mạng CNN ........................... 23
Hình 2. 14: các mô hình học sâu CNN ......................................................... 24
Hình 2. 15: Kiến trúc LeNet .........................................................................25
Hình 2. 16: Kiến trúc AlexNet ......................................................................25
Hình 2. 17: Kiến trúc VGG-16 .....................................................................26
Hình 2. 18: Kiến trúc GoogleNet - Inception version 1 ............................... 29
Hình 2. 19: Kiến trúc GoogleNet - Inception version 3 ............................... 31
Hình 2. 20: Kiến trúc ResNet .......................................................................32
Hình 2. 21: Kiến trúc tóm tắt của mang ResNet-50 .....................................34
Hình 2. 22: Mô hình bài toán nhận dạng cảm xúc khuôn mặt người ...........37
x
Hình 2. 23: Cấu trúc tổng quan của hệ thống ...............................................37
Hình 2. 24: Kiến trúc Mạng nơ ron đa kênh sử dụng 2 kênh. ...................... 42
Hình 2. 25: Mô hình mạng FRR-CNN ......................................................... 43
Hình 2. 26: Chi tiết của module tích chập .................................................... 43
Hình 3. 1: Mô hình tổng quan .......................................................................45
Hình 3. 2: Ví dụ các bộ lọc Haar ..................................................................47
Hình 3. 3: Cơ chế hoạt động của bộ lọc Haar ...............................................47
Hình 3. 4: Phát hiện khuôn mặt ....................................................................48
Hình 3. 5: Góc nhìn của máy tính với một bức ảnh......................................49
Hình 3. 6: Minh họa một mô hình xử lý hình ảnh qua các lớp của CNN .....50
Hình 3. 7: Minh họa phép tích chập (convolution) .......................................51
Hình 3. 8: Fillter 5x5 dùng để phát hiện một cạnh cong .............................. 52
Hình 3. 9: Fillter phát hiện thành công các cạnh cong .................................52
Hình 3. 10: Đầu ra Feature map của hình ảnh sau khi được lọc qua 1 Fillter
....................................................................................................................... 53
Hình 3. 11: Minh họa Feature map khi có thêm padding ............................. 54
Hình 3. 12: Minh họa kết quả đầu ra của hàm kích hoạt ReLU ................... 54
Hình 3. 13: Minh họa kết quả Max Pooling (2x2) ........................................55
Hình 3. 14: Vector đặc trưng của hình ảnh ................................................... 56
Hình 3. 15: Mô hình học sâu lai CNN-LSTM ..............................................57
Hình 3. 16: Cấu trúc CNN 5 tầng .................................................................58
Hình 3. 17: Cấu trúc CNN-LSTM ................................................................ 59
xi
Hình 4. 1: Cơ sở dữ liệu Facial Expression Recognition 2013 (FER2013) .62
Hình 4. 2: Phân chia dữ liệu .........................................................................62
Hình 4. 3: Cấu trúc mô hình CNN 1 tầng 3 lớp ............................................64
Hình 4. 4: Cấu trúc mô hình CNN 5 tầng ..................................................... 65
Hình 4. 5: Cấu trúc mô hình CNN-LSTM .................................................... 66
Hình 4. 6: Cấu trúc mô hình CNN – VGG16 ...............................................68
Hình 4. 7: Cấu trúc mô hình CNN-ResNet50 ...............................................69
Hình 4. 8: Cấu trúc mô hình CNN - 5 Tầng ................................................. 70
Hình 4. 9: Giao diện chính ............................................................................72
Hình 4. 10: Giao diện phân tích dữ liệu ........................................................ 72
Hình 4. 11: Giao diện mô hình huấn luyện ................................................... 73
Hình 4. 12: Giao diện kết quả huấn luyện .................................................... 74
Hình 4. 13: Giao diện đánh giá kiểm tra ....................................................... 74
Hình 4. 14: Giao diện đánh giá thực nghiệm ................................................ 75
Hình 4. 15: Nhận dạng cảm xúc Happy ........................................................ 76
Hình 4. 16: Nhận dạng cảm xúc Surprise ..................................................... 76
Hình 4. 17: Nhận dạng cảm xúc Sad ............................................................ 77
Hình 4. 18: Nhận dạng cảm xúc Neutral ...................................................... 77
Hình 4. 19: Nhận dạng cảm xúc Angry ........................................................ 78
xii
CHƯƠNG 1
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
1.1. Lý do chọn đề tài
Theo các chuyên gia, giao tiếp phi ngôn ngữ chiếm 2/3 hiệu quả giao
tiếp, phần còn lại là giao tiếp bằng lời nói chỉ chiếm 1/3. Nói về giao tiếp
phi ngôn ngữ, cảm xúc khuôn mặt đóng một vai trò quan trọng để truyền tải
thông điệp phi ngôn ngữ trong giao tiếp của con người hiện đại vì chúng
giúp chúng ta giải thích hầu hết ý nghĩa ẩn của lời nói. Nói cách khác,
khuôn mặt của con người có thể truyền tải hàng ngàn cảm xúc như hạnh
phúc, buồn bã, sợ hãi, giận dữ, bất ngờ, ghê tởm, v.v… [1, 2].
Ngày nay, có thể thấy rằng nhận dạng cảm xúc khuôn mặt tự động đã
trở thành một chủ đề yêu thích của nhiều nhà nghiên cứu. Nó không chỉ liên
quan đến lĩnh vực thị giác máy tính, học máy mà còn cả lĩnh vực khoa học
hành vi. Do đó, các ứng dụng nhận dạng cảm xúc khuôn mặt tự động có
tiềm năng lớn trong nhiều lĩnh vực khác nhau như an ninh - bảo mật, phát
hiện nói dối, tương tác giữa người với máy tính, an toàn cho người lái xe,
chăm sóc sức khỏe và giáo dục.
Hầu hết các cơ sở dữ liệu chứa cảm xúc khuôn mặt sử dụng cùng một
phân loại chính của cảm xúc con người được trình bày lần đầu bởi Ekman
và đồng nghiệp. [3]. Họ đã giới thiệu nghiên cứu chuyên đề về cảm xúc
khuôn mặt và xác định những cảm xúc cơ bản dựa trên nghiên cứu đa văn
hóa, điều đó chỉ ra rằng con người thể hiện những cảm xúc cơ bản nhất định
theo cùng một cách trên khắp thế giới. Họ đã phân loại những trạng thái
khuôn mặt thành các cảm xúc tương ứng đó là hạnh phúc, buồn, bất ngờ, sợ
hãi, ghê tởm, giận dữ và không cảm xúc. Nghiên cứu này đã được khai thác
rộng rãi trong điện toán nhận thức do tính đơn giản và phổ quát của nó.
1
Trong luận văn này, chúng tôi trình bày một phương pháp để nhận
dạng cảm xúc khuôn mặt bằng cách áp dụng các ưu điểm của phương pháp
học sâu CNN. Chúng tôi sử dụng Mạng nơ-ron tích chập để trích xuất các
đặt tính và nhận dạng biểu hiện khuôn mặt bằng Bộ nhớ ngắn dài hạn.
Chúng tôi tiến hành thử nghiệm trên cơ sở dữ liệu FER-2013 và đánh giá
bằng độ chính xác và ma trận nhầm lẫn. Các nghiên cứu gần đây cho thấy
mạng nơ-ron tích chập CNN mang lại hiệu quả nhận dạng cao bởi nó có
tính thích nghi cao và hoạt động ổn định. Vì vậy chúng tôi chọn đề tài :
“Nhận dạng cảm xúc khuôn mặt sử dụng mạng nơ-ron tích chập” cho
luận văn tốt nghiệp cao học của mình.
1.2. Mục tiêu nghiên cứu
Luận văn của chúng tôi hướng tới việc nghiên cứu một mô hình có
chức năng phát hiện khuôn mặt người qua hình ảnh và có thể nhận dạng
được cảm xúc của khuôn mặt đó thông qua việc ứng dụng các phương pháp
học sâu để trích xuất đặc trưng và nhận dạng hình ảnh. Qua việc nghiên cứu
các phương pháp học sâu cho bài toán nhận dạng hình ảnh kết hợp với ngôn
ngữ lập trình Python, chúng tôi muốn xây dựng một chương trình nhận dạng
được cảm xúc của một người qua camera theo thời gian thực.
1.3. Đối tượng, phạm vi nghiên cứu
Để thực hiện được mục tiêu đề ra, chúng tôi đã hướng đến nghiên
cứu các vấn đề sau:
- Đối tượng nghiên cứu của luận văn là các phương pháp phát hiện
khuôn mặt người, các phương pháp nhận dạng cảm xúc khuôn mặt.
- Phạm vi nghiên cứu các phương pháp học sâu, hiệu năng và cách sử
dụng chúng từ đó đề xuất một phương pháp cụ thể hiệu quả nhất.
2
1.4. Phương pháp nghiên cứu
Để thực hiện luận văn này, chúng tôi đã sử dụng các phương pháp
nghiên cứu sau:
- Phương pháp phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng
hợp và nghiên cứu các tài liệu về Mạng nơ-ron tích chập (Convolutional
Neural Network – CNN); Phương pháp phát hiện khuôn mặt Haar Cascade
Classifiers, các tài liệu thuật toán máy học chọn lọc hình ảnh, nhận dạng
khuôn mặt. Tìm hiểu các kiến thức liên quan đến kỹ thuật lập trình.
- Phương pháp thực nghiệm: Sau khi nghiên cứu lý thuyết, xác định
vấn đề bài toán, đề xuất mô hình, dựa trên kết quả của các nghiên cứu trước
đó chúng tôi sẽ thực nghiệm mô hình trên một phương pháp học sâu lai là
một kết hợp giữa những lợi thế của mô hình CNN tự tạo, kết hợp các thư
viện thích hợp hỗ trợ cho việc xây dựng một hệ thống máy học nhận hình
ảnh đầu vào và xử lý cho ra kết quả là cảm xúc của khuôn mặt trên hình
ảnh.
- Phương pháp so sánh và đánh giá: phân tích đánh giá mô hình đề
xuất với các mô hình nghiên cứu trước bằng các độ đo Loss và Accuracy.
1.5. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học:
Luận văn của chúng tôi góp phần giới thiệu các lý thuyết về cảm xúc
khuôn mặt con người, cách xây dựng một hệ thống nhận dạng và phân loại
hình ảnh.
Góp phần nghiên cứu thêm về các mô hình học sâu trong lĩnh vực
nhận dạng và phân loại hình ảnh phổ biến trên thế giới CNN.
3
Cài đặt thử nghiệm và đánh giá các mô hình nhận dạng, phân loại
hình ảnh bằng thực nghiệm như CNN 3 lớp, Resnet, VGG, CNN 7 tầng tự
tạo và đánh giá bằng các độ đo khác nhau.
Nghiên cứu này tạo tiền đề cho các nghiên cứu tiếp theo.
Ý nghĩa thực tiễn:
Luận văn xây dựng ứng dụng trực quan các mô hình để phát hiện và
nhận dạng cảm xúc khuôn mặt người. Bên cạnh đó ứng dụng cũng thống kê
số liệu thể hiện sự so sánh giữa các mô hình khác nhau trong các quá trình
huấn luyện, kiểm thử và kiểm tra mô hình nhận dạng cảm xúc khuôn mặt
người được xây dựng dựa trên mô hình CNN.
Luận văn xây dựng thành công hệ thống nhận dạng cảm xúc khuôn
mặt người để áp dụng cho nhiều lĩnh vực thực tiễn như an ninh - bảo mật,
phát hiện nói dối, tương tác giữa người với máy tính, an toàn cho người lái
xe, chăm sóc sức khỏe và giáo dục, nhằm đáp ứng các yêu cầu nhận dạng và
bảo mật ngày càng cao.
1.6. Bố cục luận văn
Nội dung luận văn được chia thành các phần như sau:
Chương 1: Tổng quan về lĩnh vực nghiên cứu. Chương 1 trình bày
khái quát về bài toán nhận dạng cảm xúc khuôn mặt, những ứng dụng cũng
như mục tiêu của đề tài.
Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan: Chương 2
trình bày cơ sở lý thuyết và các nghiên cứu liên quan đến các thuật toán phát
hiện, nhận dạng và phân loại hình ảnh được phát triển trong luận văn.
Chương 3: Mô hình đề xuất: Chương 3 trình bày phương pháp phát
hiện khuôn mặt, phương pháp nhận dạng, phân loại cảm xúc, sơ đồ liên kết
giữa mô hình và ứng dụng web.
4
Chương 4: Thực nghiệm: Chương 4 trình bày quá trình thực nghiệm,
kết quả đạt được, phân tích và đánh giá các kết quả đạt được.
Chương 5: Kết luận và hướng phát triển: Chương 5 tổng quát kết
quả thực hiện, đưa ra các hướng phát triển cho mô hình trong tương
lai.
5
CHƯƠNG 2
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.1. Mạng Nơ-ron tích chập
2.1.1. Mạng Nơ-ron nhân tạo
Mạng Nơ-ron nhân tạo (Artificial Neural Network – ANN) là mô hình
xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh
của sinh vật hay còn gọi là mạng Nơ-ron sinh học (hình 2.1) [21]. Cấu tạo từ
số lượng lớn các nơ-ron được kết nối với nhau để xử lý thông tin. ANN
giống như bộ não con người, được học bởi kinh nghiệm thông qua huấn
luyện, có khả năng lưu giữ những kinh nghiệm tri thức và sử dụng những tri
thức đó trong việc dự đoán các dữ liệu chưa biết. ANN được giới thiệu năm
1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter
Pits. [21]
Hình 2. 1: Mạng Nơ-ron sinh học [21]
Các ứng dụng của Mạng neuron được sử dụng trong rất nhiều lĩnh
vực như điện, điện tử, kinh tế, quân sự,… để giải quyết các bài toán có độ
phức tạp và đòi hỏi có độ chính xác cao như điều khiển tự động, khai phá dữ
liệu, nhận dạng,…
Một ANN gồm ba tầng: lớp đầu vào (input layer), các lớp ẩn (hidden
layers) và cuối cùng là lớp đầu ra (output layer) được mô tả trong hình 2.2
6
[21], trong đó, lớp ẩn gồm nhiều nơ-ron nhận dữ liệu đầu vào từ các lớp
trước đó để xử lý và chuyển đổi các dữ liệu này cho các lớp tiếp theo. Một
ANN có thể có nhiều lớp ẩn hoặc không có lớp ẩn.
Hình 2. 2: Cấu trúc của mạng nơ-ron nhân tạo [21]
Mỗi node trong mạng gọi là một nơ-ron. Mỗi nơ-ron nhận các dữ liệu
đầu vào xử lý chúng và trả ra một kết quả duy nhất. Kết quả đầu ra của nơron này có thể làm dữ liệu đầu vào của các nơ-ron khác.
Hình 2.3 [21] mô tả quá trình xử lý của một nơ-ron trong ANN.
Trong đó input là dữ liệu đầu vào, output là kết quả đầu ra. Trọng số liên kết
hay trọng số (connection weights hay gọi tắt là weights) là thành phần rất
quan trọng, thể hiện mức độ quan trọng đối với quá trình xử lý dữ liệu từ
lớp này sang lớp khác. Quá trình học của ANN thực ra là quá trình điều
chỉnh trọng số của các dữ liệu đầu vào.
7
Hình 2. 3: Quá trình xử lý của một nơ-ron trong ANN [21]
Hàm tổng Σ tính tổng của tích trọng số và dữ liệu vào. Hàm tính tổng
một nơ-ron của k dữ liệu đầu vào của lớp thứ i
𝑎𝑖 = ∑ 𝑥𝑘 𝜔𝑖,𝑘
(2.1)
Hàm kích hoạt hay hàm chuyển đổi 𝑓 tính toán đầu ra của một nơ-ron
để chuyển đến lớp tiếp theo trong mạng nơ-ron. Hàm kích hoạt phi tuyến
được sử dụng vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược
giản thông qua các biến đổi đại số thành mô hình perceptron một lớp (là mô
hình ANN đơn giản nhất, không có lớp ẩn). Một số hàm kích hoạt phi tuyến
thường dùng là ReLU (Rectified Linear Unit), sigmoid, logistic, Gaussian,
tanh, softmax. Hình 2.4 [21]
Hàm ReLU:
Hàm Sigmoid:
Hàm Tanh:
𝑓 (𝑥 ) = {
0
𝑥
𝑓 (𝑥 ) =
𝑓 (𝑥 ) =
,𝑥 < 0
,𝑥 ≥ 0
1
1+𝑒 −𝑥
1
1+𝑒 −2𝑥
8
−1
(2.2)
(2.3)
(2.4)
- Xem thêm -