BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VỀ MÔ HÌNH NHẬN DẠNG TƯ THẾ VÕ
DỰA TRÊN ẢNH CHIỀU SÂU
Ngành: Kỹ thuật điện tử
Mã số : 9520203
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Lê Dũng
2. TS. Phạm Thành Công
Hà Nội − 2020
LỜI CAM ĐOAN
Tôi xin cam đoan luận án: "Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều
sâu" là công trình nghiên cứu của riêng tôi.
Một phần các số liệu, kết quả trình bày trong luận án là trung thực, đã được công
bố trên các tạp chí khoa học chuyên ngành, kỷ yếu hội nghị khoa học trong nước và
quốc tế.
Phần còn lại của luận án chưa được công bố trong bất kỳ công trình nghiên cứu
trong và ngoài nước.
Hà Nội, tháng 01 năm 2020
NGHIÊN CỨU SINH
Nguyễn Tường Thành
TẬP THỂ HƯỚNG DẪN
TS Lê Dũng
TS. Phạm Thành Công
i
LỜI CẢM ƠN
Luận án tiến sĩ được thực hiện tại Viện Điện tử Viễn thông, trường Đại học Bách
khoa Hà Nội dưới sự hướng dẫn khoa học của TS Lê Dũng và TS Phạm Thành Công.
Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới các thầy, cô về định hướng khoa
học trong suốt quá trình nghiên cứu. Nghiên cứu sinh xin được trân trọng cảm ơn các
nhà khoa học, tác giả các công trình công bố đã được trích dẫn và cung cấp nguồn tư
liệu quý báu trong quá trình hoàn thành luận án.
Nghiên cứu sinh xin trân trọng cảm ơn Viện Điện tử Viễn thông; Phòng Đào tạo
Trường Đại học Bách Khoa Hà Nội; Các thầy cô trong Viện Điện tử Viễn thông, các
anh chị và các bạn trong nhóm NCS, các võ sư Hồ Minh Mộng Hùng, Phạm Đình
Khiêm, Phạm Ngọc Dương, Bùi Thị Lành, Nguyễn Quốc Tiễn, Trung tâm Võ thuật
cổ tryền Bình Định, TP. Quy Nhơn, tỉnh Bình Định...đã quan tâm, động viên giúp đỡ
và tạo điều kiện thuận lợi về thời gian, địa điểm nghiên cứu, trang thiết bị, hỗ trợ về
mặt nhân lực để NCS thực hiện việc thu thập dữ liệu, thực nghiệm các kết quả nghiên
cứu.
Nghiên cứu sinh xin cảm ơn TS. Lê Văn Hùng nghiên cứu tại Viện nghiên cứu
quốc tế MICA, Đại học Bách khoa Hà Nội và Đại học Tân Trào đã hỗ trợ kỹ thuật,
đồng tác giả giúp NCS thực hiện các nghiên cứu của luận án.
Cuối cùng nghiên cứu sinh xin bày tỏ sự biết ơn tới Ban giám hiệu Trường Đại
học Quy Nhơn; Ban chủ nhiệm Khoa Kỹ thuật và Công nghệ, gia đình, bạn bè và đồng
nghiệp đã động viên khích lệ, tạo mọi điều kiện thuận lợi để NCS yên tâm công tác và
học tập.
Hà Nội, tháng 01 năm 2020
NGHIÊN CỨU SINH
Nguyễn Tường Thành
ii
NỘI DUNG
LỜI CAM ĐOAN
i
LỜI CẢM ƠN
ii
NỘI DUNG
v
KÝ HIỆU VÀ VIẾT TẮT
vi
DANH SÁCH BẢNG BIỂU
viii
DANH SÁCH HÌNH VẼ
xiv
MỞ ĐẦU
Chương
1.1
1.2
1.3
1.4
1.5
1.6
1
1:
TỔNG QUAN
12
Học máy, học sâu và ứng dụng . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hệ thống khôi phục hoạt động của người trong không gian 3-D và chấm
điểm võ thuật . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Hệ thống khôi phục hoạt động của người trong không gian 3-D .
1.2.2 Hệ thống chấm điểm võ thuật . . . . . . . . . . . . . . . . . . .
Ước lượng khung xương trên cơ thể người trong không gian 2-D . . . .
1.3.1 Ước lượng khung xương trên ảnh màu . . . . . . . . . . . . . .
1.3.2 Ước lượng khung xương trên ảnh độ sâu . . . . . . . . . . . . .
1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động . .
1.3.4 Nhận xét . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ước lượng khung xương và tư thế người trong môi trường 3-D . . . . .
1.4.1 Phục hồi tư thế 3-D của người từ một ảnh . . . . . . . . . . . .
1.4.2 Phục hồi tư thế 3-D của người . . . . . . . . . . . . . . . . . . .
1.4.2.1 Phục hồi khung xương, tư thế người trong không gian
3-D từ một ảnh . . . . . . . . . . . . . . . . . . . . . .
1.4.2.2 Phục hồi khung xương, tư thế người trong không gian
3-D từ một chuỗi ảnh . . . . . . . . . . . . . . . . . .
1.4.3 Nhận xét . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Các bộ cơ sở dữ liệu cho việc đánh giá ước lượng khung xương trong
không gian 3-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Giới thiệu Kinect . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2 Hiệu chỉnh dữ liệu thu từ cảm biến Kinect . . . . . . . . . . . .
Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
12
12
14
16
16
16
16
17
18
21
22
23
23
24
25
25
25
31
31
31
37
Chương
2:
ƯỚC LƯỢNG KHUNG XƯƠNG CỦA NGƯỜI TỪ DỮ
LIỆU VÕ CỔ TRUYỀN TRONG KHÔNG GIAN 3-D
2.1
2.2
2.3
Ước lượng khung xương trong không gian 2-D . . . . . . . . . . . . . .
2.1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . .
2.1.3 Sử dụng học sâu cho việc ước lượng các hành động trong bài võ
cổ truyền trong không gian 2-D . . . . . . . . . . . . . . . . . .
2.1.3.1 Phương thức . . . . . . . . . . . . . . . . . . . . . . .
2.1.3.2 Cơ sở dữ liệu các bài võ cổ truyền . . . . . . . . . . .
2.1.3.3 Phương thức đánh giá . . . . . . . . . . . . . . . . . .
2.1.3.4 Xoay và dịch dữ liệu trong không gian 3-D . . . . . . .
2.1.3.5 Kết quả ước lượng và nhận xét . . . . . . . . . . . . .
2.1.4 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Phục hồi khung xương, tư thế người trong không gian 3-D và bị che khuất
2.2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . .
2.2.3 Phục hồi khung xương, tư thế người trong không gian 3-D . . .
2.2.3.1 Nghiên cứu so sánh về khôi phục khung xương người
trong không gian 3-D . . . . . . . . . . . . . . . . . .
2.2.3.2 Thí nghiệm và kết quả ước lượng khung xương 3-D . .
2.2.3.3 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.4 Ước lượng khung xương, tư thế người khi bị che khuất . . . . .
Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Chương
3:
3.4
39
39
40
43
43
47
53
56
61
64
74
74
74
77
78
82
84
85
92
NHẬN DẠNG VÀ CHẤM ĐIỂM ĐỘNG TÁC VÕ CỔ
TRUYỀN VIỆT NAM
3.1
3.2
3.3
38
93
Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Cơ sở lý thuyết để nhận diện động tác tấn công và chấm điểm động tác võ 97
3.3.1 Nhận diện động tác tấn công . . . . . . . . . . . . . . . . . . . 97
3.3.1.1 Xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 97
3.3.1.2 Trích xuất đặc trưng cơ thể người với camera Kinect . 97
3.3.2 Mô hình chấm điểm động tác võ cổ truyền . . . . . . . . . . . . 102
3.3.2.1 Mô tả động tác người . . . . . . . . . . . . . . . . . . 102
3.3.2.2 Công thức chấm điểm . . . . . . . . . . . . . . . . . . 105
Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.4.1 Nhận diện động tác tấn công . . . . . . . . . . . . . . . . . . . 107
iv
3.5
3.6
3.4.1.1 Nhận diện động tác tấn công bằng cây phân loại
3.4.1.2 Nhận diện động tác tấn công bằng mạng nơ ron .
3.4.2 Chấm điểm động tác võ cổ truyền Việt Nam . . . . . . . .
Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . .
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
107
108
110
115
115
115
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 117
TÀI LIỆU THAM KHẢO
PHỤ LỤC
120
134
v
DANH MỤC CÁC KÝ HIỆU VÀ VIẾT TẮT
Số
Viết tắt Giải nghĩa
Nghĩa tiếng Việt
1
AD
Average deviation
Độ lệch trung bình
2
AP
Average Precision
Độ chính xác trung bình
3
APM
Articulated Part-based Modeldeviation Mô hình dựa trên phần khớp nối
4
CPM
Convolutional Pose Machines
Máy học cử chỉ tích chập
5
CPU
Central Processing Unit
Đơn vị xử lý trung tâm
6
CNN
Convolutional Nerural Network
Mạng Nơ ron tích chập
7
CNNs
Convolutional Nerural Networks
Mạng Nơ ron tích chập nhiều lớp
8
DPM
Deformable Part Model
Mô hình phần biến dạng
9
DTW
Dynamic Time Warping
So khớp chuỗi thời gian động
10
DV
Digital Video
Video số
11
fps
f rame per second
Khung hình trên giây
12
GPU
Graphics Processing Unit
Đơn vị xử lý đồ họa
13
HMMs
Hidden Markov Models
Mô hình Markov ẩn
14
HOG
Histogram of Oriented Gradients
Biểu đồ hướng dốc
15
HRNet
High-Resolution Network
Mạng độ phân giải cao
16
IR
InfraRed camera
Máy ảnh hồng ngoại
17
JI
Jaccard Index
Chỉ số Jaccard
18
LSTM
Long Short-Term Memory
Mạng bộ nhớ ngắn định hướng
dài hạn
19
MADS
Martial Arts, Dancing and Sports
Võ cổ truyền, khiêu vũ, thể thao
20
MOCAP MOtion CAPture
21
MPJPE
MeanPerJointPositionError
Độ đo sai số trung bình của các
khớp nối
22
MS
MicroSoft
Microsoft
23
MSE
Mean Squared Error
Sai số bình phương
24
OCR
Optical Character Recognition
Nhận dạng ký tự quang học
25
OKS
Object Key point Similarity
Độ tương tự các điểm đại diện
26
OpenCV Open Computer Vision
27
OpenNI
Open Natural Interaction
Thư viện hỗ trợ đa ngôn ngữ
28
PCA
Principal Component Analysis
Phân tích nguyên lý thành phần
Thu nhận chuyển động
Thư viện mã nguồn mở thị giác
máy tính
vi
29
PCL
Poind Cloud Library
Thư viện đám mây điểm
30
RAM
Random Access Memory
Bộ nhớ truy nhập ngẫu nhiên
31
RDF
Random Decision Forests
Rừng quyết định ngẫu nhiên
32
RGB
Red Green Blue
Đỏ Xanh lá Xanh lơ
33
SDK
Software Development Kit
Kit phát triển phần mềm
34
SVM
Support Vector Machine
Học máy hỗ trợ vector
35
TOF
Time-Of-Flight sensor
Cảm biến TOF
36
V1
Version 1
Phiên bản 1
37
V2
Version 2
Phiên bản 2
38
VE
Vector Estimation
Vector dự đoán
39
VG
Vector Ground truth
Vector đánh dấu thực
40
VNMA
VietNam Martial Arts
Võ cổ truyền Việt Nam
vii
DANH SÁCH BẢNG BIỂU
Bảng 1.1 Thống kê các nghiên cứu ước lượng khung xương của người trong
không gian 3-D mà có đánh giá trên cơ cở dữ liệu Human3.6M [86] và
kết quả ước lượng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
Bảng 1.2 Khảo sát về ước lượng tư thế người trong không gian 3-D sử dụng
1 ảnh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
Bảng 1.3 Khảo sát về ước lượng khung xương người trong không gian 3-D
từ một chuỗi ảnh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Bảng 2.1
Số khung hình trong các tư thế võ của cơ sở dữ liệu VNMA. . . .
50
Bảng 2.2
Số khung hình trong các tư thế võ của cơ sở dữ liệu SVNMA. . .
51
Bảng 2.3 Kết quả trung bình của ước lượng các khớp nối (AP), góc lệch
giữa các khớp của dữ liệu gốc và các khớp nối ước lượng được (AD) và
khoảng cách giữa các trung bình giữa các điểm đại diện ước lượng được
và các điểm đại diện của dữ liệu gốc, tương ứng với nhau. . . . . . . .
61
Bảng 2.4 Kết quả ước lượng khung xương trên ảnh và chiếu sang không gian
3-D với 14 điểm xương trên dữ liệu VNMA. Kết quả được đánh giá trên
độ đo MPJPE theo đơn vị milimet (mm). . . . . . . . . . . . . . . . . .
68
Bảng 2.5
Số khung hình đánh giá trong dữ liệu VNMA. . . . . . . . . . . .
69
Bảng 2.6 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang không
gian 3-D trên cơ sở dữ liệu MADS với 14 điểm xương. . . . . . . . . . .
71
Bảng 2.7 Số khung hình cho việc đánh giá ước lượng khung xương trên ảnh
sai đó chiếu sang không gian 3-D trên cơ sở dữ liệu MADS. . . . . . . .
72
Bảng 2.8 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang không
gian 3-D trên cơ sở dữ liệu VNMA với 15 điểm xương. . . . . . . . . .
88
Bảng 2.9 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang không
gian 3-D trên cơ sở dữ liệu MADS với 15 điểm xương. . . . . . . . . . .
89
Bảng 3.1
Thể hiện tám véc tơ chi . . . . . . . . . . . . . . . . . . . . . . . 104
viii
DANH SÁCH HÌNH VẼ
Hình 1
Cảm biến MS Kinect phiên bản 1.
. . . . . . . . . . . . . . . . .
2
Hình 2
Minh họa dữ liệu khung xương thu được từ cảm biến MS Kinect
phiên bản 1 [36]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Hình 3
Một lớp dạy võ cổ truyền tại thành phố Quy Nhơn, tỉnh Bình
Định, Việt Nam. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
Hình 4
Khung xương, tư thế của người được ước lượng (các điểm màu
xanh là các điểm xương và các khớp nối màu vàng) và môi trường được
xây dựng lại trong không gian 3-D (thế giới thực). . . . . . . . . . . . .
5
Hình 5
Minh họa thiết lập các thiết bị. . . . . . . . . . . . . . . . . . . .
7
Hình 6
Mô hình giải quyết vấn đề ước lượng khung xương, tư thế người
trong không gian 3-D và tái tạo lại môi trường thực tế. . . . . . . . . .
9
Hình 1.1
Minh họa mô hình của học máy [58]. . . . . . . . . . . . . . . . .
13
Hình 1.2
Mô hình phân loại học máy [59]. . . . . . . . . . . . . . . . . . .
14
Hình 1.3
Mô hình của học sâu [59]. . . . . . . . . . . . . . . . . . . . . . .
15
Hình 1.4 Minh họa phương thức ước lượng tư thế, khung xương trong không
gian 3-D [155]: Đầu vào là một ảnh màu (RGB), đầu tiên là ước lượng
khung xương trong không gian ảnh (2-D) sau đó ước lượng giá trị độ
sâu của khung xương bằng việc tìm kiếm một mô hình khung xương, tư
thế phù hợp. Khung xương ước lượng được có màu đỏ, khung xương gốc
có màu xám. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
Hình 1.5 Minh họa ảnh màu, ảnh độ sâu thu được từ cảm biến Kinect phiên
bản 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
Hình 1.6
Minh họa cảm biến Kinect phiên bản 1. . . . . . . . . . . . . . .
32
Hình 1.7 Minh họa ảnh các trạng thái hoạt động của người trong thực tế
[86], [89] và hệ thống MOCAP [102] để xác định vị trí các chi, các bộ
phận của người trong không gian 3-D. . . . . . . . . . . . . . . . . . .
34
ix
Hình 1.8 Minh họa ảnh về các loại hoạt động trong cơ sở dữ liệu [32] và hệ
thống MOCAP [102] để xác định vị trí các chi, các bộ phận của người
trong không gian 3-D. . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
Hình 2.1 Minh họa kết quả ước lượng khung xương, tư thế người trong
không gian 2-D [106]. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
Hình 2.2 Minh họa bản đồ các điểm nổi bật được tạo ra từ ảnh cơ thể người.
Trong đó mỗi vùng điểm nổi bật là một ứng cử viên vị trí của các điểm
đại diện [110]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
Hình 2.3 Minh họa đánh nhãn các điểm đại diện trên dữ liệu ảnh của người.
Các điểm màu đỏ là các điểm đại diện trên cơ thể người. Các đoạn màu
xanh thể hiện sự kết nối giữa các bộ phận trên cơ thể người. . . . . . .
44
Hình 2.4 Kiến trúc mạng nơ ron tích chập cho việc ước lượng các điểm đại
diện St , và các bộ phận phù hợp trên cơ thể người khác nhau [24]. . . .
45
Hình 2.5 Minh họa chi tiết mô hình dự đoán vùng các điểm nổi bật (heatmaps)
[111]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Hình 2.6 Minh họa chi tiết mô hình trích chọn đặc trưng cho việc huấn luyện
mô hình dự đoán các vùng nổi bật (heatmaps) ở từng giai đoạn [111]. .
46
Hình 2.7 Minh họa kết quả ước lượng khung xương trên ảnh của mô hình
đã được huấn luyện trên bộ cơ sở dữ liệu 2016 MSCOCO Keypoints
Challenge [23]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Hình 2.8 Minh họa kiến trúc mạng HRnet [115]. Trong đó chiều ngang và
chiều dọc lần lượt thể hiện độ sâu và biến đổi kích thước cửa sổ của bản
đồ đặc trưng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
Hình 2.9 Nghiên cứu so sánh cho đánh giá ước lượng khung xương, tư thế
trong không gian 2-D. . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
Hình 2.10 Minh họa việc đánh dấu dữ liệu gốc về khung xương, tư thế người
trong không gian 3-D. Trong đó thứ tự đánh dấu của các điểm như sau:
(1) Đầu, (2) Cổ, (3) Vai phải, (4) khuyủ tay phải, (5) cổ tay phải, (6)
Vai trái, (7) khuyủ tay trái, (8) cổ tay trái, (9) Giữa hông, (10) Hông
phải, (11) Đầu gối phải, (12) Cổ chân phải, (13) Ngón chân cái phải,
(14) Hông trái, (15) Đầu gối trái, (16) Cổ chân trái, (17) Ngón chân cái
trái . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
Hình 2.11 Các điểm đại diện (Key points) trên cơ thể người và nhãn. . . . .
51
x
Hình 2.12 Minh họa dữ liệu đám mây điểm của một cảnh. Các điểm màu
xanh nước biển là dữ liệu của người trong môi trường 3-D. . . . . . . .
52
Hình 2.13 Minh họa ma trận đánh giá độ tương tự độ dài của các khớp được
tạo ra từ các điểm đại diện [28] . . . . . . . . . . . . . . . . . . . . . .
54
Hình 2.14 Minh họa thứ tự các điểm đại diện ước lượng được. Trong đó, các
điểm màu xanh là các điểm quan tâm và đánh giá trong bài báo này.
Hình bên phải thể hiện các khớp nối của các điểm đại diện quan tâm. .
55
Hình 2.15 Minh họa các phương thức cho việc đánh giá ước lượng khung
xương, tư thế người trong không gian ảnh. . . . . . . . . . . . . . . . .
56
Hình 2.16 Minh họa mô hình xoay và dịch dữ liệu trong không gian 3-D. . .
57
Hình 2.17 Minh họa kết quả ước lượng khung xương, tư thế người trong
không gian 3-D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
Hình 2.18 Minh họa các kết quả ước lượng các điểm đại diện và các khớp nối
trên các video võ thuật cổ truyền. Các khớp nối của cơ thể người là có
màu đỏ; Các khớp nối của tay phải có màu xanh lá cây; Các khớp nối
của tay trái có màu giảm dần từ đỏ đến vàng; Các khớp nối của chân
phải có màu xanh nước biển; Các khớp nối của chân trái có màu xanh
lục. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
Hình 2.19 Đồ thị thể hiện xác suất ước lượng các điểm đại diện trên 3 video
võ thuật cổ truyền có thứ tự là: 2th , 9th , 12th . . . . . . . . . . . . . . .
66
Hình 2.20 Minh họa kết quả ước lượng các khớp nối trong không gian 2-D
và 3-D. Tư thế của người trong không gian 3-D được thể hiện bằng
Matplotlib của Python. . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Hình 2.21 Minh họa việc đánh giá ước lượng khung xương trong không gian
2-D và chiếu sang không gian 3-D. . . . . . . . . . . . . . . . . . . . . .
67
Hình 2.22 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc
và dữ liệu ước lượng được. . . . . . . . . . . . . . . . . . . . . . . . . .
67
Hình 2.23 Minh họa ảnh độ sâu thu thập được từ cảm biến MS Kinect v1
trong bộ cơ sở dữ liệu VNMA. Vùng màu đen bị xa so với giới hạn đo
của cảm biến MS Kinect v1 nên giá trị độ sâu bằng không, còn vùng
người, và vùng sàn nhà có màu nâu nên giá trị độ sâu lớn hơn không. .
70
xi
Hình 2.24 Trái: Minh họa kết quả ước lượng khung xương trên ảnh màu (14
điểm xương) bằng cách sử dụng CPM trong nghiên cứu của Tome et al.
[85]. Phải: Minh họa ảnh độ sâu thu thập được từ cảm biến MS Kinect
v1 trong bộ cơ sở dữ liệu VNMA bị mất dữ liệu vùng tóc. . . . . . . .
70
Hình 2.25 Minh họa ảnh thu thập được từ cảm biến MS Kinect v1 quá xa.
71
Hình 2.26 Phân bố lỗi khoảng cách lỗi MPJPE của các cặp điểm đại diện
giữa dữ liệu gốc và dữ liệu ước lượng được trên cơ sở dữ liệu MADS. .
72
Hình 2.27 Minh họa kết quả ước lượng khung xương trên không gian 2-D
(trên ảnh màu) sử dụng CPM trong nghiên cứu của Tome et al. [85]. .
73
Hình 2.28 Minh họa việc ước lượng khung xương, tư thế người trong không
gian 3-D với dữ liệu bị che khuất. Bên trái thể hiện kết quả ước lượng
khung xương, tư thế của người trên 2-D với bộ ước lượng [24]. Bên phải
là kết quả ước lượng tư thế, khung xương của người trong không gian
3-D sử dụng bộ ước lượng của [85]. . . . . . . . . . . . . . . . . . . . .
75
Hình 2.29 Minh họa chuẩn hóa các mô hình trong bộ dữ liệu huấn luyện mô
hình khung xương người trong 3-D và việc so sánh khung xương ánh xạ
được từ 2-D sang 3-D với bộ dữ liệu huấn luyện [85]. . . . . . . . . . .
76
Hình 2.30 Minh họa mô hình hoạt động của mạng [118]. . . . . . . . . . . .
77
Hình 2.31 Minh họa ước lượng khung xương, tư thế 3-D của người từ một
chuỗi hình ảnh [124]. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
Hình 2.32 Thống kê số lượng nghiên cứu về ước lượng khung xương của người
trong không gian 3-D theo từng năm. . . . . . . . . . . . . . . . . . . .
79
Hình 2.33 Minh họa mô hình nghiên cứu so sánh ước lượng khung xương, tư
thế trong không gian 3-D. . . . . . . . . . . . . . . . . . . . . . . . . .
80
Hình 2.34 Minh họa các tham số của mô hình CNN trong Tome CS. [85]. . .
81
Hình 2.35 Minh họa kiến trúc mạng VNect [128]. . . . . . . . . . . . . . . .
82
Hình 2.36 Minh họa các tham số của mô hình CNN VNect. . . . . . . . . .
82
Hình 2.37 Minh họa sắp xếp thứ tự các khớp trong không gian 3-D của mạng
VNect. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
xii
Hình 2.38 Minh họa kết quả ước lượng trong không gian 2-D và 3-D sử dụng
mạng VNect [128]. Bên trái là kết quả ước lượng khung xương trong
không gian 3-D; Giữa là kết quả ước lượng khung xương trên ảnh; Bên
phải là kết quả ước lượng các điểm đại diện của khung xương trong
không gian 2-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
Hình 2.39 Minh họa mô hình khung xương, tư thế trong không gian 3-D cho
việc đánh giá. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
Hình 2.40 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và
dữ liệu ước lượng được trong không gian 3-D trên cơ sở dữ liệu VNMA.
Trong đó: "CMP training by COCO" là "3-D_COCO_Method" , "CMP
training by Human 3.6m" là "3-D_HUMAN3.6_Method", "VNECT
CNN training by MPII, LSP" là "3-D_VNECT_Method". . . . . . . .
86
Hình 2.41 Kết quả ước lượng khung xương, tư thế trong không gian 3-D. Mỗi
khối là một cặp tương ứng giữa khung xương của dữ liệu gốc (ground
truth - original) và khung xương ước lượng được (estimating). Mỗi cặp
khung xương trong một khối đã được đồng nhất về hệ trục tọa độ. . . .
87
Hình 2.42 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và
dữ liệu ước lượng được trong không gian 3-D trên cơ sở dữ liệu MADS.
Trong đó: "CMP training by COCO" là "3-D_COCO_Method" , "CMP
training by Human 3.6m" là "3-D_HUMAN3.6_Method", "VNECT
CNN training by MPII, LSP" là "3-D_VNECT_Method". . . . . . . .
89
Hình 2.43 Minh họa kết quả ước lượng khung xương của phương thức "3D_VNECT_Method" trên ảnh của cơ sở dữ liệu MADS với 21 điểm
đại diện. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
Hình 2.44 Minh họa kết quả ước lượng đầy đủ các khớp xương người trong
không gian 3-D trên video 1th , 24th của cơ sở dữ liệu võ thuật cổ truyền
Việt Nam (VNMA). . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
Hình 3.1
Minh họa cây quyết định có đi chơi không. . . . . . . . . . . . . .
94
Hình 3.2 Minh họa mô hình của thuật toán rừng ngẫu nhiên cho việc phân
loại. Trong đó thuật toán này được áp dụng cho một rừng bao gồm nhiều
cây quyết định. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
Hình 3.3
Thu thập dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
Hình 3.4
Thể hiện tọa độ trên khung xương. . . . . . . . . . . . . . . . . .
99
xiii
Hình 3.5 Minh họa đặc trưng góc khuỷu tay. Đường màu đen thể hiện đặc
trưng về góc khuỷu tay. . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Hình 3.6
Vị trí các khớp xương mà camera Kinect cung cấp. . . . . . . . . 103
Hình 3.7
Dữ liệu khung xương Kinect và véc tơ chân tay. . . . . . . . . . . 104
Hình 3.8
Chương trình thu nhận dữ liệu chuẩn từ võ sư. . . . . . . . . . . 105
Hình 3.9
Thể hiện chiều cao của cây và số đặc trưng. . . . . . . . . . . . . 108
Hình 3.10 Sự lặp lại kiến trúc module trong mạng RNN chứa một tầng ẩn . 109
Hình 3.11 Sự lặp lại kiến trúc module trong mạng LSTM chứa 4 tầng ẩn (3
sigmoid và 1 tanh) tương tác . . . . . . . . . . . . . . . . . . . . . . . . 110
Hình 3.12 Diễn giải các kí hiệu trong đồ thị mạng nơ ron
. . . . . . . . . . 110
Hình 3.13 Kết quả nhận dạng trên tập Test thế võ công. . . . . . . . . . . . 111
Hình 3.14 Kết quả nhận dạng trên tập Test thế thủ. . . . . . . . . . . . . . 111
Hình 3.15 Lấy mẫu chuẩn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Hình 3.16 Các vị trí dừng để chấm điểm. . . . . . . . . . . . . . . . . . . . . 113
Hình 3.17 Thống kê trung bình điểm chấm 36 động tác võ cổ truyền Việt Nam.113
Hình 3.18 Giao diện chương trình chấm điểm. . . . . . . . . . . . . . . . . . 114
Hình 3.19 Giao diện chương trình chấm điểm. . . . . . . . . . . . . . . . . . 114
xiv
MỞ ĐẦU
1. Tính cấp thiết của nghiên cứu
Võ cổ truyền là một môn thể thao, nghệ thuật thể hiện bản sắc dân tộc. Võ thuật
giúp rèn luyện sức khỏe, tự vệ cho con người của mỗi dân tộc, mỗi đất nước. Võ cổ
truyền đã có từ lâu đời với mỗi quốc gia, đồng thời gắn liền với lịch sử dựng nước và
giữ nước [12]; Như võ cổ truyền Bình Định của Việt Nam [8]; Võ Judo, Karate, Kendo,
Kyudo của người Nhật Bản [9]; Võ Kung Fu, TaiChi của người Trung Quốc [10]. Để
bảo tồn và duy trì các bài võ cổ truyền đặc sắc và có giá trị văn hóa là một vấn đề quan
trọng đối với các nhà quản lý, quốc gia [6], [8], [11]. Trước kia việc lưu trữ là truyền
miệng, qua các hình vẽ các thế võ liên tục và đời trước dạy cho đời sau, nên các thế
võ có thể bị biến tướng và không chuẩn xác. Ngày nay, việc ghi lại thành các video để
lưu trữ là một hướng tiếp cận tốt. Ở Việt Nam từ năm 2016, các bài võ cổ truyền được
đưa vào giảng dạy trong các trường phô thông để rèn luyện sức khỏe và tự vệ cho các
em học sinh. Nên việc xây dựng một mô hình chấm điểm các bài võ được truyền dạy
trên lớp là điều cần thiết. Các mô hình này giúp học sinh phổ thông tự đánh giá các
tư thế võ trong bài võ mà không cần phải nhờ đến các võ sư tại các võ đường.
Tuy nhiên, các thế võ là các hành động nhanh, khó, quay bốn hướng mà các thiết
bị ghi hình thường chỉ nằm ở một vị trí nên có nhiều tư thế bị che khuất. Nên thường
để lưu giữ các bài võ thì phải quay từ nhiều góc khác nhau hoặc quay bằng nhiều
camera đặt từ nhiều hướng. Để bảo tồn, truyền, dạy các thế võ một cách trực quan
thì việc phát hiện, ước lượng các thế võ ở các cảnh bị che khuất là việc làm cần thiết.
Đồng thời xây dựng môi trường 3-D để trực quan hóa việc đào tạo và dạy võ cổ truyền
là một vấn đề cần thiết để giảm thời gian, chi phí, công sức của các võ sư. Đặc biệt là
tăng tính tự giác chủ động trong tập luyện và đánh giá luyện tập của các học sinh phổ
thông.
Để thu thập được các video phục vụ cho việc bảo tồn và duy trì các thế võ người
ta thường sử dụng các cảm biến hình ảnh như các loại camera gắn trên các điện thoại
thông minh, hay các loại camera chuyên dụng. Đặc biệt, để xây dựng được khung cảnh
(môi trường) 3-D về các tư thế võ người ta thường sử dụng các cảm biến có ảnh độ sâu
như Kinect phiên bản 1 (Version 1 - V1), Kinect phiên bản 2 (Version 2 - V2), Real
scene D435, vv. Trong đó, cảm biến Kinect V1 là một loại cảm biến rẻ tiền (giá ngoài
thị trường chỉ khoảng 1 triệu Việt Nam đồng - 40 USD) như Hình 1 và chất lượng ảnh
màu, ảnh độ sâu của cảm biến này là chấp nhận được. Với giá thành rẻ như vậy phù
hợp với túi tiền của người Việt Nam và khả năng phổ dụng của loại cảm biến này là
cao hơn so với các cảm biến khác. Cảm biến MS Kinect cũng có thể thu thập được dữ
1
Hình 1 Cảm biến MS Kinect phiên bản 1.
Hình 2 Minh họa dữ liệu khung xương thu được từ cảm biến MS Kinect phiên bản 1
[36].
liệu khung xương các tư thế của con người như Hình 2.
Tuy nhiên, dữ liệu khung xương thu được từ cảm biến MS Kinect v1 là bị mất rất
nhiều. Như trong nghiên cứu của Wang và các cộng sự [37] đã cho thấy sự sai khác và
thiếu dữ liệu rất lớn giữa cảm biến MS Kinect v1 và MS Kinect v2. Do đó trước khi
thực hiện xây dựng các mô hình đánh giá và chấm điểm các động tác võ được truyền
dạy trên lớp thì cần thực hiện các nghiên cứu về ước lượng, khôi phục khung xương
của người trong các video võ thuật cổ truyền.
Trong nhiều năm trở lại đây có rất nhiều nghiên cứu về ước lượng các khớp xương,
hành động trên cơ thể người trên một ảnh màu, ảnh độ sâu hoặc trên một chuỗi ảnh.
Hầu hết các nghiên cứu đều sử dụng việc học các đặc trưng trên ảnh màu, độ sâu
để học mô hình người, các hành động của người và sử dụng các bộ phân lớp cho việc
dự đoán. Trước đây thì thường sử dụng các bộ phân lớp như SVM (Support Vector
Machine) [39], Random decision forests (RDF) [40] cho việc học và dự đoán các khớp
2
trên cơ thể người. Ngày nay với sự phát triển mạnh mẽ của học sâu (Deep Learning)
thì có rất nhiều mạng được thiết kế cho việc ước lượng các khớp xương trên cơ thể
người [41], [48].
Dữ liệu thu được từ cảm biến Kinect v1 bao gồm ảnh màu và ảnh độ sâu, nếu
thực hiện ước lượng các điểm đại diện và các khớp xương trên ảnh màu thì có rất
nhiều trường hợp các khớp xương bị che khuất không thể ước lượng được. Khi thực
hiện ước lượng trên ảnh độ sâu thì có một số trường hợp dữ liệu ảnh độ sâu bị thiếu
hoặc mất dữ liệu nên cũng có nhiều điểm đại diện và khớp nối không ước lượng được.
Tuy nhiên trên ảnh độ sâu chứa thông tin trong không gian thực (giá trị độ sâu) của
người nên có thể ước lượng được các khớp xương trong trường hợp bị che khuất. Nên
luận án thực hiện kết hợp kết quả ước lượng trên ảnh màu và chiếu kết quả ước lượng
vào không gian 3-D để có được kết quả ước lượng các điểm đại diện và các khớp xương
cao hơn. Đặc biệt, khi ước lượng khung xương, tư thế người trong không gian 3-D có
thể ước lượng được các khớp xương bị che khuất do dữ liệu thu được một phía nhìn
thấy của người. Từ khớp xương đầy đủ có thể thể hiện được đầy đủ các động tác võ
trong các video võ cổ truyền. Đây là một bước quan trọng trong việc tái tạo và ghi
lại các tư thế võ cổ truyền của các võ sư và thực hành các động tác được truyền dạy
của các em học sinh phổ thông. Trong đó hệ thống chấm điểm các động tác võ cũng
là một ứng dụng quan trọng trong việc đánh giá việc biểu diễn các tư thế, động tác võ
đúng và chuẩn hay không. Trong võ thuật thì việc thể hiện đúng và chuẩn làm cho võ
thuật phát huy được hết sức mạnh: tấn công mạnh, phòng thủ chắc chắn (như Hình 3
thể hiện việc dạy võ cổ truyền tại võ đường Nguyễn Thanh Vũ, thành phố Quy Nhơn,
tỉnh Bình Định, Việt Nam).
Các phương thức ước lượng khung xương, tư thế người trên ảnh màu và không
gian 3-D gần đây thường sử dụng các mạng Nơ ron tích chập mới hiện nay cho việc
huấn luyện mô hình ước lượng. Các kết quả được đánh giá trên cơ sở dữ liệu về các
tư thế võ cổ truyền của Nhật Bản (Karate) và Trung Quốc (Tai Chi). Đặc biệt, luận
án cũng công bố bộ cơ sở dữ liệu về các thế võ cổ truyền Việt Nam do các em học
sinh phổ thông biểu diễn và đánh giá các kết quả ước lượng các điểm đại diện và khớp
xương trên cơ sở dữ liệu này trong không gian 2-D và 3-D để xây dựng hệ thống bảo
tồn, giảng dạy, đánh giá các bài võ cổ truyền Việt Nam trực quan.
Tóm lại, luận án tập trung cải tiến kết quả ước lượng các điểm đại diện và các
khớp xương trong các trường hợp bị che khuất khi chỉ sử dụng một cảm biến MS Kinect
v1 để thu thập dữ liệu từ môi trường. Kết quả này là sự kết hợp của mô hình ước lượng
tốt trên không gian ảnh 2-D và ánh xạ trong môi trường 3-D để nâng cao kết quả ước
lượng. Đây chính là ý tưởng trong luận án này, trong mô hình xây dựng ứng dụng của
luận án bao gồm một số bước: (1) Từ dữ liệu đầu vào thu được từ cảm biến MS Kinect
(ảnh màu, ảnh độ sâu); (2) Sử dụng các mạng nơ ron tích chập đã được thiết kế để
3
Hình 3 Một lớp dạy võ cổ truyền tại thành phố Quy Nhơn, tỉnh Bình Định, Việt Nam.
huấn luyện mô hình ước lượng trên ảnh màu và ảnh độ sâu; (3) Kết hợp kết quả ước
lượng trong không gian 2-D và 3-D, biểu diễn kết quả trong không gian 3-D, trong đó
các khớp xương của người trong video được ước lượng và khôi phục đầu đủ; (4) từ đó
xây dựng mô hình chấm điểm các động tác võ cổ truyền áp dụng cho các em học sinh
phổ thông có thể tự đánh giá bài võ của mình. Trong đó bước (2) là bước quan trọng
nhất trong mô hình này.
2. Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu
Mục tiêu của luận án:
- Đề xuất hướng tiếp cận để ước lượng và phục hồi khung xương trong không gian
3-D và để xây dựng một hệ thống tái tạo môi trường 3-D của các video biểu
diễn võ thuật và ước lượng khung xương, tư thế của người trong video. Phương
thức này được kết hợp giữa ước lượng các điểm đại diện và các khớp nối trên
ảnh màu (không gian 2-D) và ước lượng trong không gian 3-D để có được kết
quả ước lượng các khớp xương tốt, đặc biệt là khôi phục được các khớp xương
trong trường hợp các bộ phận của người bị che khuất. Khi có ước lượng khung
xương trong không gian 3-D tốt có nghĩa là giá trị khoảng cách lỗi giữa các điểm
đại diện trên khung xương ước lượng được và khung xương gốc nhỏ. Từ đó thể
hiện chính xác tư thế của người trong các động tác võ. Mô hình ước lượng các
điểm đại diện trên không gian 2-D được chọn từ nghiên cứu so sánh cho bài toán
ước lượng các điểm đại diện trong không gian 2-D, sử dụng các mạng nơ ron
tích chập và huấn luyện trên các bộ cơ sở dữ liệu chuẩn (benchmark). Đồng thời
4
Hình 4 Khung xương, tư thế của người được ước lượng (các điểm màu xanh là các
điểm xương và các khớp nối màu vàng) và môi trường được xây dựng lại trong không
gian 3-D (thế giới thực).
việc ước lượng khung xương, tư thế người trong không gian 2-D, 3-D được đánh
giá trên bộ cơ sở dữ liệu đã công bố về võ cổ truyền của nước ngoài và võ cổ
truyền Việt Nam thu thập được. Hình 4 thể hiện mô hình khung xương, tư thế
của người trong video biểu diễn võ thuật được ước lượng và dựng lại môi trường
trong không gian 3-D (trong thế giới thực).
- Từ khung xương của người được ước lượng và khôi phục đầy đủ các khớp, xây
dựng một mô hình chấm điểm các động tác võ trên các video thu được từ lớp võ
hoặc các bài biểu diễn võ thuật của các em học sinh phổ thông, giúp các em tự
đánh giá được các bài võ thuật đã được truyền dạy. Hơn nữa là nhận dạng được
động tác tấn công để phục vụ cho việc phân tích điểm mạnh điểm yếu của các
tư thế võ thuật cổ truyền.
Trong luận án, các nghiên cứu thành phần không đi giải quyết vấn đề một cách đơn
lẻ, tự phát mà vấn đề xuất phát từ thực tế khi biểu diễn võ thuật thì các thế võ có thể
đánh tứ diện hoặc xoay 360 độ, nên dữ liệu thu thập từ một cảm biến hình ảnh sẽ bị
che khuất rất nhiều. Đặc biệt, quá trình xây dựng hệ thống tái tạo môi trường 3-D và
đánh giá các bài biểu diễn võ thuật cần tái tạo được môi trường 3-D, ước lượng được
khung xương của người trong điều kiện dữ liệu thu thập từ cảm biến MS Kinect có
chứa rất nhiều nhiễu.
5
- Xem thêm -