ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
LÂM QUANG VŨ
PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO DỰA
TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ NGHĨA CAO
Chuyên ngành: Khoa Học Máy Tính
Mã số ngành: 62 48 01 01
TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
TP. Hồ Chí Minh năm 2018
Công trình được hoàn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự
Nhiên, ĐHQG Thành Phố Hồ Chí Minh.
Người hướng dẫn khoa học:
1. HDC: PGS.TS DƯƠNG ANH ĐỨC
2. HDP: TS. LÊ ĐÌNH DUY
Phản biện 1: TS. Lê Thành Sách
Phản biện 2: PGS.TS Vũ Đức Lung
Phản biện 3: TS. Nguyễn Hồng Sơn
Phản biện độc lập 1: PGS.TS. Phạm Thế Bảo
Phản biện độc lập 2: TS. Nguyễn Hồng Sơn
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp cơ sở đào tạo họp tại Trường Đại
Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh
vào hồi
giờ
ngày tháng
năm
Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tổng hợp Quốc gia Tp.HCM
2. Thư viện trường Đại học Khoa học Tự Nhiên-HCM
MỤC LỤC
PHẦN MỞ ĐẦU .................................................................................1
1)
2)
3)
4)
5)
Giới thiệu động lực nghiên cứu và định hướng nghiên cứu ....................... 1
Mục đích, đối tượng và phạm vi nghiên cứu của luận án ........................... 1
Ý nghĩa khoa học và thực tiễn của luận án ................................................ 1
Các đóng góp chính của luận án ............................................................... 2
Bố cục luận án .......................................................................................... 2
Chương 1. TỔNG QUAN .................................................................3
1.1 Giới thiệu bài toán .................................................................................... 3
1.2 Các thách thức .......................................................................................... 4
1.3 Tổng quan các hướng tiếp cận và các công trình liên quan ........................ 4
1.3.1 Các hướng tiếp cận chung cho bài toán phát hiện sự kiện .................. 4
1.3.2 Các hướng tiếp cận đa đặc trưng cho bài bài toán VSD ...................... 4
1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao................................... 5
1.3.4 Các hướng tiếp cận kết hợp đặc trưng ................................................ 5
1.4 Giới thiệu hướng tiếp cận của luận án ....................................................... 5
1.4.1 Giới thiệu kiến trúc tổng quan ........................................................... 5
1.4.2 Bước 1 - Tiền xử lý dữ liệu................................................................ 5
1.4.3 Bước 2 – Biểu diễn đặc trưng ............................................................ 6
1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá............................................. 7
1.4.5 Bước 4 - Kết hợp kết quả................................................................... 7
1.4.6 Song song hóa việc rút trích đặc trưng ............................................... 7
1.5 Đánh giá độ phức tạp của kiến trúc hệ thống............................................. 7
1.6 Bộ dữ liệu MediaEval ............................................................................... 8
1.6.1 Giới thiệu MediaEval ........................................................................ 8
1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD ............................................... 8
1.6.3 Thông tin bộ dữ liệu .......................................................................... 8
1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu .................................. 8
1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu ..................................... 8
1.6.6 Các độ đo .......................................................................................... 8
1.6.7 Các đóng góp trong việc xây dựng bộ dữ liệu .................................... 9
1.7 Kết luận.................................................................................................... 9
Chương 2. ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO
BÀI TOÁN VSD 9
2.1 Giới thiệu ................................................................................................. 9
2.2 Đặc trưng cấp thấp ................................................................................. 10
2.2.1 Các đặc trưng trên khung ảnh .......................................................... 10
2.2.2 Đặc trưng chuyển động.................................................................... 11
2.2.3 Đặc trưng âm thanh ......................................................................... 12
2.3 Đặc trưng tự học được rút trích từ mô hình mạng nơ-ron tích chập ......... 12
2.3.1 Giới thiệu ........................................................................................ 12
2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN) ......................................... 12
2.3.3 Một số vấn đề của mạng nơ-ron tích chập ........................................ 12
2.3.4 Áp dụng đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho bài
toán VSD
13
2.4 Dữ liệu thử nghiệm................................................................................. 13
2.5 Phân tích kết quả .................................................................................... 13
2.5.1 Đặc trưng toàn cục .......................................................................... 13
i
2.5.2 Đặc trưng cục bộ ............................................................................. 14
2.5.3 Đặc trưng chuyển động.................................................................... 14
2.5.4 Đặc trưng âm thanh ......................................................................... 14
2.5.5 So sánh cách biểu diễn đặc trưng BoW và Fisher Vector ................. 14
2.5.6 Đặc trưng của mô hình AlexNet ...................................................... 14
2.5.7 Đặc trưng của mô hình VGGNet ..................................................... 14
2.5.8 Đặc trưng của mô hình UvANet ...................................................... 15
2.5.9 So sánh với các đặc trưng được thiết kế sẵn (hand-crafted) .............. 15
2.6 Phân tích trực quan ................................................................................. 15
2.7 Kết luận.................................................................................................. 15
Chương 3. ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD ......16
3.1 Giới thiệu ............................................................................................... 16
3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến bạo lực ................... 17
3.2.1 Giới thiệu các thuộc tính.................................................................. 17
3.2.2 Biểu diễn cảnh bạo lực bằng thuộc tính ........................................... 17
3.2.3 Thử nghiệm và đánh giá kết quả ...................................................... 18
3.3 So sánh giữa các đặc trưng dựa trên thuộc tính ....................................... 18
3.4 Tính ngữ nghĩa của kết quả..................................................................... 18
3.5 Kết luận.................................................................................................. 19
Chương 4. KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH
TOÁN CHO VSD 19
4.1 Giới thiệu ............................................................................................... 19
4.2 Kết hợp đặc trưng ................................................................................... 20
4.2.1 Kết hợp đặc trưng trước khi huấn luyện (early fusion) ..................... 20
4.2.2 Kết hợp kết quả phân loại của các đặc trưng sau khi huấn luyện (late fusion)
20
4.3 Lựa chọn đặc trưng ................................................................................. 21
4.3.1 Giới thiệu ........................................................................................ 21
4.3.2 Phân tích kết quả từng loại đặc trưng riêng ...................................... 21
4.3.3 Đánh giá kết quả lựa chọn ............................................................... 21
4.4 Tối ưu tài nguyên tính toán ..................................................................... 22
4.4.1 Giới thiệu ........................................................................................ 22
4.4.2 Môi trường tính toán ....................................................................... 24
4.4.3 Chi phí rút trích đặc trưng ............................................................... 24
4.4.4 Đánh giá kết quả.............................................................................. 24
4.5 So sánh kết quả giữa các nhóm nghiên cứu ............................................. 25
4.6 Phân tích đánh giá .................................................................................. 26
4.7 Kết luận.................................................................................................. 26
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................26
5.1
5.2
Những kết quả đạt được.......................................................................... 26
Hướng phát triển .................................................................................... 26
DANH MỤC CÔNG TRÌNH ...........................................................26
ii
PHẦN MỞ ĐẦU
1) Giới thiệu động lực nghiên cứu và định hướng nghiên cứu
Trong những năm qua, với sự bùng nổ của các kênh thông tin truyền thông đa phương tiện,
mỗi ngày có hàng ngàn, hàng triệu video được chia sẻ qua mạng Bên cạnh những thông tin giải
trí, các kiến thức bổ ích, các kênh thông tin truyền thông đa phương tiện còn có rất nhiều nội
dung ảnh hưởng tiêu cực đến giới trẻ cần kiểm soát chặt chẽ (phim khiêu dâm, các nội dung bạo
lực…), đặc biệt khi đối tượng xem là thanh thiếu niên và trẻ nhỏ. Tác động của những nội dung,
thông tin không tốt có ảnh hưởng tiêu cực đến hành vi của giới trẻ. Trong khuôn khổ của luận án
này, chúng tôi hướng tới việc giải quyết bài toán phát hiện thông tin bạo lực trong dữ liệu video
(VSD – Violent Scenes Detection [21]).
2) Mục đích, đối tượng và phạm vi nghiên cứu của luận án
Đầu vào của một hệ thống phát hiện thông tin bạo lực là một (hoặc nhiều) bộ phim, video
clip. Hệ thống sẽ tự động phát hiện và gán nhãn các phân đoạn bạo lực trong phim, video clip.
• Đối tượng nghiên cứu:
Đối tượng nghiên cứu trong luận án này là các cảnh chứa thông tin bạo lực và các phương
pháp phát hiện thông tin bạo lực trong dữ liệu video. Thông tin bạo lực bao gồm các đối
tượng, cảnh, hành động, hành vi bạo lực gây ra sự tổn thương cho con người. Cảnh bạo
lực được định nghĩa theo WHO1 trong bộ dữ liệu [24]:
o Cảnh chứa các thông tin bạo lực không nên cho trẻ dưới 8 tuổi xem.
o Thông tin bạo lực: các đối tượng, cảnh, hành động, sự kiện đe dọa hoặc làm
tổn thương đến con người.
• Mục đích nghiên cứu:
Nghiên cứu và phát triển các phương pháp khai thác và biểu diễn thông tin bạo lực bằng
các mô hình đặc trưng trên máy tính, phục vụ cho việc đánh giá mức độ bạo lực của các
cảnh trong video với độ chính xác cao.
• Phạm vi nghiên cứu:
o Sử dụng định nghĩa cảnh bạo lực, thông tin bạo lực trong video theo WHO.
o Phương pháp rút trích và biểu diễn đa đặc trưng thông tin bạo lực.
o Đánh giá trên bộ dữ liệu chuẩn được cung cấp bởi MediaEval, bao gồm các phim
Hollywood [76], với đầu vào là các bộ phim và đầu ra là các cảnh được đánh giá
mức độ bạo lực.
3) Ý nghĩa khoa học và thực tiễn của luận án
Về mặt khoa học, luận án tập trung đánh giá các mô hình đặc trưng trên nhiều kênh thông
tin (kênh thông tin thị giác khai thác trên từng khung ảnh hoặc chuỗi khung ảnh - video, kênh âm
thanh) để biểu diễn cảnh bạo lực. Từ đó, xác định các loại đặc trưng phù hợp và đề xuất phương
pháp kết hợp các đặc trưng cho bài toán phát hiện thông tin bạo lực. Kết quả của nghiên cứu này
giúp các nhóm nghiên cứu có cơ sở lựa chọn các đặc trưng phù hợp theo yêu cầu, làm nền tảng
cho việc cải tiến độ chính xác, chi phí tính toán trong các nghiên cứu về sau, tiết kiệm thời gian
thử nghiệm lại từng loại đặc trưng.
Về mặt thực tiễn, mô hình hệ thống và các đánh giá thực nghiệm là nền tảng để phát triển
các ứng dụng phát hiện thông tin bạo lực, kiểm duyệt phim, xếp hạng các bộ phim theo mức độ
bạo lực một cách tự động (rating), kiểm duyệt thông tin bạo lực trên các kênh truyền thông đa
phương tiện trên Internet.
1
http://www.who.int/violenceprevention/approach/definition/en/
1
4) Các đóng góp chính của luận án
Bài toán phát hiện cảnh bạo lưc trong video (VSD - Violent Scene Detection) là một dạng
bài toán phát hiện sự kiện (MED - Multimedia Event Detection), trong đó thách thức lớn nhất
của dạng bài toán này là tính ngữ nghĩa và độ phức tạp cao thể hiện qua sự xuất hiện của các đối
tượng, người, cảnh vật và tương tác giữa chúng. Để giải quyết các vấn đề này, hướng tiếp cận kết
hợp đa đặc trưng đã được chứng minh là phổ biến và hiệu quả cho bài toán MED. Do đó, đây
cũng là hướng tiếp cận được dùng để giải quyết bài toán VSD trong luận án này.
Thách thức chính đối với hướng tiếp cận đa đặc trưng đó là số lượng đặc trưng nhiều, độ
phức tạp tính toán và hiệu quả của mỗi đặc trưng khác nhau. Do đó, mục tiêu của luận án là tìm
một tập đặc trưng vừa đủ (compact) sao cho độ chính xác của hệ thống cao trong khi chi phí tính
toán thấp. Để hiện thực mục tiêu này, một framework đã được thiết kế để cho phép đánh giá nhiều
loại đặc trưng từ nhiều modal khác nhau (như ảnh, video, âm thanh), và một thuật toán đơn giản
nhưng hiệu quả đã được đề xuất để kết hợp các loại đặc trưng sao cho thỏa mãn ràng buộc cân
bằng giữa độ chính xác và chi phí tính toán. Hệ thống đề xuất đã được đánh giá trên tập dữ liệu
chuẩn (public benchmark) cho bài toán này, và cho kết quả tốt nhất so với các phương pháp kết
hợp đa đặc trưng khác. Đây là đóng góp quan trọng nhất của luận án và đã được công bố trên tạp
chí MTA [CT1] và hội nghị SoCPaR [CT3].
Bên cạnh việc phân loại cảnh bạo lực, luận án cũng đề xuất cách biểu diễn cảnh bạo lực
sử dụng đặc trưng cấp cao dựa trên các thuộc tính liên quan đến bạo lực. Việc sử dụng các đặc
trưng cấp thấp chỉ giúp phân loại khái niệm mà chưa thể giải quyết các bài toán có mức độ ngữ
nghĩa cao như VSD. Khác với các hướng tiếp cận sử dụng đặc trưng cấp cao thường được sử
dụng trong việc phân loại khái niệm, luận án đề xuất thiết kế đặc trưng cấp cao giúp bổ sung minh
chứng liên quan đến cảnh bạo lực (ví dụ: cảnh bạo lực có đánh nhau, có máu và người bị thương
hay cảnh cháy nổ có thương vong) giúp giảm khoảng cách ngữ nghĩa và tính chủ quan của khái
niệm. Quá trình thiết kế và đánh giá đặc trưng cấp cao dựa trên thuộc tính được công bố trong
[CT4] và được trình bày trong Chương 3 của luận án.
Với tính ngữ nghĩa cao và sự đa dạng về mặt thể hiện của khái niệm bạo lực, để khai thác
toàn diện thông tin liên quan đến cảnh bạo lực trong biểu diễn và nhận dạng, chúng tôi đề xuất
mô hình kết hợp đa đặc trưng dựa trên sự chọn lọc các đặc trưng phù hợp và có tính bổ trợ cao.
Tuy nhiên, với khối lượng thông tin lớn trong video, việc kết hợp nhiều đặc trưng sẽ dẫn tới thách
thức về tài nguyên tính toán. Để hạn chế thách thức này, chúng tôi đề xuất các mô hình kết hợp
đa đặc trưng tối ưu theo tài nguyên, hướng đến việc triển khai một ứng dụng thực tiễn trong tương
lai. Kết quả được công bố trong [CT2] và được trình bày trong Chương 4 của luận án.
Trong quá trình nghiên cứu, chúng tôi cũng tham gia xây dựng các bộ dữ liệu và phương
pháp đánh giá chuẩn trong MediaEval Benchmarking VSD Error! Reference source not f
ound.[CT9], đồng thời cũng phát triển hệ thống và gửi kết quả đánh giá trong hội thảo MediaEval
VSD hàng năm [CT5][CT7][CT6]. Quá trình tham gia xây dựng bộ dữ liệu được trình bày chi
tiết trong Chương 1 của luận án. Dựa trên các kết quả nghiên cứu, chúng tôi đã xây dựng hệ thống
hỗ trợ phát hiện thông tin bạo lực (lọt vào chung kết cuộc thi Nhân Tài đất Việt 2014) và đã đăng
ký giải pháp hữu ích để bảo hộ cho hệ thống được đề xuất tại Việt Nam.
5) Bố cục luận án
•
•
•
•
•
•
Luận án được bố cục theo các chương mục như sau:
PHẦN MỞ ĐẦU
CHƯƠNG 1: TỔNG QUAN
CHƯƠNG 2: ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI
TOÁN VSD
CHƯƠNG 3: ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD
CHƯƠNG 4: KẾT HỢP ĐA ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH TOÁN
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
2
Chương 1. TỔNG QUAN
Trong chương này, chúng tôi giới thiệu về bài toán giải quyết trong luận án: Phát hiện
thông tin bạo lực trong video; tầm quan trọng và các thách thức khi giải quyết bài toán này. Sau
đó, chúng tôi giới thiệu sơ lược về các cách tiếp cận được sử dụng rộng rãi hiện nay được kế
thừa từ bài toán phát hiện sự kiện trong video; từ đó, giới thiệu hướng tiếp cận của chúng tôi khi
thực hiện luận án này. Bên cạnh đó, chúng tôi cũng trình bày kiến trúc hệ thống được chúng tôi
xây dựng để thực hiện các thí nghiệm cho luận án và giới thiệu quá trình tham gia xây dựng bộ
dữ liệu chuẩn cho bài toán phát hiện thông tin bạo lực Error! Reference source not found.[CT9].
1.1 Giới thiệu bài toán
Bài toán VSD được giải quyết dưới dạng bài toán học có giám sát (supervised learning
methods) tổ chức qua hai giai đoạn ngoại tuyến (huấn luyện mô hình) và giai đoạn trực tuyến
(đánh giá kết quả). Hệ thống VSD với hai giai đoạn được minh họa trong Hình 1.1:
Giai đoạn huấn luyện (Offline )
Dữ liệu huấn luyện
Rút trích đặc trưng
0
0
1
1
0
0
1
1
ct r đặc trưng
Huấn luyện
Mô hình
0
0
Video được gán nhãn
1: bạo lực
0: không bạo lực
Giai đoạn kiểm tra (Online)
Kết quả đánh giá
Dữ liệu kiểm tra
Rút trích đặc trưng
ct r đặc trưng
Phân lớp
0
1
1
1
0
0
0
1
Phát hiện thông tin bạ lực tr ng dữ liệu id
0
1
0
0
1
0
0
1
D/S phân đoạn được
gán nhãn bạo lực
Hình 1.1 Hai giai đoạn trong hệ thống hỗ trợ phát hiện thông tin bạo lực
Hệ thống VSD được tổ chức thành hai giai đoạn như mô tả trong Hình 1.1. Ở giai đoạn đầu
(thực hiện ngoại tuyến - offline), dựa vào các dữ liệu huấn luyện được gán sẵn các nhãn bạo lực,
hệ thống tiến hành rút trích và biểu diễn các đặc trưng trên máy tính từ dữ liệu video đầu vào, sau
đó sẽ sử dụng các phương pháp học giám sát để huấn luyện mô hình máy học có khả năng đánh
giá, phân loại khái niệm bạo lực. Ở giai đoạn tiếp theo (thực hiện trực tuyến - online), hệ thống
sẽ sử dụng các mô hình huấn luyện ở bước đầu để tiến hành đánh giá các dữ liệu cần kiểm tra.
Trong phạm vi của luận án, chúng tôi sẽ tập trung chính vào bước rút trích và biểu diễn đặc trưng
trên máy tính cho khái niệm bạo lực.
Trong phạm vi luận án, bài toán VSD được đặc tả cụ thể như sau:
Vấn đề 1.1: Bài toán phát hiện thông tin bạo lực tổng quát
Đầu vào:
• Cho V là tập hợp gồm 𝑛 video: 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣 𝑛 } với 𝑣 𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜,
1≤ 𝑖 ≤ 𝑛
𝑖
• Mỗi video 𝑣 𝑖 là một tập hợp các phân đoạn 𝑣 𝑖 = {𝑠1𝑖 , 𝑠2 , … , 𝑠 𝑖𝑚 }, với
phân đoạn trong video 𝑣 𝑖
• ℎ là hàm rút trích biểu diễn đặc trưng :
ℎ: ℕ 𝐻×𝑊×𝐿 ⟶ ℝ 𝐷 ,
𝐻, 𝑊 là chiều cao và rộng của khung ảnh
𝑠 𝑗𝑖 ⟼ ℎ(𝑠 𝑗𝑖 ),
𝐿 là số khung ảnh trong phân đoạn
𝐷 là chiều dài của vector đặc trưng
•
𝑡 là hàm phân lớp:
𝑡: ℝ 𝐷 ⟶ ℤ2 = {0,1},
𝑚 là số
3
ℎ(𝑠 𝑗𝑖 ) ⟼ 𝑙 𝑗𝑖
𝑙 𝑗𝑖 là nhãn của phân đoạn thứ 𝑗 trong
video
𝑣 𝑖 có giá trị 0 = không bạo lực, 1= bạo lực.
Đầu ra:
• Với mỗi video 𝑣 𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được gán
𝑖
𝑖 𝑖
nhãn bạo lực 𝑟𝑒𝑠𝑢𝑙𝑡 𝑖 = {(𝑠1𝑖 , 𝑙1 ), (𝑠2 , 𝑙2 ), … , (𝑠 𝑖𝑚 , 𝑙 𝑖 𝑚 )}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑙 𝑗𝑖 = {0,1}.
Bài toán cần giải quyết:
ℎ
•
𝑡
𝑠 𝑗𝑖 → ℎ(𝑠 𝑗𝑖 ) → 𝑙 𝑗𝑖 , trong đó chúng tôi tập trung vào giải quyết việc biểu
diễn đặc trưng của khái niệm bạo lực (hàm ℎ).
1.2 Các thách thức
Bài toán phát hiện thông tin bạo lực trong dữ liệu video là một dạng của bài toán phát
hiện sự kiện. Đây là bài toán có nhiều thách thức, nên các kết quả hiện tại vẫn còn chưa đáp ứng
được nhu cầu thực tế [21].
a) Tính đa dạng, đa thể hiện của khái niệm bạo lực là một trong những thách thức lớn
của bài toán VSD. Theo định nghĩa từ MediaEval và WHO2, cảnh bạo lực là cảnh có
những hành động gây ra sự thương vong cho con người [75].
b) Tính ngữ nghĩa cao: bên cạnh sự thể hiện đa dạng, khái niệm bạo lực phụ thuộc rất
nhiều vào nhận định chủ quan của con người. Tùy thuộc vào lứa tuổi, văn hóa, quan
điểm bạo lực của mỗi người sẽ nhận định khái niệm bạo lực khác nhau.
c) Tài nguyên: việc xử lý trên dữ liệu video đòi hỏi tài nguyên lưu trữ và tính toán lớn.
Ví dụ để xử lý rút trích đặc trưng cho một giờ video, nếu sử dụng đặc trưng trên khung
ảnh, chúng ta phải rút trích và xử lý 90.000 khung ảnh (25 khung ảnh/ giây).
d) Dữ liệu cho bài toán học giám sát: với đặc tính ngữ nghĩa cao, việc xây dựng bộ dữ
liệu huấn luyện dựa trên khái niệm được định nghĩa cũng là một thách thức.
1.3 Tổng quan các hướng tiếp cận và các công trình liên quan
Phát hiện thông tin bạo lực là một dạng của bài toán phát hiện sự kiện trong video. Thông
thường, mỗi sự kiện có nhiều thể hiện đa dạng, mang tính ngữ nghĩa cao nên các hướng tiếp cận
đều sử dụng kết hợp đa đặc trưng để biểu diễn sự kiện, tuy nhiên chưa có nhiều nghiên cứu tương
tự cho bài toán phát hiện thông tin bạo lực. Kể từ sau năm 2011, khi MediEval và công ty
Technicolor đưa ra bộ dữ liệu MediaEval VSD[76], nhiều nhóm nghiên cứu đã cùng tham gia
giải quyết bài toán trên bộ dữ liệu chuẩn này.
1.3.1 Các hướng tiếp cận chung cho bài toán phát hiện sự kiện
Bài toán phát hiện thông tin bạo lực trong video là dạng bài toán phát hiện sự kiện trong
dữ liệu đa phương tiện (MED - multimedia event detection) đang phổ biến hiện nay. Bài toán
phát hiện thông tin bạo lực của MediEval mà luận án đang giải quyết được xây dựng trên dữ liệu
phim Hollywood (video dài, được biên tập nội dung, có độ phân giải cao và nhiều kỹ xảo) và tính
ngữ nghĩa của khái niệm cao hơn.
1.3.2 Các hướng tiếp cận đa đặc trưng cho bài bài toán VSD
Đặc điểm chung của các công trình trong giai đoạn này là sử dụng các khái niệm liên quan
đến bạo lực để thay thế cho khái niệm bạo lực. Việc sử dụng các định nghĩa mang tính chủ quan
cao không giải quyết bài toán một cách tổng quát và mất đi sự thể hiện đa dạng của khái niệm,
phạm vi và độ phức tạp của bài toán cũng giảm đáng kể.
Từ năm 2011, khi MediaEval VSD phát triển định nghĩa hình thức của khái niệm bạo lực
và công bố kèm bộ dữ liệu chuẩn, nhiều nhóm nghiên cứu trên thế giới đã tham gia vào MediaEval
VSD qua các năm và nhiều công trình đã được công bố [21]. Các hướng tiếp cận chung của các
bài toán là việc áp dụng đa đặc trưng trên nhiều kênh thông tin từ ảnh, âm thanh, video và các
cách kết hợp đặc trưng sao cho hiệu quả. Các nhóm nghiên cứu thường công bố kết quả của việc
2
http://www.who.int/violenceprevention/approach/definition/en/
4
sử dụng đặc trưng nhưng không công bố cấu hình các đặc trưng sử dụng, cũng như các kết quả
công bố thường được kết hợp (fusion) giữa nhiều loại đặc trưng khác nhau nên rất khó để đánh
giá kết quả của từng loại đặc trưng riêng biệt. Khác với các công trình nghiên cứu khác, luận án
đánh giá một cách hệ thống từng loại đặc trưng và cách kết hợp hiệu quả cho bài toán VSD.
1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao
Bên cạnh các hướng tiếp cận biểu diễn bằng đặc trưng cấp thấp, chúng ta cần những cách
tiếp cận giàu ngữ nghĩa cho việc biểu diễn cảnh bạo lực. Một số cách tiếp cận sử dụng thuộc tính
(attributes) để giải quyết các bài toán nhận dạng đối tượng (như Object Bank [48]), phân lớp cảnh
sử dụng thuộc tính là các đối tượng như [49], nhận dạng hành động bằng cách sử dụng ngân hàng
các hành động như [71]. Đặc điểm chung của các công trình trước đây sử dụng các thuộc tính
biểu diễn cho cảnh, hành động đơn giản, chưa mang tính ngữ nghĩa cao như các sự kiện (liên
quan đến nhiều thể hiện, nhiều cảnh, hành vi khác nhau). Trong luận án này, chúng tôi chọn cách
tiếp cận thiết kế một đặc trưng cấp cao dựa trên các thuộc tính liên quan để biểu diễn cảnh bạo
lực. Đây là cách tiếp cận sử dụng đặc trưng cấp cao đầu tiên cho bài toán MediaEval VSD.
1.3.4 Các hướng tiếp cận kết hợp đặc trưng
Đối với bài toán VSD, việc sử dụng kết hợp nhiều đặc trưng đã chứng minh hiệu quả, tuy
nhiên hiện tại đa số các công trình đều tập trung vào việc lựa chọn đặc trưng mà không quan tâm
đến chi phí tính toán của các loại đặc trưng này[75]. Khác với các công trình liên quan, chúng tôi
tiến hành lựa chọn các đặc trưng phù hợp cho việc kết hợp, đánh giá lại các phương thức kết hợp
đặc trưng (kết hợp sớm, kết hợp trễ, kết hợp trên phân đoạn) cho bài toán phát hiện thông tin bạo
lực trên bộ dữ liệu của MediaEval VSD. Ngoài ra chúng tôi cũng xác định chi phí tính toán trong
việc rút trích các loại đặc trưng, từ đó đề xuất các bộ cấu hình đặc trưng tối ưu trong điều kiện
hạn chế tài nguyên tính toán, các đánh giá và đề xuất này là cơ sở để triển khai các ứng dụng
trong thế giới thực.
1.4 Giới thiệu hướng tiếp cận của luận án
1.4.1 Giới thiệu kiến trúc tổng quan
Chúng tôi xây dựng hệ thống hỗ trợ phát hiện thông tin bạo lực trên nền tảng tham khảo
các hệ thống hỗ trợ phát hiện sự kiện [40], [65], [96]. Hệ thống chúng tôi xây dựng có khả năng
rút trích các đặc trưng trên nhiều kênh thông tin. Bên cạnh đó, hệ thống cũng được thiết kế để
thực hiện các tính toán song song trên hệ thống GRID Computing.
Kiến trúc hệ thống được minh họa trong Hình 1.2 bên dưới.
Dữ liệu
huấn luyện
0
0
1
1
0
0
TIỀN XỬ LÝ
1
1
Dữ liệu
đánh giá
0
0
BIỂU DIỄN ĐẶC TRƯNG
HUẤN LUYỆN VÀ ĐÁNH
GIÁ
PHÂN ĐOẠN
RÚT TRÍCH
KHUNG ẢNH
CHUẨN HÓA
KÍCH THƯỚC
RÚT
TRÍCH
ĐẶC
TRƯNG
MÃ
HÓA
ĐẶC
TRƯNG
HUẤN
LUYỆN
MÔ
HÌNH
ĐÁNH
GIÁ/
PHÂN
LỚP
TỔNG HỢP KẾT QUẢ
KẾT
HỢP
KẾT
QUẢ
HẬU XỬ
LÝ
TĂNG
ĐỘ
CHÍNH
XÁC
Hình 1.2. Kiến trúc tổng quan của hệ thống hỗ trợ phát hiện thông tin bạo lực
Bước 1 - Tiền xử lý dữ liệu
Dữ liệu đầu vào của bài toán VSD thường là các phim hoặc video clip có chiều dài khác
nhau. Mục tiêu của bài toán là xác định các phân đoạn có chứa thông tin bạo lực, vì vậy ở bước
đầu tiên hệ thống sẽ thực hiện: (1) Phân chia video thành các phân đoạn; (2) trích khung ảnh từ
các phân đoạn (3) chuẩn hóa kích thước.
Cụ thể bước tiền xử lý dữ liệu được đặc tả tổng quát như sau:
1.4.2
Bước 1: Tiền xử lý dữ liệu
Đầu vào:
• Danh sách video 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣 𝑛 } với 𝑣 𝑖 ∈ 𝑉, 1 ≤ 𝑖 ≤ 𝑛
5
• Độ dài của một phân đoạn ∆ 𝑓𝑟𝑎𝑚𝑒𝑠
• Số lượng khung ảnh 𝑛 𝑓𝑟𝑎𝑚𝑒 rút trích trên 1 giây
• Kích thước khung ảnh 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ
Đầu ra:
𝑖
• Danh sách các phân đoạn của từng video 𝑣 𝑖 : 𝑆 𝑖 = {𝑠1𝑖 , 𝑠2 , … , 𝑠 𝑖𝑛𝑆ℎ𝑜𝑡 }.
𝑖
• Danh sách các khung ảnh cho từng phân đoạn 𝑠 𝑗 ,
𝑖
𝑖
𝑠 𝑗𝑖 = {𝑓𝑗,𝑘 : 𝑓𝑗,𝑘 ∈ ℕ 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗 𝑖 }, 𝑘 là thứ tự khung ảnh trong phân
Thuật
•
•
•
•
•
•
•
•
•
đoạn 𝑠 𝑗𝑖 có 𝑛𝐾𝐹𝑗 𝑖 khung ảnh, 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ là chiều rộng và chiều cao của
khung ảnh sau khi được giảm kích thước.
toán:
Bước 1:
Loop duyệt qua từng video 𝑣 𝑖
Bước 1.1:
Chia video thành các phân đoạn có độ dài ∆ 𝑓𝑟𝑎𝑚𝑒𝑠
Bước 1.2:
Loop duyệt qua từng phân đoạn 𝑠 𝑖
Bước 1.2.1:
Rút trích theo tỷ lệ 𝑛 𝑓𝑟𝑎𝑚𝑒 / 𝑔𝑖â𝑦
Bước 1.2.2:
Giảm kích thước khung ảnh về 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ
Bước 1.2.3:
Loại bỏ khung ảnh có dãy màu đồng nhất
End Loop
Bước 1.3:
Tạo danh sách khung ảnh cho phân đoạn 𝑠 𝑖
End Loop
Bước 2:
Trả về danh sách phân đoạn và các khung ảnh tương ứng cho
từng phân đoạn.
1.4.3 Bước 2 – Biểu diễn đặc trưng
Sau bước tiền xử lý dữ liệu, các đặc trưng thô được rút trích để tạo thành các vector đặc
trưng biểu diễn cho các ảnh. Đối với đặc trưng cục bộ, âm thanh và đặc trưng chuyển động, các
đặc trưng thô sau khi rút trích sẽ được chuẩn hóa bằng các kỹ thuật khác nhau (túi từ - Bag of
Words [88], hoặc Fisher Vector [66]).
Bước 2: Rút trích đặc trưng cho phân đoạn
Đầu vào:
𝑖
• Danh sách các phân đoạn của video 𝑣 𝑖 : 𝑆 𝑖 = {𝑠1𝑖 , 𝑠2 , … , 𝑠 𝑖𝑛𝑆ℎ𝑜𝑡 }
• Danh sách các khung ảnh cho từng phân đoạn 𝑠 𝑗𝑖 ,
𝑖
𝑖
𝑠 𝑗𝑖 = {𝑓𝑗,𝑘 : 𝑓𝑗,𝑘 ∈ ℕ 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗 𝑖 }, 𝑘 là thứ tự khung ảnh trong phân đoạn
•
Đầu ra:
•
Thuật
•
•
•
•
•
𝑠 𝑗𝑖 có 𝑛𝐾𝐹𝑗 𝑖 khung ảnh, 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ là chiều rộng và chiều cao của khung
ảnh sau khi được giảm kích thước.
Sử dụng hàm rút trích đặc trưng ℎ để tạo Vector đặc trưng cho từng
phân đoạn.
ℎ(𝑠 𝑗𝑖 ) = 𝑠𝑓𝑗 𝑖 , 𝑠𝑓𝑗 𝑖 ∈ ℝ 𝐷 , với 𝐷 là số chiều của vector đặc trưng.
Tập vector đặc trưng 𝑋 𝑖 cho các phân đoạn trong video 𝑣 𝑖 :
𝑖
𝑋 𝑖 = {𝑠𝑓 𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓 𝑛𝑆ℎ𝑜𝑡 }, với 𝑠𝑓𝑗 𝑖 là phân đoạn thứ 𝑗 trong video 𝑣 𝑖 có tổng
1
cộng 𝑛𝑆ℎ𝑜𝑡.
toán:
Bước 1:
Loop qua từng phân đoạn 𝑠 𝑗𝑖
Bước 1.1:
Rút trích đặc trưng thô trên khung ảnh
Bước 1.2:
Mã hóa đặc trưng (BoW, FV
Bước 1.3:
Pooling (max, avg) các đặc trưng trên khung
ảnh đặc trưng cho Phân đoạn 𝑠 𝑗𝑖
End Loop
Bước 2:
Trả về danh sách đặc trưng của các phân đoạn.
6
1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá
1.4.4.1 Huấn luyện mô hình
Bài toán phát hiện thông tin bạo lực là một dạng bài toán học có giám sát (supervised
learning). Trong luận án chúng tôi sử dụng phương pháp phổ biến là vector hỗ trợ (Support
Vector Machines - SVM[87]).
Bước 3a: Huấn luyện mô hình phân loại khái niệm
Đầu vào:
• Tập vector đặc trưng 𝑋 𝑖 cho các phân đoạn trong video 𝑣 𝑖 trong tập
huấn luyện:
𝑖
𝑋 𝑖 = {𝑠𝑓 𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓 𝑛𝑆ℎ𝑜𝑡 }, với 𝑠𝑓𝑗 𝑖 là phân đoạn thứ 𝑗 trong video 𝑣 𝑖 có tổng
1
cộng 𝑛𝑆ℎ𝑜𝑡.
• Cho G là tập huấn luyện với dữ liệu mẫu (ground truth): 𝐺 = {𝐺1 , 𝐺2 , . . , 𝐺 𝑛 }
mô tả nhãn kết quả của các phân đoạn trong video:
𝑖
𝑖 𝑖
G 𝑖 = {(𝑠1𝑖 , 𝑙1 ), (𝑠2 , 𝑙2 ), … , (𝑠 𝑖𝑚 , 𝑙 𝑖 𝑚 )}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑙 𝑗𝑖 = {0,1}.
o Nhãn 𝑙 𝑗𝑖 = {0,1} của phân đoạn j trong video 𝑣 𝑖 có giá trị (1 hoặc
0), tương ứng với việc phân đoạn này có được xem là bạo lực (1)
hay không (0).
Đầu ra:
• Hàm phân lớp 𝑡: ℝ 𝐷 ⟶ ℤ2 = {0,1} , trong đó D là số chiều của vector đặc
trưng.
• Hoặc hàm phân lớp với đầu ra xác suất 𝑡: ℝ 𝐷 ⟶ ℤ = [0,1], trong đó giá
trị càng gần 1 là xác suất bạo lực càng cao.
1.4.4.2 Đánh giá kết quả
Bước 3b: Đánh giá kết quả
Đầu vào:
• Tập vector đặc trưng 𝑋 𝑖 cho các phân đoạn trong video 𝑣 𝑖 trong tập
kiểm tra:
𝑖
𝑋 𝑖 = {𝑠𝑓 𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓 𝑛𝑆ℎ𝑜𝑡 }, với 𝑠𝑓𝑗 𝑖 là phân đoạn thứ 𝑗 trong video 𝑣 𝑖 có tổng
1
cộng 𝑛𝑆ℎ𝑜𝑡.
• Hàm phân lớp với đầu ra xác suất 𝑡: ℝ 𝐷 ⟶ ℤ = [0,1].
Đầu ra:
• Với mỗi video 𝑣 𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được
đánh giá xác suất (hay còn gọi là mức độ) bạo lực: 𝑟𝑒𝑠𝑢𝑙𝑡 𝑖 =
𝑖
𝑖
{(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1𝑖 ), (𝑠2 , 𝑠𝑐𝑜𝑟𝑒2 ), … , (𝑠 𝑖𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒 𝑖𝑛𝑆ℎ𝑜𝑡 )}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑠𝑐𝑜𝑟𝑒 𝑗𝑖 = [0,1], với
𝑠𝑐𝑜𝑟𝑒 𝑗𝑖 càng gần 1 thì càng bạo lực.
1.4.5 Bước 4 - Kết hợp kết quả
Do đặc trưng ngữ nghĩa cao và thể hiện đa dạng của bài toán phát hiện sự kiện nói chung
và bài toán phát hiện thông tin bạo lực nói chung, việc kết hợp sử dụng nhiều loại đặc trưng trên
các kênh thông tin khác nhau sẽ giúp tăng khả năng phân loại thông tin trong biểu diễn khái niệm.
Ở bước này chúng tôi tiến hành thực hiện: (1) kết hợp sớm các đặc trưng (early fusion): kết hợp
đặc trưng khung ảnh, kết hợp các bộ mô tả; (2) kết hợp trễ trên danh sách kết quả (late fusion):
lựa chọn đặc trưng kết hợp, hậu xử lý trên danh sách kết quả, tối ưu bộ kết hợp theo tài nguyên
tính toán.
1.4.6 Song song hóa việc rút trích đặc trưng
Để rút ngắn thời gian tính toán, chúng tôi đã thiết kế lại hệ thống VSD để chạy trên hệ
thống tính toán lưới GRID Computing (gồm ~500 Cores).
1.5 Đánh giá độ phức tạp của kiến trúc hệ thống
Ở bước tiền xử lý dữ liệu: chi phí tính toán phụ thuộc chủ yếu vào phương pháp chia phân
đoạn và tỷ lệ lấy mẫu khung ảnh trong một giây.. Tổng chi phí tính toán ở bước tiền xử lý dữ liệu
là:
7
𝑂( 𝑛) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛
(1.1)
Ở bước rút trích và biểu diễn đặc trưng: chi phí tính toán của các đặc trưng toàn cục không
đáng kể so với việc rút trích đặc trưng cục bộ và đặc trưng chuyển động. Độ phức tạp ở bước rút
trích đặc trưng là (cả hai giai đoạn: rút trích và mã hóa):
𝑂( 𝑛. 𝑚 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔
(1.2)
Đối với công đoạn huấn luyện và kiểm tra, độ phức tạp và thời gian thực hiện phụ thuộc
vào độ phức tạp của SVM. Độ phức tạp của bước huấn luyện là:
𝑂( 𝑛. 𝑚2 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔
(1.3)
Ở bước kiểm tra, mô hình SVM sử dụng lõi tuyến tính có độ phức tạp là 𝑂(𝐷), trong khi
mô hình SVM sử dụng lõi 𝜒 2 có độ phức tạp ở bước kiểm tra là 𝑂(𝑛 𝑠𝑣 𝐷), trong đó 𝑛 𝑠𝑣 là số lượng
support vector [13]. Như vậy độ phức tạp của bước kiểm tra là 𝑂( 𝑛 𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 𝑛 𝑐𝑙𝑢𝑠𝑡𝑒𝑟𝑠 𝑥𝑦), trong
đó 𝑛 𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 là số tượng phân đoạn cần đánh giá trong bộ dữ liệu kiểm tra.
Ở bước kết hợp kết quả, độ phức tạp của việc kết hợp trễ là 𝑂(𝑛 𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 . 𝑛 𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠 ), trong
đó 𝑛 𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠 là số lượng các đặc trưng trong bộ kết hợp.
Như vậy độ phức tạp của toàn bộ kiến trúc hệ thống (không tính các công đoạn huấn luyện
codebook trong mô hình Bow và FV) ở gian đoạn huấn luyện mô hình được tính như sau:
𝑂( 𝑛. 𝑚2 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 ℎ𝑢ấ𝑛 𝑙𝑢𝑦ệ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔
(1.4)
Ở giai đoạn kiểm tra đánh giá, độ phức tạp được tính như sau:
𝑂( 𝑛. 𝑚 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 đá𝑛ℎ 𝑔𝑖á, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔
(1.5)
1.6 Bộ dữ liệu MediaEval
Nhằm tìm hiểu bài toán phát hiện thông tin bạo lực và có được bộ dữ liệu nghiên cứu
chuẩn, từ năm 2012 chúng tôi tham gia vào Ban tổ chức của hội thảo MediaEval và tham gia vào
nhóm xây dựng bộ dữ liệu MediaEval-VSD3.
1.6.1 Giới thiệu MediaEval
1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD
1.6.3 Thông tin bộ dữ liệu
Bộ dữ liệu MediaEval VSD được xây dựng lần đầu năm 2011 và phát triển đến năm 2014.
Tổng thời gian của toàn bộ Bộ dữ liệu MediaEval VSD là 63.55 giờ.
1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu
1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu
1.6.6 Các độ đo
Từ năm 2013, Ban tổ chức MediaEval-VSD chuyển sang sử dụng các độ đo mAP (mean
Average Precision - độ chính xác trung bình).
𝑀𝐴𝑃2014 =
𝑉
𝑣=1 𝐴𝑃(𝑣)
𝑉
,
(1.6)
Trong đó V là số lượng video có trong bộ dữ liệu và AP độ chính xác trung bình cho từng video.
Bên cạnh đó, Ban tổ chức cũng sử dụng MAP2014-AT100, trong đó AP được tính bằng công
thức:
Bộ dữ liệu được công bố tại: http://www.technicolor.com/en/innovation/scientific-community/scientificdata-sharing/violent-scenes-dataset
3
8
𝐴𝑃 =
𝑛
𝑘=1(𝑃 ( 𝑘 )×𝑟𝑒𝑙 ( 𝑘 ))
𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑠ℎ𝑜𝑡𝑠
,
(1.7)
Trong đó P(k) là độ chính xác của top k phân đoạn có độ bạo lực cao nhất.
1.6.7 Các đóng góp trong việc xây dựng bộ dữ liệu
Tác giả luận án đóng vai trò là trưởng nhóm gán nhãn dữ liệu ở VN, cụ thể thực hiện các
công việc sau:
• Tổ chức nhóm gán nhãn ở Việt Nam: gán nhãn 31 bộ phim, hơn 60h video cho
tổng cộng 12 khái niệm.
• Đóng vai trò master annotators ,tham gia BTC (định nghĩa khái niệm, độ đo,
kiểm duyệt tất cả các trường hợp chưa rõ)
• Tham gia viết bài công bố bộ dữ liệu CBMI 2014 [CT9], 2015Error! Reference s
ource not found.
1.7 Kết luận
Trong chương này, chúng tôi giới thiệu tổng quan bài toán phát hiện thông tin bạo lực,
các thách thức và đánh giá các hướng tiếp cận tổng quan của bài toán, từ đó đề xuất một kiến trúc
tổng quan chung để tiến hành các thực nghiệm cho bài toán phát hiện thông tin bạo lực. Quá trình
phát triển và cải tiến kiến trúc tổng quan hệ thống được thực hiện song song với việc tham gia và
xây dựng bộ dữ liệu MediEval VSD. Kết quả của quá trình xây dựng bộ dữ liệu được công bố
trong các công trình Error! Reference source not found.[CT9].
Chương 2. ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC
CHO BÀI TOÁN VSD
Trong chương này, chúng tôi sử dụng các loại đặc trưng cấp thấp được rút trích từ nhiều
kênh thông tin khác nhau để biểu diễn khái niệm bạo lực. Thông qua việc đánh giá một cách hệ
thống các cấu hình đặc trưng khác nhau, chúng tôi có thể tối ưu hóa các bộ tham số của các đặc
trưng nhằm tăng độ chính xác trong việc phát hiện thông tin bạo lực.
Bên cạnh các đặc trưng được thiết kế sẵn, chúng tôi đề xuất sử dụng các đặc trưng học sâu
của các mô hình được huấn luyện sẵn trong một số thư viện CNN có sẵn như Alexnet, UvANet,
VGGnet. Thông qua việc đánh giá các đặc trưng được rút trích từ nhiều mô hình mạng nơ-ron
tích chập phổ biến, chúng tôi đề xuất sử dụng các đặc trưng ở tầng kế cuối cho việc biểu diễn
thông tin bạo lực, các đặc trưng này đem lại độ chính xác cao cho bài toán phát hiện thông tin
bạo lực
Chúng tôi tiến hành thử nghiệm trên bộ dữ liệu của bài toán MediaEval-VSD. Mục đích chính
của việc thử nghiệm này là lựa chọn được bộ tham số tối ưu cho bài toán phát hiện thông tin bạo
lực. Kết quả của nội dung nghiên cứu này được công bố trên hội nghị SocPar2013[CT3], một
phần trong bài tạp chí MTA2016 [CT1] và hội thảo MediaEval 2013,2014,2015
[CT5][CT6][CT7].
2.1 Giới thiệu
Để biểu diễn sự đa dạng của thông tin bạo lực trên máy tính, chúng tôi tiến hành thử nghiệm
các loại đặc trưng trên các kênh thông tin khác nhau:
• Đặc trưng khung ảnh: để xác định các thông tin liên quan đến cảnh (scene detection)
chúng tôi dựa vào đề xuất của [57], [81], [100] để lựa chọn các đặc trưng toàn cục trong
việc đánh giá: color moments, color histogram, edge orientation histogram, and local
binary patterns; để xác định các thông tin liên quan đến đối tượng (object detection),
chúng tôi sử dụng đặc trưng cục bộ theo đề xuất của [8], [38]: SIFT, Color-SIFT, and
Opponent-SIFT. Các đặc trưng trên khung ảnh được kỳ vọng giúp xác định được các
thông tin bạo lực dạng đối tượng và cảnh
9
•
•
•
Đặc trưng chuyển động: trong video thường chứa nhiều hành động, hành vi liên quan
đến bạo lực. Các đặc trưng chuyển động là một trong những cách tiếp cận tiên tiến nhất
để có thể xác định các hành động trên video. Dựa trên khảo sát các công trình liên quan
đến bài toán phát hiện hành động [9], [41], [95] và phát hiện sự kiện [60], [64], chúng
tôi đề xuất sử dụng đặc trưng được cải tiến của Dense Trajectory [96], với các bộ mô tả
Motion Boundary Histogram (MBH), Histograms of Oriented Gradients (HoG), and
Histograms of Optical Flow (HoF). Các đặc trưng này tận dụng ưu điểm của video (dãy
liên tục các khung ảnh có liên quan với nhau) so với các đặc trưng trên khung ảnh.
Đặc trưng âm thanh: chúng tôi sử dụng để xác định các tín hiệu âm thanh liên quan
đến bạo lực, thông thường các tín hiệu âm thanh rất dễ phân biệt và khó nhầm lẫn trong
các cảnh bạo lực (ví dụ như tiếng gào thét, tiếng nổ, tiếng súng ...). Đặc trưng MFCC
[73] đã chứng minh được tính hiệu quả trong các bài toàn phát hiện sự kiện [10], [39],
[60] và bài toán VSD [1], [40], [62], [102].
Đặc trưng học sâu được rút trích từ nhiều mô hình mạng nơ-ron tích chập: việc
huấn luyện một mô hình CNN riêng cho việc xác định thông tin bạo lực đòi hỏi nguồn
dữ liệu huấn luyện lớn, điều này hiện chưa khả thi với các bộ dữ liệu VSD hiện tại. Trong
khuôn khổ nghiên cứu này, chúng tôi thử nghiệm các đặc trưng được rút trích từ các mô
hình học sâu CNN để biểu diễn khái niệm bạo lực. Giống như cách tiếp cận fine-tuning
cho các mô hình CNN, chúng tôi sử dụng đặc trưng được rút trích từ các tầng kết nối đầy
đủ cuối của các mô hình CNN để biểu diễn cho khái niệm bạo lực.
Vấn đề 2.1: đánh giá đặc trưng
Đầu vào:
• Cho ℱ = {𝑓1 , 𝑓2 , … , 𝑓 𝑛 }là tập hợp các loại đặc trưng khác nhau, bao gồm:
o Đặc trưng trên khung ảnh (cục bộ, toàn cục, đặc trưng được
rút trích từ mô hình mạng nơ-ron tích chập)
o Đặc trưng chuyển động (chuyển động)
o Đặc trưng trên âm thanh
• Mỗi loại đặc trưng 𝑓𝑖 có 𝑓𝑚 𝑖 tham số, trong đó tham số 𝑝𝑎𝑟𝑎𝑚 𝑖,𝑘 có
miền giá trị là 𝔻 𝑖,𝑘 (𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛 𝑣à 1 ≤ 𝑘 ≤ 𝑚 𝑖 ). Gọi 𝔊(𝑓𝑖 ) là tập hợp các
cấu hình khác nhau cho loại đặc trưng 𝑓𝑖 , cụ thể là:
𝔊(𝑓𝑖 ) = {(𝑣 𝑖,1 , 𝑣 𝑖,2 , … , 𝑣 𝑖,𝑚 𝑖 ) ∈ 𝔻 𝑖,1 × 𝔻 𝑖,2 × 𝔻 𝑖,𝑚 𝑖 }
• Ví dụ: với loại đặc trưng toàn cục 𝑓𝑖 , cấu hình chủ yếu gồm độ mịn
(granularity), không gian màu (color space) và lượng hóa
(quantization).
𝔊(𝑓𝑖 ) = {(𝑔 𝑖 , 𝑐 𝑖 , 𝑞 𝑖 } với 𝑔 𝑖 ∈ 𝔻granularity , 𝑐 𝑖 ∈ 𝔻color 𝑠𝑝𝑎𝑐𝑒 , 𝑞 𝑖 ∈ 𝔻 𝑞𝑢𝑎𝑛𝑡𝑖𝑧𝑎𝑡𝑖𝑜𝑛
Đầu ra: cùng với các cấu hình
• Trong phạm vi vấn đề này, chúng tôi xét riêng từng loại đặc trưng
𝑓 ⊆ ℱ để tìm ra cấu hình tốt nhất 𝑐̂ ( 𝑓) ∈ 𝔊(𝑓) để đạt được kết quả
cao nhất trong việc phát hiện cảnh bạo lực trên video khi chỉ sử
dụng duy nhất một loại đặc trưng 𝑓 này.
• Gọi 𝑆𝑐𝑜𝑟𝑒(ϕ, 𝐶ϕ ) là độ chính xác đạt được khi đánh giá nhãn bạo lực
cho tập video 𝑉 sử dụng tập các loại đặc trưng ϕ ⊆ ℱ và tập cấu
hình 𝐶ϕ = {𝑐(𝑓𝑖 ) ∈ 𝔊(𝑓𝑖 ), ∀ 𝑓 ∈ ϕ}.
• Khi đó, mục tiêu của việc đánh giá để tìm cấu hình 𝑐̂ ( 𝑓) tốt nhất cho
từng loại đặc trưng 𝑓 ⊆ ℱ
• Đầu ra của việc đánh giá đặc trưng là các cấu hình tốt nhất 𝑐(𝑓) ∈
𝔊(𝑓) cho mỗi loại đặc trưng 𝑓 ⊆ ℱ
2.2 Đặc trưng cấp thấp
2.2.1 Các đặc trưng trên khung ảnh
2.2.1.1 Đặc trưng toàn cục
Chúng tôi sử dụng các đặc trưng về màu sắc, mẫu vân, góc cạnh, cụ thể là: color moments,
color histogram, edge orientation histogram, và local binary patterns [13], cùng với các cấu hình
10
khác nhau. Với loại đặc trưng toàn cục fi, cấu hình chủ yếu gồm độ mịn (granularity), không gian
màu (color space) và lượng hóa (quantization).
2.2.1.2 Đặc trưng cục bộ
Trong phần đánh giá các đặc trưng cục bộ, chúng tôi sử dụng đặc trưng thông dụng SIFT
và các đặc trưng SIFT mở rộng sử dụng thêm các thông tin màu: RGB-SIFT, Opponent-SIFT, và
C-SIFT [9] cùng với việc xác định các điểm đặc trưng bằng Hessian-Laplace [56] và lấy mẫu dày
(dense sampling) và chia khung ảnh thành các lưới n x m (không chồng lên nhau).
Thuật toán 2.1: Rút trích và mã hóa đặc trưng cục bộ dưới dạng BoW
Đầu vào:
• Danh sách các phân đoạn 𝑆 = {𝑠1 , 𝑠2 , . . , 𝑠 𝑚 }
• Danh sách các khung ảnh cho từng phân đoạn 𝑠 𝑖
• Tham số 𝑛 𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 , 𝑛 𝑠𝑎𝑚𝑝𝑙𝑒
• Tham số spatial pyramid (𝑥 × 𝑦) ∈ 𝔻granularity
Đầu ra:
• Vector đặc trưng cho từng phân đoạn.
Thuật toán:
• Bước 1:
Huấn luyện codebook
• Bước 1.1:
Rút trích ngẫu nhiên điểm 𝑛 𝑠𝑎𝑚𝑝𝑙𝑒 đặc trưng
• Bước 1.2:
Rút trích bộ mô tả
• Bước 1.3:
Phân nhóm 𝑛 𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 cluster bằng K-means
• Bước 1.4:
Tạo codebook
• Bước 2:
Loop từng khung ảnh trong DS khung ảnh của Phân đoạn 𝑠 𝑖
• Bước 2.1:
Chia không gian khung ảnh theo (𝑥 × 𝑦)
• Bước 2.1:
Xác định các điểm đặc trưng 𝔻keypoint detector
• Bước 2.1:
Rút trích các bộ mô tả cục bộ
• Bước 2.1:
Phân nhóm vào 𝑛 𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 cluster bằng phương thức
gán mềm.
• Bước 2.1:
Spatial Pyramid Pooling cho ảnh.
End Loop
• Bước 3:
Pooling các đặc trưng trên khung ảnh đặc trưng cho Phân
đoạn
2.2.2 Đặc trưng chuyển động
Trong Thuật toán 2.2, đặc trưng chuyển động (Dense Trajectory[91]) được rút trích trực
tiếp trên video theo từng phân đoạn. Trong từng phân đoạn, để tiết kiệm không gian lưu trữ đặc
trưng thô trước khi được mã hóa, hệ thống tiến hành rút trích đặc trưng và phân nhóm vào các
cụm chứ không lưu trữ lại thông tin đặc trưng thô.
Thuật toán 2.2: Rút trích đặc trưng chuyển động và mã hóa Fisher Vector
Đầu vào:
• Tập hợp gồm n video: 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣 𝑛 } với 𝑣 𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜, 1 ≤ 𝑖 ≤ 𝑛
• Danh sách các phân đoạn 𝑆 = {𝑠1 , 𝑠2 , . . , 𝑠 𝑚 }
• Tham số 𝑛 𝑠𝑐𝑎𝑙𝑒
• Tham số 𝑁 (vùng bao quanh Trajectory), 𝐿 (độ dài Trajectory)
• Tham số 𝑛 𝜎 × 𝑛 𝜎 × 𝑛 𝜏
Đầu ra:
• Các biểu diễn Fisher Vector cho mỗi phân đoạn ℊ 𝜆𝑋 ∈ ℝ 𝐾(2𝐷+1)
• Vector đặc trưng cho từng phân đoạn.
Thuật toán:
• Bước 1:
Huấn luyện codebook
• Bước 1.1:
Rút trích ngẫu nhiên các điểm
• Bước 1.2:
Rút trích bộ mô tả
• Bước 1.3:
Phân nhóm bằng GMM
• Bước 1.4: Tạo codebook
• Bước 2:
Loop từng khung ảnh trong DS khung ảnh của Phân đoạn 𝑠 𝑖
• Bước 2.1:
Xác định các điểm đặc trưng dense sampling
11
•
•
•
•
•
•
•
•
Bước
Bước
Bước
Bước
Bước
Bước
2.2:
2.3:
2.4:
2.5:
2.6:
2.7:
Bước 3:
đoạn
Theo vết Trajectory trong 𝐿 khung ảnh
Xác định vùng bao quanh điểm ảnh 𝑁 × 𝑁
Chia vùng bao quanh thành 𝑛 𝜎 × 𝑛 𝜎 × 𝑛 𝜏 ô
Rút trích các bộ mô tả cục bộ
Giảm số chiều bằng PCA
Phân nhóm vào Gaussian bằng phương thức gán mềm.
End Loop
Pooling các đặc trưng trên khung ảnh đặc trưng cho Phân
2.2.3 Đặc trưng âm thanh
chúng tôi sử dụng để xác định các tín hiệu âm thanh liên quan đến bạo lực, thông thường
các tín hiệu âm thanh rất dễ phân biệt và khó nhầm lẫn trong các cảnh bạo lực (ví dụ như tiếng
gào thét, tiếng nổ, tiếng súng ...). Đặc trưng MFCC [73] đã chứng minh được tính hiệu quả trong
các bài toàn phát hiện sự kiện [10], [39], [60] và bài toán VSD [1], [40], [62], [102].
2.3 Đặc trưng tự học được rút trích từ mô hình mạng nơ-ron tích chập
2.3.1 Giới thiệu
Học sâu (Deep Learning) là một hướng tiếp cận dựa trên một số ý tưởng từ não bộ tới
việc tiếp thu nhiều tầng biểu đạt, cả cụ thể lẫn trù tượng, qua đó làm rõ nghĩa của các loại dữ
liệu[27]. Đặc trưng học sâu được ứng dụng phổ biến trong nhận diện hình ảnh, nhận diện giọng
nói, xử lý ngôn ngữ tự nhiên.
2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN)
Về cơ bản, Convolutional Neural Network là một kiểu mạng nơ-ron nhân tạo truyền thẳng,
trong đó kiến trúc chính gồm nhiều thành phần (tầng) chính được ghép nối với nhau đó là:
Convolution, Pooling, Normalization, ReLU và Fully connected. CNN là một trong những mô
hình học sâu tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính
xác cao [4], [28].
Một số vấn đề của mạng nơ-ron tích chập
• Một trong những vấn đề lớn của các mô hình CNN là đòi hỏi lượng dữ liệu huấn luyện
đầu vào rất lớn [92]
• Mạng CNN vẫn chưa thể nhận biết được những thứ phức tạp, có khái niệm ngữ nghĩa
cao, ví dụ như các mối liên hệ thông thường.
Trên thực tế, nếu chúng ta không có các nguồn dữ liệu huấn luyện lớn như Google,
Facebook, hoặc ImageNet, chúng ta không thể xây dựng mô hình CNN hiệu quả. Transferlearning là một tiến trình giúp xây dựng một mạng CNN trên bộ dữ liệu mới (không lớn) bằng
cách chọn các mô hình được huấn luyện trước đó (pre-trained model trên các dữ liệu lớn) và tinh
chỉnh lại (fine-tuning) với dữ liệu huấn luyện mới của chính chúng ta. Trong Hình 2.1 là một ví
dụ về việc sử dụng đặc trưng trích xuất từ mô hình mạng nơ-ron tích chập để học khái niệm mới,
thay vì sử dụng các đặc trưng cục bộ được thiết kế thủ công thì chúng ta có thể sử dụng các đặc
trưng trích xuất từ mô hình mạng nơ-ron tích chập được tự học các tham số làm đầu vào cho quá
trình huấn luyện các bộ phân loại khái niệm.
2.3.3
12
Hình 2.1. Ví dụ sử dụng đặc trưng trích xuất từ mô hình mạng nơ-ron tích chập để làm đầu vào huấn
luyện bộ phận loại khái niệm [75]
2.3.4 Áp dụng đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho bài toán
VSD
Việc huấn luyện một mô hình CNN riêng cho việc xác định thông tin bạo lực đòi hỏi
nguồn dữ liệu huấn luyện lớn, điều này hiện chưa khả thi với các bộ dữ liệu VSD hiện tại. Trong
khuôn khổ nghiên cứu này, chúng tôi thử nghiệm các đặc trưng được rút trích từ các mô hình học
sâu CNN để biểu diễn khái niệm bạo lực. Việc huấn luyện khái niệm vẫn được thực hiện bằng
SVM. Trong phần này, chúng tôi tiến hành đánh giá chi tiết việc sử dụng các mô hình CNN của
AlexNet, VGGNet và UvANet cho bài toán phát hiện thông tin bạo lực.
2.3.4.1 AlexNet (2012) [4]
2.3.4.2 VGGNet (2014) [79]
2.3.4.3 UvANet (2016) [55]
2.4 Dữ liệu thử nghiệm
Chúng tôi tiến hành thực nghiệm trên bộ dữ liệu MediaEval VSD 2014 với phần dữ liệu
phim. Để cân bằng giữa chi phí tính toán và độ chính xác của hệ thống, qua thực nghiệm trong
MediaEval VSD 2011, 2012 [44], [89], ở bước tiền xử lý dữ liệu chúng tôi lựa chọn các tham số
như sau:
• Chiều dài phân đoạn: 5 giây
• Tần suất rút trích khung ảnh: 5 khung ảnh/ giây
• Kích thước khung ảnh: chiều rộng khung ảnh 500 pixels, chiều cao khung ảnh được
giảm theo tỷ lệ tương ứng.
Bộ dữ liệu được tổ chức như sau:
• Tập huấn luyện : dùng để huấn luyện khái niệm bạo lực, gồm 24 phim với tổng cộng
34,779 phân đoạn (chia đều 5 giây), tổng độ dài là 173,883 giây.
• Tập kiểm tra: dùng để đánh giá kết quả, gồm 7 phim với tổng cộng 10,006 phân đoạn
(chia đều 5 giây), tổng độ dài là 50,011 giây.
• Tổng thời gian của toàn bộ Bộ dữ liệu là 63.55 giờ, với 44,785 phân đoạn.
2.5 Phân tích kết quả
2.5.1 Đặc trưng toàn cục
Kết quả đánh giá thực nghiệm trên bộ dữ liệu MediaEval VSD cho thấy, với các đặc trưng
toàn cục:
• Các thể hiện của cảnh bạo lực có các thông tin màu sắc rất đa dạng, vì vậy việc sử
dụng các đặc trưng dựa trên các kênh màu khác nhau tỏ ra không hiệu quả bằng việc
sử dụng ảnh đơn màu (GRAY).
• Các đặc trưng góc cạnh và dạng vân cho kết quả tốt hơn đặc trưng màu
13
•
Max pooling cho kết quả tốt hơn Average pooling.
2.5.2 Đặc trưng cục bộ
Kết quả đánh giá thực nghiệm trên bộ dữ liệu MediaEval VSD cho thấy, với các đặc trưng
cục bộ:
• Phương pháp lấy điểm đặc trưng theo mẫu dày có kết quả tốt hơn hẳn phương thức
Harlap.
• Trong các đặc trưng dựa trên SIFT, đặc trưng SIFT mở rộng kênh màu RGB có kết
quả tốt nhất.
• Việc phân chia vùng không gian cũng giúp cải thiện kết quả khá rõ rệt. Việc chia
vùng không gian càng mịn càng giúp tăng độ chính xác
• Max pooling cho kết quả tốt hơn Avg pooing.
2.5.3 Đặc trưng chuyển động
Đặc trưng MBH không bị ảnh hưởng bởi chuyển động camera so với HoG và HoF (đã
được chứng minh trong [91]), vì vậy MBH có kết quả rất tốt cho VSD, trong khi đó thì HoG và
HoF có kết quả khá thấp (so với MBH và cả các đặc trưng cục bộ). Việc kết hợp cả 3 bộ mô tả
không giúp cải thiện hiệu năng của hệ thống.
2.5.4 Đặc trưng âm thanh
Việc sử dụng đặc trưng âm thanh cho bài toán phát hiện thông tin bạo lực không thực sự
hiệu quả về mặt độ chính xác do tính thể hiện đa dạng trong kênh âm thanh của cảnh bạo lực.
Tuy nhiên chúng ta có thể thấy kết quả của đặc trưng MFCC cũng khá tương đồng với các đặc
trưng toàn cục, kết quả MAP-AT100 cũng tương đối tốt thể hiện đặc trưng có tính phân loại cao
(nếu các cảnh bạo lực có đặc trưng rất riêng như có tiếng thét, tiếng súng, tiếng nổ), điều này sẽ
giúp cho việc kết hợp với các đặc trưng khác trở nên hiệu quả.
2.5.5 So sánh cách biểu diễn đặc trưng BoW và Fisher Vector
Bảng 2.1 Bảng so sánh cách mã hóa đặc trưng bằng Bag of Words và Fisher Vector
Feature
BoW_MAP2014 FV_MAP2014 BoW_MAP-AT100 FV_MAP-AT100
Densetrajectory - MBHHOFHOG
46.52%
50.77%
67.78%
73.23%
SIFT
33.82%
37.33%
59.40%
58.47%
MFCC
32.80%
34.09%
42.70%
45.89%
Kết quả thực nghiệm trong Bảng 2.1 cho thấy FV có kết quả tốt hơn 2-4% so với cách
biểu diễn BoW. Biểu diễn FV đặc biệt tỏ ra hiệu quả trên đặc trưng chuyển động trong bài toán
VSD vì tính phân loại thông tin cao.
2.5.6 Đặc trưng của mô hình AlexNet
Bảng 2.2 trình bày kết quả của các đặc trưng sử dụng các tầng cuối trong mô hình AlexNet.
Sum pooling và đặc trưng tầng fc7 cho kết quả tốt nhất.
Bảng 2.2 Kết quả sử dụng đặc trưng từ mô hình CNN AlexNet
STT
1
2
3
4
5
6
Đặc trưng
AlexNet_fc7.max
AlexNet_fc6.sum
AlexNet_fc7.sum
AlexNet_fc6.max
AlexNet_Full.max
AlexNet_Full.sum
MAP2014
47.30%
45.57%
45.20%
45.20%
35.92%
35.55%
2.5.7 Đặc trưng của mô hình VGGNet
Bảng 2.3 trình bày kết quả của cCác đặc trưng được rút trích từ mô hình VGGNet ở 3
tầng cuối, các tầng này cũng có số chiều tương tự như trong AlexNet. Phương pháp áp dụng max14
pooling và đặc trưng fc7 cho kết quả rất tốt. Kết quả của VGGNet hiện cho kết quả cao hơn
AlexNet (~3%) chứng minh các cải tiến của VGG trên mô hình của Alex đã phát huy tác dụng.
Bảng 2.3 Kết quả sử dụng đặc trưng rút trích từ mô hình VGGNet
STT
1
2
3
4
5
6
7
8
9
10
11
12
Đặc trưng
VGGNet_fc7-16.max
VGGNet_fc6-19.max
VGGNet_fc6-16.max
VGGNet_fc6-19.sum
VGGNet_fc7-19.max
VGGNet_fc6-16.sum
VGGNet_fc7-19.sum
VGGNet_fc7-16.sum
VGGNet_Full-19.sum
VGGNet_Full-16.sum
VGGNet_Full-16.max
VGGNet_Full-19.max
MAP2014
50.17%
50.02%
49.25%
49.12%
48.84%
47.60%
47.26%
47.19%
38.07%
37.91%
36.90%
36.76%
2.5.8 Đặc trưng của mô hình UvANet
Kết quả các đặc trưng được rút trích từ mô hình UvANet được trình bày trong Bảng 2.4,
phương pháp sử dụng max-pooling vẫn cho kết quả tốt hơn sum-pooling. Với kết quả giữa các
cấu hình 4k,8k,12k (~4000,8000,12000 khái niệm ở tầng kết nối đầy đủ) thật sự không có nhiều
sự chênh lệch. Việc sử dụng càng nhiều khái niệm sẽ không đem lại hiệu quả cao về độ chính xác
mà chi phí huấn luyện sẽ lớn.
Bảng 2.4 Kết quả sử dụng đặc trưng rút trích từ mô hình UvANet
STT
1
2
3
4
5
6
7
8
Đặc trưng
UvANet_bottomup_12k_Full.max
UvANet_topdown_4k_Full.max
UvANet_bottomup_12k_Full.sum
UvANet_bottomup_8k_Full.max
UvANet_bottomup_4k_Full.max
UvANet_bottomup_8k_Full.sum
UvANet_topdown_4k_Full.sum
UvANet_bottomup_4k_Full.sum
MAP2014
42.86%
42.47%
42.46%
42.32%
42.29%
40.82%
40.07%
39.60%
2.5.9 So sánh với các đặc trưng được thiết kế sẵn (hand-crafted)
Các đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho kết quả rất tốt cho bài
toán VSD, mặc dù chỉ là đặc trưng được rút trích trên ảnh, chưa tận dụng các thông tin không
gian và thời gian như đặc trưng chuyển động, nhưng vẫn cho kết quả rất tốt.
2.6 Phân tích trực quan
2.7 Kết luận
Việc đánh giá lại các đặc trưng phổ dụng trên tập dữ liệu mới là rất cần thiết. Với bộ tham
số được xác định tối ưu của từng loại đặc trưng, chúng tôi sẽ tiến hành đánh giá việc kết hợp các
đặc trưng cho bài toán phát hiện thông tin bạo lực trong Chương 4. Đây là tiền đề cho việc xây
dựng một hệ thống tích hợp đa đặc trưng bằng cách kết hợp các đặc trưng với cấu hình tốt nhất.
Kết quả việc đánh giá các đặc trưng được công bố trong hội nghị SocPar2013 [CT3] và
tạp chí MTA2016 [CT1], đồng thời cũng được sử dụng trong cuộc thi MediaEval VSD hàng năm
từ 2012 đến 2014 [CT7][CT5].
15
Chương 3. ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD
Các phương pháp rút trích đặc trưng cấp cao4 hiện đang là một trong những chủ đề được
quan tâm nghiên cứu gần đây.Cảnh bạo lực thường chứa các thông tin liên quan đặc trưng riêng,
thông qua quá trình xây dựng bộ dữ liệu, chúng tôi xác định các thuộc tính có liên quan đến các
cảnh bạo lực và xây dựng bộ dữ liệu huấn luyện cho các thuộc tính này. Trên cơ sở đó, chúng tôi
thiết kế một đặc trưng cấp cao dựa trên các thuộc tính liên quan để biểu diễn cảnh bạo lực. Đặc
trưng cấp cao dựa trên thuộc tính không những giúp xây dựng bộ phân loại đánh giá mức độ bạo
lực mà còn cung cấp thêm thông tin mô tả giàu ngữ nghĩa hơn. Kết quả của nội dung nghiên cứu
này là một bài báo hội nghị SoICT 2013 [CT4] và bài tạp chí MTA 2016 [CT1].
3.1 Giới thiệu
Do đặc trưng của các khái niệm, sự kiện đều mang tính ngữ nghĩa, đặc biệt là sự kiện.
Một khái niệm, sự kiện có thể có nhiều thể hiện và mang tính ngữ nghĩa cao, đôi khi còn phụ
thuộc vào suy nghĩ chủ quan của con người (ví dụ như khái niệm bạo lực, người thì nói cảnh này
là bạo lực, nhưng có thể người khác lại nói là không bạo lực). Chúng tôi tập trung nghiên cứu các
vấn đề chính sau:
• Biểu diễn cảnh bạo lực bằng các thuộc tính liên quan: để làm giảm khoảng cách về
mặt ngữ nghĩa, chúng tôi sử dụng các thuộc tính trung gian được lựa chọn trước để
biểu diễn cảnh bạo lực (xem Hình 3.1)
• Mô tả cảnh bạo lực: bên cạnh việc sử dụng các thuộc tính để quyết định cảnh bạo
lực, chúng ta có thể sử dụng các thuộc tính để mô tả thông tin cho một cảnh. Việc
cung cấp thêm thông tin mô tả giúp người dùng cuối có nhiều thông tin hơn đơn
thuần chỉ là quyết định có/không có bạo lực.
Cảnh bạo lực
Xác định
Khái niệm
Khoảng
cách ngữ
nghĩa thấp
ũ khí lạnh
Lửa
Máu
Máu
Đặc trưng
cấp cao
ũ khí
nóng
Nổ
Một vài khái niệm liên
quan đến bạo lực
ũ khí lạnh
Khoảng
cách ngữ
nghĩa cao
Chết chóc
Khoảng
cách ngữ
nghĩa thấp
Đặc trưng
cấp thấp
Đặc trưng biểu diễn trên máy tính
Hình 3.1 Giảm khoảng cách ngữ nghĩa bằng cách sử dụng các khái niệm liên quan (thuộc
tính) khi biểu diễn VSD
Thuật ngữ đặc trưng cấp cao được dùng chung cho các thuật ngữ tiếng Anh sau với nghĩa tương đương:
attribute (thuộc tính), mid-level feature.
4
16
- Xem thêm -