Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Phát hiện thông tin bạo lực trong video dựa trên đa đặc trưng mang tính ngữ nghĩ...

Tài liệu Phát hiện thông tin bạo lực trong video dựa trên đa đặc trưng mang tính ngữ nghĩa cao tt

.PDF
31
583
65

Mô tả:

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÂM QUANG VŨ PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO DỰA TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ NGHĨA CAO Chuyên ngành: Khoa Học Máy Tính Mã số ngành: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH CÔNG NGHỆ THÔNG TIN TP. Hồ Chí Minh năm 2018 Công trình được hoàn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh. Người hướng dẫn khoa học: 1. HDC: PGS.TS DƯƠNG ANH ĐỨC 2. HDP: TS. LÊ ĐÌNH DUY Phản biện 1: TS. Lê Thành Sách Phản biện 2: PGS.TS Vũ Đức Lung Phản biện 3: TS. Nguyễn Hồng Sơn Phản biện độc lập 1: PGS.TS. Phạm Thế Bảo Phản biện độc lập 2: TS. Nguyễn Hồng Sơn Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp cơ sở đào tạo họp tại Trường Đại Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tổng hợp Quốc gia Tp.HCM 2. Thư viện trường Đại học Khoa học Tự Nhiên-HCM MỤC LỤC PHẦN MỞ ĐẦU .................................................................................1 1) 2) 3) 4) 5) Giới thiệu động lực nghiên cứu và định hướng nghiên cứu ....................... 1 Mục đích, đối tượng và phạm vi nghiên cứu của luận án ........................... 1 Ý nghĩa khoa học và thực tiễn của luận án ................................................ 1 Các đóng góp chính của luận án ............................................................... 2 Bố cục luận án .......................................................................................... 2 Chương 1. TỔNG QUAN .................................................................3 1.1 Giới thiệu bài toán .................................................................................... 3 1.2 Các thách thức .......................................................................................... 4 1.3 Tổng quan các hướng tiếp cận và các công trình liên quan ........................ 4 1.3.1 Các hướng tiếp cận chung cho bài toán phát hiện sự kiện .................. 4 1.3.2 Các hướng tiếp cận đa đặc trưng cho bài bài toán VSD ...................... 4 1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao................................... 5 1.3.4 Các hướng tiếp cận kết hợp đặc trưng ................................................ 5 1.4 Giới thiệu hướng tiếp cận của luận án ....................................................... 5 1.4.1 Giới thiệu kiến trúc tổng quan ........................................................... 5 1.4.2 Bước 1 - Tiền xử lý dữ liệu................................................................ 5 1.4.3 Bước 2 – Biểu diễn đặc trưng ............................................................ 6 1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá............................................. 7 1.4.5 Bước 4 - Kết hợp kết quả................................................................... 7 1.4.6 Song song hóa việc rút trích đặc trưng ............................................... 7 1.5 Đánh giá độ phức tạp của kiến trúc hệ thống............................................. 7 1.6 Bộ dữ liệu MediaEval ............................................................................... 8 1.6.1 Giới thiệu MediaEval ........................................................................ 8 1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD ............................................... 8 1.6.3 Thông tin bộ dữ liệu .......................................................................... 8 1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu .................................. 8 1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu ..................................... 8 1.6.6 Các độ đo .......................................................................................... 8 1.6.7 Các đóng góp trong việc xây dựng bộ dữ liệu .................................... 9 1.7 Kết luận.................................................................................................... 9 Chương 2. ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI TOÁN VSD 9 2.1 Giới thiệu ................................................................................................. 9 2.2 Đặc trưng cấp thấp ................................................................................. 10 2.2.1 Các đặc trưng trên khung ảnh .......................................................... 10 2.2.2 Đặc trưng chuyển động.................................................................... 11 2.2.3 Đặc trưng âm thanh ......................................................................... 12 2.3 Đặc trưng tự học được rút trích từ mô hình mạng nơ-ron tích chập ......... 12 2.3.1 Giới thiệu ........................................................................................ 12 2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN) ......................................... 12 2.3.3 Một số vấn đề của mạng nơ-ron tích chập ........................................ 12 2.3.4 Áp dụng đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho bài toán VSD 13 2.4 Dữ liệu thử nghiệm................................................................................. 13 2.5 Phân tích kết quả .................................................................................... 13 2.5.1 Đặc trưng toàn cục .......................................................................... 13 i 2.5.2 Đặc trưng cục bộ ............................................................................. 14 2.5.3 Đặc trưng chuyển động.................................................................... 14 2.5.4 Đặc trưng âm thanh ......................................................................... 14 2.5.5 So sánh cách biểu diễn đặc trưng BoW và Fisher Vector ................. 14 2.5.6 Đặc trưng của mô hình AlexNet ...................................................... 14 2.5.7 Đặc trưng của mô hình VGGNet ..................................................... 14 2.5.8 Đặc trưng của mô hình UvANet ...................................................... 15 2.5.9 So sánh với các đặc trưng được thiết kế sẵn (hand-crafted) .............. 15 2.6 Phân tích trực quan ................................................................................. 15 2.7 Kết luận.................................................................................................. 15 Chương 3. ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD ......16 3.1 Giới thiệu ............................................................................................... 16 3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến bạo lực ................... 17 3.2.1 Giới thiệu các thuộc tính.................................................................. 17 3.2.2 Biểu diễn cảnh bạo lực bằng thuộc tính ........................................... 17 3.2.3 Thử nghiệm và đánh giá kết quả ...................................................... 18 3.3 So sánh giữa các đặc trưng dựa trên thuộc tính ....................................... 18 3.4 Tính ngữ nghĩa của kết quả..................................................................... 18 3.5 Kết luận.................................................................................................. 19 Chương 4. KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH TOÁN CHO VSD 19 4.1 Giới thiệu ............................................................................................... 19 4.2 Kết hợp đặc trưng ................................................................................... 20 4.2.1 Kết hợp đặc trưng trước khi huấn luyện (early fusion) ..................... 20 4.2.2 Kết hợp kết quả phân loại của các đặc trưng sau khi huấn luyện (late fusion) 20 4.3 Lựa chọn đặc trưng ................................................................................. 21 4.3.1 Giới thiệu ........................................................................................ 21 4.3.2 Phân tích kết quả từng loại đặc trưng riêng ...................................... 21 4.3.3 Đánh giá kết quả lựa chọn ............................................................... 21 4.4 Tối ưu tài nguyên tính toán ..................................................................... 22 4.4.1 Giới thiệu ........................................................................................ 22 4.4.2 Môi trường tính toán ....................................................................... 24 4.4.3 Chi phí rút trích đặc trưng ............................................................... 24 4.4.4 Đánh giá kết quả.............................................................................. 24 4.5 So sánh kết quả giữa các nhóm nghiên cứu ............................................. 25 4.6 Phân tích đánh giá .................................................................................. 26 4.7 Kết luận.................................................................................................. 26 Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................26 5.1 5.2 Những kết quả đạt được.......................................................................... 26 Hướng phát triển .................................................................................... 26 DANH MỤC CÔNG TRÌNH ...........................................................26 ii PHẦN MỞ ĐẦU 1) Giới thiệu động lực nghiên cứu và định hướng nghiên cứu Trong những năm qua, với sự bùng nổ của các kênh thông tin truyền thông đa phương tiện, mỗi ngày có hàng ngàn, hàng triệu video được chia sẻ qua mạng Bên cạnh những thông tin giải trí, các kiến thức bổ ích, các kênh thông tin truyền thông đa phương tiện còn có rất nhiều nội dung ảnh hưởng tiêu cực đến giới trẻ cần kiểm soát chặt chẽ (phim khiêu dâm, các nội dung bạo lực…), đặc biệt khi đối tượng xem là thanh thiếu niên và trẻ nhỏ. Tác động của những nội dung, thông tin không tốt có ảnh hưởng tiêu cực đến hành vi của giới trẻ. Trong khuôn khổ của luận án này, chúng tôi hướng tới việc giải quyết bài toán phát hiện thông tin bạo lực trong dữ liệu video (VSD – Violent Scenes Detection [21]). 2) Mục đích, đối tượng và phạm vi nghiên cứu của luận án Đầu vào của một hệ thống phát hiện thông tin bạo lực là một (hoặc nhiều) bộ phim, video clip. Hệ thống sẽ tự động phát hiện và gán nhãn các phân đoạn bạo lực trong phim, video clip. • Đối tượng nghiên cứu: Đối tượng nghiên cứu trong luận án này là các cảnh chứa thông tin bạo lực và các phương pháp phát hiện thông tin bạo lực trong dữ liệu video. Thông tin bạo lực bao gồm các đối tượng, cảnh, hành động, hành vi bạo lực gây ra sự tổn thương cho con người. Cảnh bạo lực được định nghĩa theo WHO1 trong bộ dữ liệu [24]: o Cảnh chứa các thông tin bạo lực không nên cho trẻ dưới 8 tuổi xem. o Thông tin bạo lực: các đối tượng, cảnh, hành động, sự kiện đe dọa hoặc làm tổn thương đến con người. • Mục đích nghiên cứu: Nghiên cứu và phát triển các phương pháp khai thác và biểu diễn thông tin bạo lực bằng các mô hình đặc trưng trên máy tính, phục vụ cho việc đánh giá mức độ bạo lực của các cảnh trong video với độ chính xác cao. • Phạm vi nghiên cứu: o Sử dụng định nghĩa cảnh bạo lực, thông tin bạo lực trong video theo WHO. o Phương pháp rút trích và biểu diễn đa đặc trưng thông tin bạo lực. o Đánh giá trên bộ dữ liệu chuẩn được cung cấp bởi MediaEval, bao gồm các phim Hollywood [76], với đầu vào là các bộ phim và đầu ra là các cảnh được đánh giá mức độ bạo lực. 3) Ý nghĩa khoa học và thực tiễn của luận án Về mặt khoa học, luận án tập trung đánh giá các mô hình đặc trưng trên nhiều kênh thông tin (kênh thông tin thị giác khai thác trên từng khung ảnh hoặc chuỗi khung ảnh - video, kênh âm thanh) để biểu diễn cảnh bạo lực. Từ đó, xác định các loại đặc trưng phù hợp và đề xuất phương pháp kết hợp các đặc trưng cho bài toán phát hiện thông tin bạo lực. Kết quả của nghiên cứu này giúp các nhóm nghiên cứu có cơ sở lựa chọn các đặc trưng phù hợp theo yêu cầu, làm nền tảng cho việc cải tiến độ chính xác, chi phí tính toán trong các nghiên cứu về sau, tiết kiệm thời gian thử nghiệm lại từng loại đặc trưng. Về mặt thực tiễn, mô hình hệ thống và các đánh giá thực nghiệm là nền tảng để phát triển các ứng dụng phát hiện thông tin bạo lực, kiểm duyệt phim, xếp hạng các bộ phim theo mức độ bạo lực một cách tự động (rating), kiểm duyệt thông tin bạo lực trên các kênh truyền thông đa phương tiện trên Internet. 1 http://www.who.int/violenceprevention/approach/definition/en/ 1 4) Các đóng góp chính của luận án Bài toán phát hiện cảnh bạo lưc trong video (VSD - Violent Scene Detection) là một dạng bài toán phát hiện sự kiện (MED - Multimedia Event Detection), trong đó thách thức lớn nhất của dạng bài toán này là tính ngữ nghĩa và độ phức tạp cao thể hiện qua sự xuất hiện của các đối tượng, người, cảnh vật và tương tác giữa chúng. Để giải quyết các vấn đề này, hướng tiếp cận kết hợp đa đặc trưng đã được chứng minh là phổ biến và hiệu quả cho bài toán MED. Do đó, đây cũng là hướng tiếp cận được dùng để giải quyết bài toán VSD trong luận án này. Thách thức chính đối với hướng tiếp cận đa đặc trưng đó là số lượng đặc trưng nhiều, độ phức tạp tính toán và hiệu quả của mỗi đặc trưng khác nhau. Do đó, mục tiêu của luận án là tìm một tập đặc trưng vừa đủ (compact) sao cho độ chính xác của hệ thống cao trong khi chi phí tính toán thấp. Để hiện thực mục tiêu này, một framework đã được thiết kế để cho phép đánh giá nhiều loại đặc trưng từ nhiều modal khác nhau (như ảnh, video, âm thanh), và một thuật toán đơn giản nhưng hiệu quả đã được đề xuất để kết hợp các loại đặc trưng sao cho thỏa mãn ràng buộc cân bằng giữa độ chính xác và chi phí tính toán. Hệ thống đề xuất đã được đánh giá trên tập dữ liệu chuẩn (public benchmark) cho bài toán này, và cho kết quả tốt nhất so với các phương pháp kết hợp đa đặc trưng khác. Đây là đóng góp quan trọng nhất của luận án và đã được công bố trên tạp chí MTA [CT1] và hội nghị SoCPaR [CT3]. Bên cạnh việc phân loại cảnh bạo lực, luận án cũng đề xuất cách biểu diễn cảnh bạo lực sử dụng đặc trưng cấp cao dựa trên các thuộc tính liên quan đến bạo lực. Việc sử dụng các đặc trưng cấp thấp chỉ giúp phân loại khái niệm mà chưa thể giải quyết các bài toán có mức độ ngữ nghĩa cao như VSD. Khác với các hướng tiếp cận sử dụng đặc trưng cấp cao thường được sử dụng trong việc phân loại khái niệm, luận án đề xuất thiết kế đặc trưng cấp cao giúp bổ sung minh chứng liên quan đến cảnh bạo lực (ví dụ: cảnh bạo lực có đánh nhau, có máu và người bị thương hay cảnh cháy nổ có thương vong) giúp giảm khoảng cách ngữ nghĩa và tính chủ quan của khái niệm. Quá trình thiết kế và đánh giá đặc trưng cấp cao dựa trên thuộc tính được công bố trong [CT4] và được trình bày trong Chương 3 của luận án. Với tính ngữ nghĩa cao và sự đa dạng về mặt thể hiện của khái niệm bạo lực, để khai thác toàn diện thông tin liên quan đến cảnh bạo lực trong biểu diễn và nhận dạng, chúng tôi đề xuất mô hình kết hợp đa đặc trưng dựa trên sự chọn lọc các đặc trưng phù hợp và có tính bổ trợ cao. Tuy nhiên, với khối lượng thông tin lớn trong video, việc kết hợp nhiều đặc trưng sẽ dẫn tới thách thức về tài nguyên tính toán. Để hạn chế thách thức này, chúng tôi đề xuất các mô hình kết hợp đa đặc trưng tối ưu theo tài nguyên, hướng đến việc triển khai một ứng dụng thực tiễn trong tương lai. Kết quả được công bố trong [CT2] và được trình bày trong Chương 4 của luận án. Trong quá trình nghiên cứu, chúng tôi cũng tham gia xây dựng các bộ dữ liệu và phương pháp đánh giá chuẩn trong MediaEval Benchmarking VSD Error! Reference source not f ound.[CT9], đồng thời cũng phát triển hệ thống và gửi kết quả đánh giá trong hội thảo MediaEval VSD hàng năm [CT5][CT7][CT6]. Quá trình tham gia xây dựng bộ dữ liệu được trình bày chi tiết trong Chương 1 của luận án. Dựa trên các kết quả nghiên cứu, chúng tôi đã xây dựng hệ thống hỗ trợ phát hiện thông tin bạo lực (lọt vào chung kết cuộc thi Nhân Tài đất Việt 2014) và đã đăng ký giải pháp hữu ích để bảo hộ cho hệ thống được đề xuất tại Việt Nam. 5) Bố cục luận án • • • • • • Luận án được bố cục theo các chương mục như sau: PHẦN MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN CHƯƠNG 2: ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI TOÁN VSD CHƯƠNG 3: ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD CHƯƠNG 4: KẾT HỢP ĐA ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH TOÁN CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 2 Chương 1. TỔNG QUAN Trong chương này, chúng tôi giới thiệu về bài toán giải quyết trong luận án: Phát hiện thông tin bạo lực trong video; tầm quan trọng và các thách thức khi giải quyết bài toán này. Sau đó, chúng tôi giới thiệu sơ lược về các cách tiếp cận được sử dụng rộng rãi hiện nay được kế thừa từ bài toán phát hiện sự kiện trong video; từ đó, giới thiệu hướng tiếp cận của chúng tôi khi thực hiện luận án này. Bên cạnh đó, chúng tôi cũng trình bày kiến trúc hệ thống được chúng tôi xây dựng để thực hiện các thí nghiệm cho luận án và giới thiệu quá trình tham gia xây dựng bộ dữ liệu chuẩn cho bài toán phát hiện thông tin bạo lực Error! Reference source not found.[CT9]. 1.1 Giới thiệu bài toán Bài toán VSD được giải quyết dưới dạng bài toán học có giám sát (supervised learning methods) tổ chức qua hai giai đoạn ngoại tuyến (huấn luyện mô hình) và giai đoạn trực tuyến (đánh giá kết quả). Hệ thống VSD với hai giai đoạn được minh họa trong Hình 1.1: Giai đoạn huấn luyện (Offline ) Dữ liệu huấn luyện Rút trích đặc trưng 0 0 1 1 0 0 1 1 ct r đặc trưng Huấn luyện Mô hình 0 0 Video được gán nhãn 1: bạo lực 0: không bạo lực Giai đoạn kiểm tra (Online) Kết quả đánh giá Dữ liệu kiểm tra Rút trích đặc trưng ct r đặc trưng Phân lớp 0 1 1 1 0 0 0 1 Phát hiện thông tin bạ lực tr ng dữ liệu id 0 1 0 0 1 0 0 1 D/S phân đoạn được gán nhãn bạo lực Hình 1.1 Hai giai đoạn trong hệ thống hỗ trợ phát hiện thông tin bạo lực Hệ thống VSD được tổ chức thành hai giai đoạn như mô tả trong Hình 1.1. Ở giai đoạn đầu (thực hiện ngoại tuyến - offline), dựa vào các dữ liệu huấn luyện được gán sẵn các nhãn bạo lực, hệ thống tiến hành rút trích và biểu diễn các đặc trưng trên máy tính từ dữ liệu video đầu vào, sau đó sẽ sử dụng các phương pháp học giám sát để huấn luyện mô hình máy học có khả năng đánh giá, phân loại khái niệm bạo lực. Ở giai đoạn tiếp theo (thực hiện trực tuyến - online), hệ thống sẽ sử dụng các mô hình huấn luyện ở bước đầu để tiến hành đánh giá các dữ liệu cần kiểm tra. Trong phạm vi của luận án, chúng tôi sẽ tập trung chính vào bước rút trích và biểu diễn đặc trưng trên máy tính cho khái niệm bạo lực. Trong phạm vi luận án, bài toán VSD được đặc tả cụ thể như sau: Vấn đề 1.1: Bài toán phát hiện thông tin bạo lực tổng quát Đầu vào: • Cho V là tập hợp gồm 𝑛 video: 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣 𝑛 } với 𝑣 𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜, 1≤ 𝑖 ≤ 𝑛 𝑖 • Mỗi video 𝑣 𝑖 là một tập hợp các phân đoạn 𝑣 𝑖 = {𝑠1𝑖 , 𝑠2 , … , 𝑠 𝑖𝑚 }, với phân đoạn trong video 𝑣 𝑖 • ℎ là hàm rút trích biểu diễn đặc trưng : ℎ: ℕ 𝐻×𝑊×𝐿 ⟶ ℝ 𝐷 , 𝐻, 𝑊 là chiều cao và rộng của khung ảnh 𝑠 𝑗𝑖 ⟼ ℎ(𝑠 𝑗𝑖 ), 𝐿 là số khung ảnh trong phân đoạn 𝐷 là chiều dài của vector đặc trưng • 𝑡 là hàm phân lớp: 𝑡: ℝ 𝐷 ⟶ ℤ2 = {0,1}, 𝑚 là số 3 ℎ(𝑠 𝑗𝑖 ) ⟼ 𝑙 𝑗𝑖 𝑙 𝑗𝑖 là nhãn của phân đoạn thứ 𝑗 trong video 𝑣 𝑖 có giá trị 0 = không bạo lực, 1= bạo lực. Đầu ra: • Với mỗi video 𝑣 𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được gán 𝑖 𝑖 𝑖 nhãn bạo lực 𝑟𝑒𝑠𝑢𝑙𝑡 𝑖 = {(𝑠1𝑖 , 𝑙1 ), (𝑠2 , 𝑙2 ), … , (𝑠 𝑖𝑚 , 𝑙 𝑖 𝑚 )}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑙 𝑗𝑖 = {0,1}. Bài toán cần giải quyết: ℎ • 𝑡 𝑠 𝑗𝑖 → ℎ(𝑠 𝑗𝑖 ) → 𝑙 𝑗𝑖 , trong đó chúng tôi tập trung vào giải quyết việc biểu diễn đặc trưng của khái niệm bạo lực (hàm ℎ). 1.2 Các thách thức Bài toán phát hiện thông tin bạo lực trong dữ liệu video là một dạng của bài toán phát hiện sự kiện. Đây là bài toán có nhiều thách thức, nên các kết quả hiện tại vẫn còn chưa đáp ứng được nhu cầu thực tế [21]. a) Tính đa dạng, đa thể hiện của khái niệm bạo lực là một trong những thách thức lớn của bài toán VSD. Theo định nghĩa từ MediaEval và WHO2, cảnh bạo lực là cảnh có những hành động gây ra sự thương vong cho con người [75]. b) Tính ngữ nghĩa cao: bên cạnh sự thể hiện đa dạng, khái niệm bạo lực phụ thuộc rất nhiều vào nhận định chủ quan của con người. Tùy thuộc vào lứa tuổi, văn hóa, quan điểm bạo lực của mỗi người sẽ nhận định khái niệm bạo lực khác nhau. c) Tài nguyên: việc xử lý trên dữ liệu video đòi hỏi tài nguyên lưu trữ và tính toán lớn. Ví dụ để xử lý rút trích đặc trưng cho một giờ video, nếu sử dụng đặc trưng trên khung ảnh, chúng ta phải rút trích và xử lý 90.000 khung ảnh (25 khung ảnh/ giây). d) Dữ liệu cho bài toán học giám sát: với đặc tính ngữ nghĩa cao, việc xây dựng bộ dữ liệu huấn luyện dựa trên khái niệm được định nghĩa cũng là một thách thức. 1.3 Tổng quan các hướng tiếp cận và các công trình liên quan Phát hiện thông tin bạo lực là một dạng của bài toán phát hiện sự kiện trong video. Thông thường, mỗi sự kiện có nhiều thể hiện đa dạng, mang tính ngữ nghĩa cao nên các hướng tiếp cận đều sử dụng kết hợp đa đặc trưng để biểu diễn sự kiện, tuy nhiên chưa có nhiều nghiên cứu tương tự cho bài toán phát hiện thông tin bạo lực. Kể từ sau năm 2011, khi MediEval và công ty Technicolor đưa ra bộ dữ liệu MediaEval VSD[76], nhiều nhóm nghiên cứu đã cùng tham gia giải quyết bài toán trên bộ dữ liệu chuẩn này. 1.3.1 Các hướng tiếp cận chung cho bài toán phát hiện sự kiện Bài toán phát hiện thông tin bạo lực trong video là dạng bài toán phát hiện sự kiện trong dữ liệu đa phương tiện (MED - multimedia event detection) đang phổ biến hiện nay. Bài toán phát hiện thông tin bạo lực của MediEval mà luận án đang giải quyết được xây dựng trên dữ liệu phim Hollywood (video dài, được biên tập nội dung, có độ phân giải cao và nhiều kỹ xảo) và tính ngữ nghĩa của khái niệm cao hơn. 1.3.2 Các hướng tiếp cận đa đặc trưng cho bài bài toán VSD Đặc điểm chung của các công trình trong giai đoạn này là sử dụng các khái niệm liên quan đến bạo lực để thay thế cho khái niệm bạo lực. Việc sử dụng các định nghĩa mang tính chủ quan cao không giải quyết bài toán một cách tổng quát và mất đi sự thể hiện đa dạng của khái niệm, phạm vi và độ phức tạp của bài toán cũng giảm đáng kể. Từ năm 2011, khi MediaEval VSD phát triển định nghĩa hình thức của khái niệm bạo lực và công bố kèm bộ dữ liệu chuẩn, nhiều nhóm nghiên cứu trên thế giới đã tham gia vào MediaEval VSD qua các năm và nhiều công trình đã được công bố [21]. Các hướng tiếp cận chung của các bài toán là việc áp dụng đa đặc trưng trên nhiều kênh thông tin từ ảnh, âm thanh, video và các cách kết hợp đặc trưng sao cho hiệu quả. Các nhóm nghiên cứu thường công bố kết quả của việc 2 http://www.who.int/violenceprevention/approach/definition/en/ 4 sử dụng đặc trưng nhưng không công bố cấu hình các đặc trưng sử dụng, cũng như các kết quả công bố thường được kết hợp (fusion) giữa nhiều loại đặc trưng khác nhau nên rất khó để đánh giá kết quả của từng loại đặc trưng riêng biệt. Khác với các công trình nghiên cứu khác, luận án đánh giá một cách hệ thống từng loại đặc trưng và cách kết hợp hiệu quả cho bài toán VSD. 1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao Bên cạnh các hướng tiếp cận biểu diễn bằng đặc trưng cấp thấp, chúng ta cần những cách tiếp cận giàu ngữ nghĩa cho việc biểu diễn cảnh bạo lực. Một số cách tiếp cận sử dụng thuộc tính (attributes) để giải quyết các bài toán nhận dạng đối tượng (như Object Bank [48]), phân lớp cảnh sử dụng thuộc tính là các đối tượng như [49], nhận dạng hành động bằng cách sử dụng ngân hàng các hành động như [71]. Đặc điểm chung của các công trình trước đây sử dụng các thuộc tính biểu diễn cho cảnh, hành động đơn giản, chưa mang tính ngữ nghĩa cao như các sự kiện (liên quan đến nhiều thể hiện, nhiều cảnh, hành vi khác nhau). Trong luận án này, chúng tôi chọn cách tiếp cận thiết kế một đặc trưng cấp cao dựa trên các thuộc tính liên quan để biểu diễn cảnh bạo lực. Đây là cách tiếp cận sử dụng đặc trưng cấp cao đầu tiên cho bài toán MediaEval VSD. 1.3.4 Các hướng tiếp cận kết hợp đặc trưng Đối với bài toán VSD, việc sử dụng kết hợp nhiều đặc trưng đã chứng minh hiệu quả, tuy nhiên hiện tại đa số các công trình đều tập trung vào việc lựa chọn đặc trưng mà không quan tâm đến chi phí tính toán của các loại đặc trưng này[75]. Khác với các công trình liên quan, chúng tôi tiến hành lựa chọn các đặc trưng phù hợp cho việc kết hợp, đánh giá lại các phương thức kết hợp đặc trưng (kết hợp sớm, kết hợp trễ, kết hợp trên phân đoạn) cho bài toán phát hiện thông tin bạo lực trên bộ dữ liệu của MediaEval VSD. Ngoài ra chúng tôi cũng xác định chi phí tính toán trong việc rút trích các loại đặc trưng, từ đó đề xuất các bộ cấu hình đặc trưng tối ưu trong điều kiện hạn chế tài nguyên tính toán, các đánh giá và đề xuất này là cơ sở để triển khai các ứng dụng trong thế giới thực. 1.4 Giới thiệu hướng tiếp cận của luận án 1.4.1 Giới thiệu kiến trúc tổng quan Chúng tôi xây dựng hệ thống hỗ trợ phát hiện thông tin bạo lực trên nền tảng tham khảo các hệ thống hỗ trợ phát hiện sự kiện [40], [65], [96]. Hệ thống chúng tôi xây dựng có khả năng rút trích các đặc trưng trên nhiều kênh thông tin. Bên cạnh đó, hệ thống cũng được thiết kế để thực hiện các tính toán song song trên hệ thống GRID Computing. Kiến trúc hệ thống được minh họa trong Hình 1.2 bên dưới. Dữ liệu huấn luyện 0 0 1 1 0 0 TIỀN XỬ LÝ 1 1 Dữ liệu đánh giá 0 0 BIỂU DIỄN ĐẶC TRƯNG HUẤN LUYỆN VÀ ĐÁNH GIÁ PHÂN ĐOẠN RÚT TRÍCH KHUNG ẢNH CHUẨN HÓA KÍCH THƯỚC RÚT TRÍCH ĐẶC TRƯNG MÃ HÓA ĐẶC TRƯNG HUẤN LUYỆN MÔ HÌNH ĐÁNH GIÁ/ PHÂN LỚP TỔNG HỢP KẾT QUẢ KẾT HỢP KẾT QUẢ HẬU XỬ LÝ TĂNG ĐỘ CHÍNH XÁC Hình 1.2. Kiến trúc tổng quan của hệ thống hỗ trợ phát hiện thông tin bạo lực Bước 1 - Tiền xử lý dữ liệu Dữ liệu đầu vào của bài toán VSD thường là các phim hoặc video clip có chiều dài khác nhau. Mục tiêu của bài toán là xác định các phân đoạn có chứa thông tin bạo lực, vì vậy ở bước đầu tiên hệ thống sẽ thực hiện: (1) Phân chia video thành các phân đoạn; (2) trích khung ảnh từ các phân đoạn (3) chuẩn hóa kích thước. Cụ thể bước tiền xử lý dữ liệu được đặc tả tổng quát như sau: 1.4.2 Bước 1: Tiền xử lý dữ liệu Đầu vào: • Danh sách video 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣 𝑛 } với 𝑣 𝑖 ∈ 𝑉, 1 ≤ 𝑖 ≤ 𝑛 5 • Độ dài của một phân đoạn ∆ 𝑓𝑟𝑎𝑚𝑒𝑠 • Số lượng khung ảnh 𝑛 𝑓𝑟𝑎𝑚𝑒 rút trích trên 1 giây • Kích thước khung ảnh 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ Đầu ra: 𝑖 • Danh sách các phân đoạn của từng video 𝑣 𝑖 : 𝑆 𝑖 = {𝑠1𝑖 , 𝑠2 , … , 𝑠 𝑖𝑛𝑆ℎ𝑜𝑡 }. 𝑖 • Danh sách các khung ảnh cho từng phân đoạn 𝑠 𝑗 , 𝑖 𝑖 𝑠 𝑗𝑖 = {𝑓𝑗,𝑘 : 𝑓𝑗,𝑘 ∈ ℕ 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗 𝑖 }, 𝑘 là thứ tự khung ảnh trong phân Thuật • • • • • • • • • đoạn 𝑠 𝑗𝑖 có 𝑛𝐾𝐹𝑗 𝑖 khung ảnh, 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ là chiều rộng và chiều cao của khung ảnh sau khi được giảm kích thước. toán: Bước 1: Loop duyệt qua từng video 𝑣 𝑖 Bước 1.1: Chia video thành các phân đoạn có độ dài ∆ 𝑓𝑟𝑎𝑚𝑒𝑠 Bước 1.2: Loop duyệt qua từng phân đoạn 𝑠 𝑖 Bước 1.2.1: Rút trích theo tỷ lệ 𝑛 𝑓𝑟𝑎𝑚𝑒 / 𝑔𝑖â𝑦 Bước 1.2.2: Giảm kích thước khung ảnh về 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ Bước 1.2.3: Loại bỏ khung ảnh có dãy màu đồng nhất End Loop Bước 1.3: Tạo danh sách khung ảnh cho phân đoạn 𝑠 𝑖 End Loop Bước 2: Trả về danh sách phân đoạn và các khung ảnh tương ứng cho từng phân đoạn. 1.4.3 Bước 2 – Biểu diễn đặc trưng Sau bước tiền xử lý dữ liệu, các đặc trưng thô được rút trích để tạo thành các vector đặc trưng biểu diễn cho các ảnh. Đối với đặc trưng cục bộ, âm thanh và đặc trưng chuyển động, các đặc trưng thô sau khi rút trích sẽ được chuẩn hóa bằng các kỹ thuật khác nhau (túi từ - Bag of Words [88], hoặc Fisher Vector [66]). Bước 2: Rút trích đặc trưng cho phân đoạn Đầu vào: 𝑖 • Danh sách các phân đoạn của video 𝑣 𝑖 : 𝑆 𝑖 = {𝑠1𝑖 , 𝑠2 , … , 𝑠 𝑖𝑛𝑆ℎ𝑜𝑡 } • Danh sách các khung ảnh cho từng phân đoạn 𝑠 𝑗𝑖 , 𝑖 𝑖 𝑠 𝑗𝑖 = {𝑓𝑗,𝑘 : 𝑓𝑗,𝑘 ∈ ℕ 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗 𝑖 }, 𝑘 là thứ tự khung ảnh trong phân đoạn • Đầu ra: • Thuật • • • • • 𝑠 𝑗𝑖 có 𝑛𝐾𝐹𝑗 𝑖 khung ảnh, 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ là chiều rộng và chiều cao của khung ảnh sau khi được giảm kích thước. Sử dụng hàm rút trích đặc trưng ℎ để tạo Vector đặc trưng cho từng phân đoạn. ℎ(𝑠 𝑗𝑖 ) = 𝑠𝑓𝑗 𝑖 , 𝑠𝑓𝑗 𝑖 ∈ ℝ 𝐷 , với 𝐷 là số chiều của vector đặc trưng. Tập vector đặc trưng 𝑋 𝑖 cho các phân đoạn trong video 𝑣 𝑖 : 𝑖 𝑋 𝑖 = {𝑠𝑓 𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓 𝑛𝑆ℎ𝑜𝑡 }, với 𝑠𝑓𝑗 𝑖 là phân đoạn thứ 𝑗 trong video 𝑣 𝑖 có tổng 1 cộng 𝑛𝑆ℎ𝑜𝑡. toán: Bước 1: Loop qua từng phân đoạn 𝑠 𝑗𝑖 Bước 1.1: Rút trích đặc trưng thô trên khung ảnh Bước 1.2: Mã hóa đặc trưng (BoW, FV Bước 1.3: Pooling (max, avg) các đặc trưng trên khung ảnh  đặc trưng cho Phân đoạn 𝑠 𝑗𝑖 End Loop Bước 2: Trả về danh sách đặc trưng của các phân đoạn. 6 1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá 1.4.4.1 Huấn luyện mô hình Bài toán phát hiện thông tin bạo lực là một dạng bài toán học có giám sát (supervised learning). Trong luận án chúng tôi sử dụng phương pháp phổ biến là vector hỗ trợ (Support Vector Machines - SVM[87]). Bước 3a: Huấn luyện mô hình phân loại khái niệm Đầu vào: • Tập vector đặc trưng 𝑋 𝑖 cho các phân đoạn trong video 𝑣 𝑖 trong tập huấn luyện: 𝑖 𝑋 𝑖 = {𝑠𝑓 𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓 𝑛𝑆ℎ𝑜𝑡 }, với 𝑠𝑓𝑗 𝑖 là phân đoạn thứ 𝑗 trong video 𝑣 𝑖 có tổng 1 cộng 𝑛𝑆ℎ𝑜𝑡. • Cho G là tập huấn luyện với dữ liệu mẫu (ground truth): 𝐺 = {𝐺1 , 𝐺2 , . . , 𝐺 𝑛 } mô tả nhãn kết quả của các phân đoạn trong video: 𝑖 𝑖 𝑖 G 𝑖 = {(𝑠1𝑖 , 𝑙1 ), (𝑠2 , 𝑙2 ), … , (𝑠 𝑖𝑚 , 𝑙 𝑖 𝑚 )}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑙 𝑗𝑖 = {0,1}. o Nhãn 𝑙 𝑗𝑖 = {0,1} của phân đoạn j trong video 𝑣 𝑖 có giá trị (1 hoặc 0), tương ứng với việc phân đoạn này có được xem là bạo lực (1) hay không (0). Đầu ra: • Hàm phân lớp 𝑡: ℝ 𝐷 ⟶ ℤ2 = {0,1} , trong đó D là số chiều của vector đặc trưng. • Hoặc hàm phân lớp với đầu ra xác suất 𝑡: ℝ 𝐷 ⟶ ℤ = [0,1], trong đó giá trị càng gần 1 là xác suất bạo lực càng cao. 1.4.4.2 Đánh giá kết quả Bước 3b: Đánh giá kết quả Đầu vào: • Tập vector đặc trưng 𝑋 𝑖 cho các phân đoạn trong video 𝑣 𝑖 trong tập kiểm tra: 𝑖 𝑋 𝑖 = {𝑠𝑓 𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓 𝑛𝑆ℎ𝑜𝑡 }, với 𝑠𝑓𝑗 𝑖 là phân đoạn thứ 𝑗 trong video 𝑣 𝑖 có tổng 1 cộng 𝑛𝑆ℎ𝑜𝑡. • Hàm phân lớp với đầu ra xác suất 𝑡: ℝ 𝐷 ⟶ ℤ = [0,1]. Đầu ra: • Với mỗi video 𝑣 𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được đánh giá xác suất (hay còn gọi là mức độ) bạo lực: 𝑟𝑒𝑠𝑢𝑙𝑡 𝑖 = 𝑖 𝑖 {(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1𝑖 ), (𝑠2 , 𝑠𝑐𝑜𝑟𝑒2 ), … , (𝑠 𝑖𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒 𝑖𝑛𝑆ℎ𝑜𝑡 )}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑠𝑐𝑜𝑟𝑒 𝑗𝑖 = [0,1], với 𝑠𝑐𝑜𝑟𝑒 𝑗𝑖 càng gần 1 thì càng bạo lực. 1.4.5 Bước 4 - Kết hợp kết quả Do đặc trưng ngữ nghĩa cao và thể hiện đa dạng của bài toán phát hiện sự kiện nói chung và bài toán phát hiện thông tin bạo lực nói chung, việc kết hợp sử dụng nhiều loại đặc trưng trên các kênh thông tin khác nhau sẽ giúp tăng khả năng phân loại thông tin trong biểu diễn khái niệm. Ở bước này chúng tôi tiến hành thực hiện: (1) kết hợp sớm các đặc trưng (early fusion): kết hợp đặc trưng khung ảnh, kết hợp các bộ mô tả; (2) kết hợp trễ trên danh sách kết quả (late fusion): lựa chọn đặc trưng kết hợp, hậu xử lý trên danh sách kết quả, tối ưu bộ kết hợp theo tài nguyên tính toán. 1.4.6 Song song hóa việc rút trích đặc trưng Để rút ngắn thời gian tính toán, chúng tôi đã thiết kế lại hệ thống VSD để chạy trên hệ thống tính toán lưới GRID Computing (gồm ~500 Cores). 1.5 Đánh giá độ phức tạp của kiến trúc hệ thống Ở bước tiền xử lý dữ liệu: chi phí tính toán phụ thuộc chủ yếu vào phương pháp chia phân đoạn và tỷ lệ lấy mẫu khung ảnh trong một giây.. Tổng chi phí tính toán ở bước tiền xử lý dữ liệu là: 7 𝑂( 𝑛) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 (1.1) Ở bước rút trích và biểu diễn đặc trưng: chi phí tính toán của các đặc trưng toàn cục không đáng kể so với việc rút trích đặc trưng cục bộ và đặc trưng chuyển động. Độ phức tạp ở bước rút trích đặc trưng là (cả hai giai đoạn: rút trích và mã hóa): 𝑂( 𝑛. 𝑚 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔 (1.2) Đối với công đoạn huấn luyện và kiểm tra, độ phức tạp và thời gian thực hiện phụ thuộc vào độ phức tạp của SVM. Độ phức tạp của bước huấn luyện là: 𝑂( 𝑛. 𝑚2 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔 (1.3) Ở bước kiểm tra, mô hình SVM sử dụng lõi tuyến tính có độ phức tạp là 𝑂(𝐷), trong khi mô hình SVM sử dụng lõi 𝜒 2 có độ phức tạp ở bước kiểm tra là 𝑂(𝑛 𝑠𝑣 𝐷), trong đó 𝑛 𝑠𝑣 là số lượng support vector [13]. Như vậy độ phức tạp của bước kiểm tra là 𝑂( 𝑛 𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 𝑛 𝑐𝑙𝑢𝑠𝑡𝑒𝑟𝑠 𝑥𝑦), trong đó 𝑛 𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 là số tượng phân đoạn cần đánh giá trong bộ dữ liệu kiểm tra. Ở bước kết hợp kết quả, độ phức tạp của việc kết hợp trễ là 𝑂(𝑛 𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 . 𝑛 𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠 ), trong đó 𝑛 𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠 là số lượng các đặc trưng trong bộ kết hợp. Như vậy độ phức tạp của toàn bộ kiến trúc hệ thống (không tính các công đoạn huấn luyện codebook trong mô hình Bow và FV) ở gian đoạn huấn luyện mô hình được tính như sau: 𝑂( 𝑛. 𝑚2 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 ℎ𝑢ấ𝑛 𝑙𝑢𝑦ệ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔 (1.4) Ở giai đoạn kiểm tra đánh giá, độ phức tạp được tính như sau: 𝑂( 𝑛. 𝑚 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 đá𝑛ℎ 𝑔𝑖á, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔 (1.5) 1.6 Bộ dữ liệu MediaEval Nhằm tìm hiểu bài toán phát hiện thông tin bạo lực và có được bộ dữ liệu nghiên cứu chuẩn, từ năm 2012 chúng tôi tham gia vào Ban tổ chức của hội thảo MediaEval và tham gia vào nhóm xây dựng bộ dữ liệu MediaEval-VSD3. 1.6.1 Giới thiệu MediaEval 1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD 1.6.3 Thông tin bộ dữ liệu Bộ dữ liệu MediaEval VSD được xây dựng lần đầu năm 2011 và phát triển đến năm 2014. Tổng thời gian của toàn bộ Bộ dữ liệu MediaEval VSD là 63.55 giờ. 1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu 1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu 1.6.6 Các độ đo Từ năm 2013, Ban tổ chức MediaEval-VSD chuyển sang sử dụng các độ đo mAP (mean Average Precision - độ chính xác trung bình). 𝑀𝐴𝑃2014 = 𝑉 𝑣=1 𝐴𝑃(𝑣) 𝑉 , (1.6) Trong đó V là số lượng video có trong bộ dữ liệu và AP độ chính xác trung bình cho từng video. Bên cạnh đó, Ban tổ chức cũng sử dụng MAP2014-AT100, trong đó AP được tính bằng công thức: Bộ dữ liệu được công bố tại: http://www.technicolor.com/en/innovation/scientific-community/scientificdata-sharing/violent-scenes-dataset 3 8 𝐴𝑃 = 𝑛 𝑘=1(𝑃 ( 𝑘 )×𝑟𝑒𝑙 ( 𝑘 )) 𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑠ℎ𝑜𝑡𝑠 , (1.7) Trong đó P(k) là độ chính xác của top k phân đoạn có độ bạo lực cao nhất. 1.6.7 Các đóng góp trong việc xây dựng bộ dữ liệu Tác giả luận án đóng vai trò là trưởng nhóm gán nhãn dữ liệu ở VN, cụ thể thực hiện các công việc sau: • Tổ chức nhóm gán nhãn ở Việt Nam: gán nhãn 31 bộ phim, hơn 60h video cho tổng cộng 12 khái niệm. • Đóng vai trò master annotators ,tham gia BTC (định nghĩa khái niệm, độ đo, kiểm duyệt tất cả các trường hợp chưa rõ) • Tham gia viết bài công bố bộ dữ liệu CBMI 2014 [CT9], 2015Error! Reference s ource not found. 1.7 Kết luận Trong chương này, chúng tôi giới thiệu tổng quan bài toán phát hiện thông tin bạo lực, các thách thức và đánh giá các hướng tiếp cận tổng quan của bài toán, từ đó đề xuất một kiến trúc tổng quan chung để tiến hành các thực nghiệm cho bài toán phát hiện thông tin bạo lực. Quá trình phát triển và cải tiến kiến trúc tổng quan hệ thống được thực hiện song song với việc tham gia và xây dựng bộ dữ liệu MediEval VSD. Kết quả của quá trình xây dựng bộ dữ liệu được công bố trong các công trình Error! Reference source not found.[CT9]. Chương 2. ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI TOÁN VSD Trong chương này, chúng tôi sử dụng các loại đặc trưng cấp thấp được rút trích từ nhiều kênh thông tin khác nhau để biểu diễn khái niệm bạo lực. Thông qua việc đánh giá một cách hệ thống các cấu hình đặc trưng khác nhau, chúng tôi có thể tối ưu hóa các bộ tham số của các đặc trưng nhằm tăng độ chính xác trong việc phát hiện thông tin bạo lực. Bên cạnh các đặc trưng được thiết kế sẵn, chúng tôi đề xuất sử dụng các đặc trưng học sâu của các mô hình được huấn luyện sẵn trong một số thư viện CNN có sẵn như Alexnet, UvANet, VGGnet. Thông qua việc đánh giá các đặc trưng được rút trích từ nhiều mô hình mạng nơ-ron tích chập phổ biến, chúng tôi đề xuất sử dụng các đặc trưng ở tầng kế cuối cho việc biểu diễn thông tin bạo lực, các đặc trưng này đem lại độ chính xác cao cho bài toán phát hiện thông tin bạo lực Chúng tôi tiến hành thử nghiệm trên bộ dữ liệu của bài toán MediaEval-VSD. Mục đích chính của việc thử nghiệm này là lựa chọn được bộ tham số tối ưu cho bài toán phát hiện thông tin bạo lực. Kết quả của nội dung nghiên cứu này được công bố trên hội nghị SocPar2013[CT3], một phần trong bài tạp chí MTA2016 [CT1] và hội thảo MediaEval 2013,2014,2015 [CT5][CT6][CT7]. 2.1 Giới thiệu Để biểu diễn sự đa dạng của thông tin bạo lực trên máy tính, chúng tôi tiến hành thử nghiệm các loại đặc trưng trên các kênh thông tin khác nhau: • Đặc trưng khung ảnh: để xác định các thông tin liên quan đến cảnh (scene detection) chúng tôi dựa vào đề xuất của [57], [81], [100] để lựa chọn các đặc trưng toàn cục trong việc đánh giá: color moments, color histogram, edge orientation histogram, and local binary patterns; để xác định các thông tin liên quan đến đối tượng (object detection), chúng tôi sử dụng đặc trưng cục bộ theo đề xuất của [8], [38]: SIFT, Color-SIFT, and Opponent-SIFT. Các đặc trưng trên khung ảnh được kỳ vọng giúp xác định được các thông tin bạo lực dạng đối tượng và cảnh 9 • • • Đặc trưng chuyển động: trong video thường chứa nhiều hành động, hành vi liên quan đến bạo lực. Các đặc trưng chuyển động là một trong những cách tiếp cận tiên tiến nhất để có thể xác định các hành động trên video. Dựa trên khảo sát các công trình liên quan đến bài toán phát hiện hành động [9], [41], [95] và phát hiện sự kiện [60], [64], chúng tôi đề xuất sử dụng đặc trưng được cải tiến của Dense Trajectory [96], với các bộ mô tả Motion Boundary Histogram (MBH), Histograms of Oriented Gradients (HoG), and Histograms of Optical Flow (HoF). Các đặc trưng này tận dụng ưu điểm của video (dãy liên tục các khung ảnh có liên quan với nhau) so với các đặc trưng trên khung ảnh. Đặc trưng âm thanh: chúng tôi sử dụng để xác định các tín hiệu âm thanh liên quan đến bạo lực, thông thường các tín hiệu âm thanh rất dễ phân biệt và khó nhầm lẫn trong các cảnh bạo lực (ví dụ như tiếng gào thét, tiếng nổ, tiếng súng ...). Đặc trưng MFCC [73] đã chứng minh được tính hiệu quả trong các bài toàn phát hiện sự kiện [10], [39], [60] và bài toán VSD [1], [40], [62], [102]. Đặc trưng học sâu được rút trích từ nhiều mô hình mạng nơ-ron tích chập: việc huấn luyện một mô hình CNN riêng cho việc xác định thông tin bạo lực đòi hỏi nguồn dữ liệu huấn luyện lớn, điều này hiện chưa khả thi với các bộ dữ liệu VSD hiện tại. Trong khuôn khổ nghiên cứu này, chúng tôi thử nghiệm các đặc trưng được rút trích từ các mô hình học sâu CNN để biểu diễn khái niệm bạo lực. Giống như cách tiếp cận fine-tuning cho các mô hình CNN, chúng tôi sử dụng đặc trưng được rút trích từ các tầng kết nối đầy đủ cuối của các mô hình CNN để biểu diễn cho khái niệm bạo lực. Vấn đề 2.1: đánh giá đặc trưng Đầu vào: • Cho ℱ = {𝑓1 , 𝑓2 , … , 𝑓 𝑛 }là tập hợp các loại đặc trưng khác nhau, bao gồm: o Đặc trưng trên khung ảnh (cục bộ, toàn cục, đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập) o Đặc trưng chuyển động (chuyển động) o Đặc trưng trên âm thanh • Mỗi loại đặc trưng 𝑓𝑖 có 𝑓𝑚 𝑖 tham số, trong đó tham số 𝑝𝑎𝑟𝑎𝑚 𝑖,𝑘 có miền giá trị là 𝔻 𝑖,𝑘 (𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛 𝑣à 1 ≤ 𝑘 ≤ 𝑚 𝑖 ). Gọi 𝔊(𝑓𝑖 ) là tập hợp các cấu hình khác nhau cho loại đặc trưng 𝑓𝑖 , cụ thể là: 𝔊(𝑓𝑖 ) = {(𝑣 𝑖,1 , 𝑣 𝑖,2 , … , 𝑣 𝑖,𝑚 𝑖 ) ∈ 𝔻 𝑖,1 × 𝔻 𝑖,2 × 𝔻 𝑖,𝑚 𝑖 } • Ví dụ: với loại đặc trưng toàn cục 𝑓𝑖 , cấu hình chủ yếu gồm độ mịn (granularity), không gian màu (color space) và lượng hóa (quantization). 𝔊(𝑓𝑖 ) = {(𝑔 𝑖 , 𝑐 𝑖 , 𝑞 𝑖 } với 𝑔 𝑖 ∈ 𝔻granularity , 𝑐 𝑖 ∈ 𝔻color 𝑠𝑝𝑎𝑐𝑒 , 𝑞 𝑖 ∈ 𝔻 𝑞𝑢𝑎𝑛𝑡𝑖𝑧𝑎𝑡𝑖𝑜𝑛 Đầu ra: cùng với các cấu hình • Trong phạm vi vấn đề này, chúng tôi xét riêng từng loại đặc trưng 𝑓 ⊆ ℱ để tìm ra cấu hình tốt nhất 𝑐̂ ( 𝑓) ∈ 𝔊(𝑓) để đạt được kết quả cao nhất trong việc phát hiện cảnh bạo lực trên video khi chỉ sử dụng duy nhất một loại đặc trưng 𝑓 này. • Gọi 𝑆𝑐𝑜𝑟𝑒(ϕ, 𝐶ϕ ) là độ chính xác đạt được khi đánh giá nhãn bạo lực cho tập video 𝑉 sử dụng tập các loại đặc trưng ϕ ⊆ ℱ và tập cấu hình 𝐶ϕ = {𝑐(𝑓𝑖 ) ∈ 𝔊(𝑓𝑖 ), ∀ 𝑓 ∈ ϕ}. • Khi đó, mục tiêu của việc đánh giá để tìm cấu hình 𝑐̂ ( 𝑓) tốt nhất cho từng loại đặc trưng 𝑓 ⊆ ℱ • Đầu ra của việc đánh giá đặc trưng là các cấu hình tốt nhất 𝑐(𝑓) ∈ 𝔊(𝑓) cho mỗi loại đặc trưng 𝑓 ⊆ ℱ 2.2 Đặc trưng cấp thấp 2.2.1 Các đặc trưng trên khung ảnh 2.2.1.1 Đặc trưng toàn cục Chúng tôi sử dụng các đặc trưng về màu sắc, mẫu vân, góc cạnh, cụ thể là: color moments, color histogram, edge orientation histogram, và local binary patterns [13], cùng với các cấu hình 10 khác nhau. Với loại đặc trưng toàn cục fi, cấu hình chủ yếu gồm độ mịn (granularity), không gian màu (color space) và lượng hóa (quantization). 2.2.1.2 Đặc trưng cục bộ Trong phần đánh giá các đặc trưng cục bộ, chúng tôi sử dụng đặc trưng thông dụng SIFT và các đặc trưng SIFT mở rộng sử dụng thêm các thông tin màu: RGB-SIFT, Opponent-SIFT, và C-SIFT [9] cùng với việc xác định các điểm đặc trưng bằng Hessian-Laplace [56] và lấy mẫu dày (dense sampling) và chia khung ảnh thành các lưới n x m (không chồng lên nhau). Thuật toán 2.1: Rút trích và mã hóa đặc trưng cục bộ dưới dạng BoW Đầu vào: • Danh sách các phân đoạn 𝑆 = {𝑠1 , 𝑠2 , . . , 𝑠 𝑚 } • Danh sách các khung ảnh cho từng phân đoạn 𝑠 𝑖 • Tham số 𝑛 𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 , 𝑛 𝑠𝑎𝑚𝑝𝑙𝑒 • Tham số spatial pyramid (𝑥 × 𝑦) ∈ 𝔻granularity Đầu ra: • Vector đặc trưng cho từng phân đoạn. Thuật toán: • Bước 1: Huấn luyện codebook • Bước 1.1: Rút trích ngẫu nhiên điểm 𝑛 𝑠𝑎𝑚𝑝𝑙𝑒 đặc trưng • Bước 1.2: Rút trích bộ mô tả • Bước 1.3: Phân nhóm 𝑛 𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 cluster bằng K-means • Bước 1.4: Tạo codebook • Bước 2: Loop từng khung ảnh trong DS khung ảnh của Phân đoạn 𝑠 𝑖 • Bước 2.1: Chia không gian khung ảnh theo (𝑥 × 𝑦) • Bước 2.1: Xác định các điểm đặc trưng 𝔻keypoint detector • Bước 2.1: Rút trích các bộ mô tả cục bộ • Bước 2.1: Phân nhóm vào 𝑛 𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 cluster bằng phương thức gán mềm. • Bước 2.1: Spatial Pyramid Pooling cho ảnh. End Loop • Bước 3: Pooling các đặc trưng trên khung ảnh  đặc trưng cho Phân đoạn 2.2.2 Đặc trưng chuyển động Trong Thuật toán 2.2, đặc trưng chuyển động (Dense Trajectory[91]) được rút trích trực tiếp trên video theo từng phân đoạn. Trong từng phân đoạn, để tiết kiệm không gian lưu trữ đặc trưng thô trước khi được mã hóa, hệ thống tiến hành rút trích đặc trưng và phân nhóm vào các cụm chứ không lưu trữ lại thông tin đặc trưng thô. Thuật toán 2.2: Rút trích đặc trưng chuyển động và mã hóa Fisher Vector Đầu vào: • Tập hợp gồm n video: 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣 𝑛 } với 𝑣 𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜, 1 ≤ 𝑖 ≤ 𝑛 • Danh sách các phân đoạn 𝑆 = {𝑠1 , 𝑠2 , . . , 𝑠 𝑚 } • Tham số 𝑛 𝑠𝑐𝑎𝑙𝑒 • Tham số 𝑁 (vùng bao quanh Trajectory), 𝐿 (độ dài Trajectory) • Tham số 𝑛 𝜎 × 𝑛 𝜎 × 𝑛 𝜏 Đầu ra: • Các biểu diễn Fisher Vector cho mỗi phân đoạn ℊ 𝜆𝑋 ∈ ℝ 𝐾(2𝐷+1) • Vector đặc trưng cho từng phân đoạn. Thuật toán: • Bước 1: Huấn luyện codebook • Bước 1.1: Rút trích ngẫu nhiên các điểm • Bước 1.2: Rút trích bộ mô tả • Bước 1.3: Phân nhóm bằng GMM • Bước 1.4: Tạo codebook • Bước 2: Loop từng khung ảnh trong DS khung ảnh của Phân đoạn 𝑠 𝑖 • Bước 2.1: Xác định các điểm đặc trưng dense sampling 11 • • • • • • • • Bước Bước Bước Bước Bước Bước 2.2: 2.3: 2.4: 2.5: 2.6: 2.7: Bước 3: đoạn Theo vết Trajectory trong 𝐿 khung ảnh Xác định vùng bao quanh điểm ảnh 𝑁 × 𝑁 Chia vùng bao quanh thành 𝑛 𝜎 × 𝑛 𝜎 × 𝑛 𝜏 ô Rút trích các bộ mô tả cục bộ Giảm số chiều bằng PCA Phân nhóm vào Gaussian bằng phương thức gán mềm. End Loop Pooling các đặc trưng trên khung ảnh  đặc trưng cho Phân 2.2.3 Đặc trưng âm thanh chúng tôi sử dụng để xác định các tín hiệu âm thanh liên quan đến bạo lực, thông thường các tín hiệu âm thanh rất dễ phân biệt và khó nhầm lẫn trong các cảnh bạo lực (ví dụ như tiếng gào thét, tiếng nổ, tiếng súng ...). Đặc trưng MFCC [73] đã chứng minh được tính hiệu quả trong các bài toàn phát hiện sự kiện [10], [39], [60] và bài toán VSD [1], [40], [62], [102]. 2.3 Đặc trưng tự học được rút trích từ mô hình mạng nơ-ron tích chập 2.3.1 Giới thiệu Học sâu (Deep Learning) là một hướng tiếp cận dựa trên một số ý tưởng từ não bộ tới việc tiếp thu nhiều tầng biểu đạt, cả cụ thể lẫn trù tượng, qua đó làm rõ nghĩa của các loại dữ liệu[27]. Đặc trưng học sâu được ứng dụng phổ biến trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngôn ngữ tự nhiên. 2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN) Về cơ bản, Convolutional Neural Network là một kiểu mạng nơ-ron nhân tạo truyền thẳng, trong đó kiến trúc chính gồm nhiều thành phần (tầng) chính được ghép nối với nhau đó là: Convolution, Pooling, Normalization, ReLU và Fully connected. CNN là một trong những mô hình học sâu tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao [4], [28]. Một số vấn đề của mạng nơ-ron tích chập • Một trong những vấn đề lớn của các mô hình CNN là đòi hỏi lượng dữ liệu huấn luyện đầu vào rất lớn [92] • Mạng CNN vẫn chưa thể nhận biết được những thứ phức tạp, có khái niệm ngữ nghĩa cao, ví dụ như các mối liên hệ thông thường. Trên thực tế, nếu chúng ta không có các nguồn dữ liệu huấn luyện lớn như Google, Facebook, hoặc ImageNet, chúng ta không thể xây dựng mô hình CNN hiệu quả. Transferlearning là một tiến trình giúp xây dựng một mạng CNN trên bộ dữ liệu mới (không lớn) bằng cách chọn các mô hình được huấn luyện trước đó (pre-trained model trên các dữ liệu lớn) và tinh chỉnh lại (fine-tuning) với dữ liệu huấn luyện mới của chính chúng ta. Trong Hình 2.1 là một ví dụ về việc sử dụng đặc trưng trích xuất từ mô hình mạng nơ-ron tích chập để học khái niệm mới, thay vì sử dụng các đặc trưng cục bộ được thiết kế thủ công thì chúng ta có thể sử dụng các đặc trưng trích xuất từ mô hình mạng nơ-ron tích chập được tự học các tham số làm đầu vào cho quá trình huấn luyện các bộ phân loại khái niệm. 2.3.3 12 Hình 2.1. Ví dụ sử dụng đặc trưng trích xuất từ mô hình mạng nơ-ron tích chập để làm đầu vào huấn luyện bộ phận loại khái niệm [75] 2.3.4 Áp dụng đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho bài toán VSD Việc huấn luyện một mô hình CNN riêng cho việc xác định thông tin bạo lực đòi hỏi nguồn dữ liệu huấn luyện lớn, điều này hiện chưa khả thi với các bộ dữ liệu VSD hiện tại. Trong khuôn khổ nghiên cứu này, chúng tôi thử nghiệm các đặc trưng được rút trích từ các mô hình học sâu CNN để biểu diễn khái niệm bạo lực. Việc huấn luyện khái niệm vẫn được thực hiện bằng SVM. Trong phần này, chúng tôi tiến hành đánh giá chi tiết việc sử dụng các mô hình CNN của AlexNet, VGGNet và UvANet cho bài toán phát hiện thông tin bạo lực. 2.3.4.1 AlexNet (2012) [4] 2.3.4.2 VGGNet (2014) [79] 2.3.4.3 UvANet (2016) [55] 2.4 Dữ liệu thử nghiệm Chúng tôi tiến hành thực nghiệm trên bộ dữ liệu MediaEval VSD 2014 với phần dữ liệu phim. Để cân bằng giữa chi phí tính toán và độ chính xác của hệ thống, qua thực nghiệm trong MediaEval VSD 2011, 2012 [44], [89], ở bước tiền xử lý dữ liệu chúng tôi lựa chọn các tham số như sau: • Chiều dài phân đoạn: 5 giây • Tần suất rút trích khung ảnh: 5 khung ảnh/ giây • Kích thước khung ảnh: chiều rộng khung ảnh 500 pixels, chiều cao khung ảnh được giảm theo tỷ lệ tương ứng. Bộ dữ liệu được tổ chức như sau: • Tập huấn luyện : dùng để huấn luyện khái niệm bạo lực, gồm 24 phim với tổng cộng 34,779 phân đoạn (chia đều 5 giây), tổng độ dài là 173,883 giây. • Tập kiểm tra: dùng để đánh giá kết quả, gồm 7 phim với tổng cộng 10,006 phân đoạn (chia đều 5 giây), tổng độ dài là 50,011 giây. • Tổng thời gian của toàn bộ Bộ dữ liệu là 63.55 giờ, với 44,785 phân đoạn. 2.5 Phân tích kết quả 2.5.1 Đặc trưng toàn cục Kết quả đánh giá thực nghiệm trên bộ dữ liệu MediaEval VSD cho thấy, với các đặc trưng toàn cục: • Các thể hiện của cảnh bạo lực có các thông tin màu sắc rất đa dạng, vì vậy việc sử dụng các đặc trưng dựa trên các kênh màu khác nhau tỏ ra không hiệu quả bằng việc sử dụng ảnh đơn màu (GRAY). • Các đặc trưng góc cạnh và dạng vân cho kết quả tốt hơn đặc trưng màu 13 • Max pooling cho kết quả tốt hơn Average pooling. 2.5.2 Đặc trưng cục bộ Kết quả đánh giá thực nghiệm trên bộ dữ liệu MediaEval VSD cho thấy, với các đặc trưng cục bộ: • Phương pháp lấy điểm đặc trưng theo mẫu dày có kết quả tốt hơn hẳn phương thức Harlap. • Trong các đặc trưng dựa trên SIFT, đặc trưng SIFT mở rộng kênh màu RGB có kết quả tốt nhất. • Việc phân chia vùng không gian cũng giúp cải thiện kết quả khá rõ rệt. Việc chia vùng không gian càng mịn càng giúp tăng độ chính xác • Max pooling cho kết quả tốt hơn Avg pooing. 2.5.3 Đặc trưng chuyển động Đặc trưng MBH không bị ảnh hưởng bởi chuyển động camera so với HoG và HoF (đã được chứng minh trong [91]), vì vậy MBH có kết quả rất tốt cho VSD, trong khi đó thì HoG và HoF có kết quả khá thấp (so với MBH và cả các đặc trưng cục bộ). Việc kết hợp cả 3 bộ mô tả không giúp cải thiện hiệu năng của hệ thống. 2.5.4 Đặc trưng âm thanh Việc sử dụng đặc trưng âm thanh cho bài toán phát hiện thông tin bạo lực không thực sự hiệu quả về mặt độ chính xác do tính thể hiện đa dạng trong kênh âm thanh của cảnh bạo lực. Tuy nhiên chúng ta có thể thấy kết quả của đặc trưng MFCC cũng khá tương đồng với các đặc trưng toàn cục, kết quả MAP-AT100 cũng tương đối tốt thể hiện đặc trưng có tính phân loại cao (nếu các cảnh bạo lực có đặc trưng rất riêng như có tiếng thét, tiếng súng, tiếng nổ), điều này sẽ giúp cho việc kết hợp với các đặc trưng khác trở nên hiệu quả. 2.5.5 So sánh cách biểu diễn đặc trưng BoW và Fisher Vector Bảng 2.1 Bảng so sánh cách mã hóa đặc trưng bằng Bag of Words và Fisher Vector Feature BoW_MAP2014 FV_MAP2014 BoW_MAP-AT100 FV_MAP-AT100 Densetrajectory - MBHHOFHOG 46.52% 50.77% 67.78% 73.23% SIFT 33.82% 37.33% 59.40% 58.47% MFCC 32.80% 34.09% 42.70% 45.89% Kết quả thực nghiệm trong Bảng 2.1 cho thấy FV có kết quả tốt hơn 2-4% so với cách biểu diễn BoW. Biểu diễn FV đặc biệt tỏ ra hiệu quả trên đặc trưng chuyển động trong bài toán VSD vì tính phân loại thông tin cao. 2.5.6 Đặc trưng của mô hình AlexNet Bảng 2.2 trình bày kết quả của các đặc trưng sử dụng các tầng cuối trong mô hình AlexNet. Sum pooling và đặc trưng tầng fc7 cho kết quả tốt nhất. Bảng 2.2 Kết quả sử dụng đặc trưng từ mô hình CNN AlexNet STT 1 2 3 4 5 6 Đặc trưng AlexNet_fc7.max AlexNet_fc6.sum AlexNet_fc7.sum AlexNet_fc6.max AlexNet_Full.max AlexNet_Full.sum MAP2014 47.30% 45.57% 45.20% 45.20% 35.92% 35.55% 2.5.7 Đặc trưng của mô hình VGGNet Bảng 2.3 trình bày kết quả của cCác đặc trưng được rút trích từ mô hình VGGNet ở 3 tầng cuối, các tầng này cũng có số chiều tương tự như trong AlexNet. Phương pháp áp dụng max14 pooling và đặc trưng fc7 cho kết quả rất tốt. Kết quả của VGGNet hiện cho kết quả cao hơn AlexNet (~3%) chứng minh các cải tiến của VGG trên mô hình của Alex đã phát huy tác dụng. Bảng 2.3 Kết quả sử dụng đặc trưng rút trích từ mô hình VGGNet STT 1 2 3 4 5 6 7 8 9 10 11 12 Đặc trưng VGGNet_fc7-16.max VGGNet_fc6-19.max VGGNet_fc6-16.max VGGNet_fc6-19.sum VGGNet_fc7-19.max VGGNet_fc6-16.sum VGGNet_fc7-19.sum VGGNet_fc7-16.sum VGGNet_Full-19.sum VGGNet_Full-16.sum VGGNet_Full-16.max VGGNet_Full-19.max MAP2014 50.17% 50.02% 49.25% 49.12% 48.84% 47.60% 47.26% 47.19% 38.07% 37.91% 36.90% 36.76% 2.5.8 Đặc trưng của mô hình UvANet Kết quả các đặc trưng được rút trích từ mô hình UvANet được trình bày trong Bảng 2.4, phương pháp sử dụng max-pooling vẫn cho kết quả tốt hơn sum-pooling. Với kết quả giữa các cấu hình 4k,8k,12k (~4000,8000,12000 khái niệm ở tầng kết nối đầy đủ) thật sự không có nhiều sự chênh lệch. Việc sử dụng càng nhiều khái niệm sẽ không đem lại hiệu quả cao về độ chính xác mà chi phí huấn luyện sẽ lớn. Bảng 2.4 Kết quả sử dụng đặc trưng rút trích từ mô hình UvANet STT 1 2 3 4 5 6 7 8 Đặc trưng UvANet_bottomup_12k_Full.max UvANet_topdown_4k_Full.max UvANet_bottomup_12k_Full.sum UvANet_bottomup_8k_Full.max UvANet_bottomup_4k_Full.max UvANet_bottomup_8k_Full.sum UvANet_topdown_4k_Full.sum UvANet_bottomup_4k_Full.sum MAP2014 42.86% 42.47% 42.46% 42.32% 42.29% 40.82% 40.07% 39.60% 2.5.9 So sánh với các đặc trưng được thiết kế sẵn (hand-crafted) Các đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho kết quả rất tốt cho bài toán VSD, mặc dù chỉ là đặc trưng được rút trích trên ảnh, chưa tận dụng các thông tin không gian và thời gian như đặc trưng chuyển động, nhưng vẫn cho kết quả rất tốt. 2.6 Phân tích trực quan 2.7 Kết luận Việc đánh giá lại các đặc trưng phổ dụng trên tập dữ liệu mới là rất cần thiết. Với bộ tham số được xác định tối ưu của từng loại đặc trưng, chúng tôi sẽ tiến hành đánh giá việc kết hợp các đặc trưng cho bài toán phát hiện thông tin bạo lực trong Chương 4. Đây là tiền đề cho việc xây dựng một hệ thống tích hợp đa đặc trưng bằng cách kết hợp các đặc trưng với cấu hình tốt nhất. Kết quả việc đánh giá các đặc trưng được công bố trong hội nghị SocPar2013 [CT3] và tạp chí MTA2016 [CT1], đồng thời cũng được sử dụng trong cuộc thi MediaEval VSD hàng năm từ 2012 đến 2014 [CT7][CT5]. 15 Chương 3. ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD Các phương pháp rút trích đặc trưng cấp cao4 hiện đang là một trong những chủ đề được quan tâm nghiên cứu gần đây.Cảnh bạo lực thường chứa các thông tin liên quan đặc trưng riêng, thông qua quá trình xây dựng bộ dữ liệu, chúng tôi xác định các thuộc tính có liên quan đến các cảnh bạo lực và xây dựng bộ dữ liệu huấn luyện cho các thuộc tính này. Trên cơ sở đó, chúng tôi thiết kế một đặc trưng cấp cao dựa trên các thuộc tính liên quan để biểu diễn cảnh bạo lực. Đặc trưng cấp cao dựa trên thuộc tính không những giúp xây dựng bộ phân loại đánh giá mức độ bạo lực mà còn cung cấp thêm thông tin mô tả giàu ngữ nghĩa hơn. Kết quả của nội dung nghiên cứu này là một bài báo hội nghị SoICT 2013 [CT4] và bài tạp chí MTA 2016 [CT1]. 3.1 Giới thiệu Do đặc trưng của các khái niệm, sự kiện đều mang tính ngữ nghĩa, đặc biệt là sự kiện. Một khái niệm, sự kiện có thể có nhiều thể hiện và mang tính ngữ nghĩa cao, đôi khi còn phụ thuộc vào suy nghĩ chủ quan của con người (ví dụ như khái niệm bạo lực, người thì nói cảnh này là bạo lực, nhưng có thể người khác lại nói là không bạo lực). Chúng tôi tập trung nghiên cứu các vấn đề chính sau: • Biểu diễn cảnh bạo lực bằng các thuộc tính liên quan: để làm giảm khoảng cách về mặt ngữ nghĩa, chúng tôi sử dụng các thuộc tính trung gian được lựa chọn trước để biểu diễn cảnh bạo lực (xem Hình 3.1) • Mô tả cảnh bạo lực: bên cạnh việc sử dụng các thuộc tính để quyết định cảnh bạo lực, chúng ta có thể sử dụng các thuộc tính để mô tả thông tin cho một cảnh. Việc cung cấp thêm thông tin mô tả giúp người dùng cuối có nhiều thông tin hơn đơn thuần chỉ là quyết định có/không có bạo lực. Cảnh bạo lực Xác định Khái niệm Khoảng cách ngữ nghĩa thấp ũ khí lạnh Lửa Máu Máu Đặc trưng cấp cao ũ khí nóng Nổ Một vài khái niệm liên quan đến bạo lực ũ khí lạnh Khoảng cách ngữ nghĩa cao Chết chóc Khoảng cách ngữ nghĩa thấp Đặc trưng cấp thấp Đặc trưng biểu diễn trên máy tính Hình 3.1 Giảm khoảng cách ngữ nghĩa bằng cách sử dụng các khái niệm liên quan (thuộc tính) khi biểu diễn VSD Thuật ngữ đặc trưng cấp cao được dùng chung cho các thuật ngữ tiếng Anh sau với nghĩa tương đương: attribute (thuộc tính), mid-level feature. 4 16
- Xem thêm -

Tài liệu liên quan