Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)Đánh giá hiệu năng của kỹ thuật mã hóa video hevch.265 truyền hình qua mạng IP (LV thạc sĩ)
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
NGUYỄN HỮU BẰNG
ĐÁNH GIÁ HIỆU NĂNG CỦA KỸ THUẬT MÃ HÓA
VIDEO HEVC/H.265 TRUYỀN HÌNH QUA MẠNG IP
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
HÀ NỘI - 2017
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
NGUYỄN HỮU BẰNG
ĐÁNH GIÁ HIỆU NĂNG CỦA KỸ THUẬT MÃ HÓA
VIDEO HEVC/H.265 TRUYỀN HÌNH QUA MẠNG IP
CHUYÊN NGÀNH :
KỸ THUẬT VIỄN THÔNG
MÃ SỐ:
60.52.02.08
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VŨ VĂN SAN
HÀ NỘI - 2017
i
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố
trong bất kỳ công trình nào khác.
Hà Nội, tháng 5 năm 2017
Sinh viên thực hiện
Nguyễn Hữu Bằng
ii
MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
MỤC LỤC .................................................................................................................. ii
DANH MỤC THUẬT NGỮ, TỪ VIẾT TẮT .......................................................... iv
DANH MỤC BẢNG BIỂU ...................................................................................... vi
DANH MỤC HÌNH VẼ ........................................................................................... vii
MỞ ĐẦU .................................................................................................................. ix
CHƯƠNG 1:
1.1.
KỸ THUẬT MÃ HÓA VIDEO HEVC/H.265 .................................1
Giới thiệu chung mã hóa video ....................................................................1
1.1.1.
Tổng quan mã hóa video .......................................................................1
1.1.2.
GOP .......................................................................................................2
1.1.3.
Lớp mạng trừu tượng (NAL) ................................................................4
1.2.
Chuẩn mã hóa video H.264/AVC ................................................................6
1.2.1.
Bối cảnh ra đời và sự phát triển ............................................................6
1.2.2.
Nguyên lý hoạt động cơ bản .................................................................6
1.2.3.
Các đặc điểm nổi bật .............................................................................8
1.3.
Chuẩn mã hóa video HEVC/H.265 ............................................................10
1.3.1.
Bối cảnh ra đời và sự phát triển ..........................................................10
1.3.2.
Nguyên lý hoạt động cơ bản ...............................................................11
1.3.3.
Các đặc điểm nổi bật ...........................................................................12
1.4.
Tổng kết chương 1 ......................................................................................27
CHƯƠNG 2:
2.1.
TRUYỀN HÌNH QUA MẠNG IP ..................................................28
Mô hình hệ thống truyền hình qua mạng IP ...............................................28
2.1.1.
Internet video ......................................................................................28
2.1.2.
IPTV ....................................................................................................29
iii
2.1.3.
Tình hình phát triển IPTV tại Việt Nam .............................................31
2.2.
Mã hóa và giải mã ......................................................................................34
2.3.
Ghép kênh...................................................................................................35
2.4.
Truyền dẫn qua mạng IP ............................................................................37
2.4.1.
Giao thức giao vận ..............................................................................37
2.4.2.
Đóng gói ..............................................................................................42
2.4.3.
Truyền thông điểm-điểm (unicast) và điểm-đa điểm (multicast) .......44
2.5.
Một số đặc điểm truyền dẫn qua mạng IP ..................................................49
2.5.1.
Mất gói ................................................................................................49
2.5.2.
Jitter .....................................................................................................50
2.5.3.
Trễ .......................................................................................................51
2.6.
Tổng kết chương 2 ......................................................................................52
CHƯƠNG 3: ĐÁNH GIÁ HIỆU NĂNG CỦA HEVC/H.265 TRONG KỊCH
BẢN TRUYỀN HÌNH QUA MẠNG IP...................................................................53
3.1.
Giới thiệu chung .........................................................................................53
3.2.
Mô hình và kịch bản mô phỏng ..................................................................54
3.2.1.
Kịch bản mô phỏng thứ nhất ...............................................................54
3.2.2.
Kịch bản mô phỏng thứ hai. ................................................................55
3.3.
Kết quả phân tích, đánh giá và khuyến nghị ..............................................56
3.3.1.
nhất
Kết quả phân tích, đánh giá và khuyến nghị của bài mô phỏng thứ
57
3.3.2.
Kết quả phân tích, đánh giá và khuyến nghị của bài mô phỏng thứ hai
60
3.4.
Tổng kết chương 3 ......................................................................................62
KẾT LUẬN VÀ KIẾN NGHỊ...................................................................................63
DANH MỤC TÀI LIỆU THAM KHẢO ..................................................................64
iv
DANH MỤC THUẬT NGỮ, TỪ VIẾT TẮT
STT
Từ viết tắt
1
CATV
2
3
4
5
6
7
8
CTB
CTU
DPB
ES
FTTH
GOP
HDTV
9
HEVC
10
IGMP
11
IPTV
Tiếng Anh
Community Access
Television
Coding Tree Blocks
Coding Tree Units
Decoded Picture Buffer
Elementary Stream
Fiber to The Home
Group of Picture
High-Definition Television
High Efficiency Video
Coding
Internet Group Management
Protocol
Internet Protocol Television
Tiếng việt
Truyền hình cáp
Khối cây mã hóa
Đơn vị cây mã hóa
Bộ đệm hình ảnh giải mã
Luồng cơ sở
Cáp quang đến hộ gia đình
Nhóm hình ảnh
Truyền hình độ nét cao
Mã hóa video hiệu suất cao
Giao thức quản lý nhóm
Internet
Truyền hình giao thức
Internet
International
Telecommunication Union Telecommunication
Local Area Network
Moving Picture Experts
Group
Liên minh Viễn thông Quốc
tế
12
ITU-T
13
LAN
14
MPEG
15
MPLS
Multi-Protocol Label
Switching
Chuyển mạch nhãn đa giao
thức
16
MSE
Mean Square Error
Sai số bình phương trung
bình
17
MTU
Maximum Tranmission Unit
Đơn vị truyền tải tối đa
18
NAL
Network Abstraction Layer
Lớp mạng trừu tượng
19
PES
Luồng cơ sở đóng gói
20
PIM
21
PSNR
Packetized Elementary
Stream
Protocol-Independent
Multicast
Peak Signal to Noise Ratio
Mạng máy tính nội bộ
Nhóm các chuyên gia hình
ảnh động
Tỉ số tín hiệu trên nhiễu đỉnh
v
22
23
24
QoE
QoS
OTT
Quality of Experience
Quality of Service
Over The Top
25
RTP
Real-time Transport Protocol
26
TCP
27
UDP
28
UHDTV
29
30
31
xDSL
VOD
WAN
32
WiMAX
Transmission Control
Protocol
User Datagram Protocol
Ultra-High-Definition
Television
Digital Subcriber Line
Video on Demand
Wide Area Network
Worldwide Interoperability
for Microwave Access
Chất lượng trải nghiệm
Chất lượng dịch vụ
Giao thức giao vận thời gian
thực
Giao thức điều khiển truyền
vận
Truyền hình độ nét siêu cao
Kênh thuê bao số
Video theo yêu cầu
Mạng diện rộng
Khả năng tương tác toàn cầu
với truy nhập vi ba
vi
DANH MỤC BẢNG BIỂU
Bảng 1.1 Kích thước khối trong HEVC và các chuẩn trước đó [4] ........................15
Bảng 1.2 Chế độ dự đoán trong ảnh [4] .................................................................17
Bảng 3.1 Các video mẫu được sử dụng trong bài đánh giá ....................................53
vii
DANH MỤC HÌNH VẼ
Hình 1.1 Cấu trúc GOP phẳng [2] ...........................................................................3
Hình 1.2 Cấu trúc GOP phân cấp không theo cặp [2] .............................................3
Hình 1.3 Cấu trúc GOP phân cấp theo cặp [2] ........................................................3
Hình 1.4 Tổng quan về mã hóa H.264/AVC và HEVC [4] .......................................4
Hình 1.5 Cấu trúc tiêu đề NAL [4] ...........................................................................5
Hình 1.6 Sơ đồ mã hóa H.264/AVC [6] ....................................................................7
Hình 1.7 Sơ đồ giải mã H.264/AVC [6] ....................................................................8
Hình 1.8 Sơ đồ khối bộ mã hóa/giải mã HEVC [8] ................................................11
Hình 1.9 Sơ đồ khối bộ giải mã [4] .........................................................................12
Hình 1.10 Chia CTU thành CU theo cấu trúc cây tứ phân [4] ................................13
Hình 1.11 Chia CU thành các PU [4] ......................................................................14
Hình 1.12 Chia CTB thành TB và CB theo cấu trúc cây tứ phân [4] .......................14
Hình 1.13 Đơn vị dự đoán [7] ...................................................................................18
Hình 1.14 Chế độ dự đoán hướng trong HEVC [7] ..................................................22
Hình 1.15 Nội suy dự đoán ảnh (theo trục dọc) [7] ..................................................22
Hình 1.16 Khái niệm dự đoán liên ảnh [4] ...............................................................23
Hình 1.17 Dự đoán liên ảnh trong HEVC [4] ..........................................................24
Hình 1.18 Vị trí ứng viên trong thông tin chuyển động. a) Thời gian; b) Không gian
[4]
..................................................................................................................25
Hình 1.19 Xác định các ứng viên AMVP không gian A, B [4] .................................25
Hình 1.20 Vị trí phân số trong bù chuyển động chói với độ chính xác ¼ điểm ảnh
[4]
..................................................................................................................26
Hình 2.1 Mạng cung cấp Internet Video [9] ...........................................................29
Hình 2.2 Chuỗi giá trị trong IPTV ..........................................................................30
Hình 2.3 Mô hình mạng IPTV .................................................................................31
Hình 2.4
Hình 2.5
Hình 2.6
Hình 2.7
Hình 2.8
Hình 2.9
Thị phần truyền hình trả tiền tại Việt Nam tính đến tháng 12/2016 ........32
Mô hình cung cấp dịch vụ IPTV trên hạ tầng broadband của VNPT ......33
Mô hình cung cấp dịch vụ IPTV trên hạ tầng broadband của FPT ........33
Dòng dữ liệu theo chuẩn MPEG [15] ......................................................36
Vị trí giao thức lớp giao vận [15] ............................................................38
Gói tin dài và gói tin ngắn [15] ...............................................................42
viii
Hình 2.10 Mô hình mạng cơ bản thiết kế cung cấp dịch vụ multicast bằng PIM và
IGMP
..................................................................................................................47
Hình 3.1 Mô hình mô phỏng trong bài đánh giá thứ hai ........................................55
Hình 3.2 Đường cong tỉ lệ giữa HEVC và H.264 trong video 720p .......................57
Hình 3.3 Đường cong tỉ lệ giữa HEVC và H.264 trong video 1080p .....................57
Hình 3.4 Đường cong tỉ lệ giữa HEVC và H.264 trong video 4K ..........................58
Hình 3.5 Thời gian nén giữa HEVC và H.264/AVC ...............................................58
Hình 3.6 Thời gian giải nén giữa HEVC và H.264/AVC ........................................59
Hình 3.7 Kịch bản mất gói ngẫu nhiên ...................................................................60
Hình 3.8 Khả năng che giấu lỗi của HEVC và H.264/AVC trong video Sunflower ...
..................................................................................................................60
Hình 3.9 Khả năng che giấu lỗi của HEVC và H.264/AVC trong video BlueSky ..61
ix
MỞ ĐẦU
Với sự bùng nổ của Internet, đặc biệt là Internet băng thông rộng đã làm thay
đổi cả nội dung và kỹ thuật truyền hình. Hiện tại, phần lớn các nội dung truyền hình
chỉ dừng lại ở mức độ nét cao, nhưng trong tương lai độ nét siêu cao sẽ là một xu thế
tất yếu. Hệ quả của sự phát triển này là sức ép ngày càng lớn lên hạ tầng truyền dẫn.
Để giải quyết vấn đề này, chuẩn mã hóa video thế hệ tiếp theo đã được phát triển với
tên gọi mã hóa video hiệu suất cao (HEVC/H.265).
Với mục đích đưa những đánh giá khách quan về hiệu năng của kỹ thuật mã
hóa video HEVC/H.265 khi truyền hình qua mạng IP, em xin chọn đề tài nghiên cứu
“Đánh giá hiệu năng của kỹ thuật mã hóa video HEVC/H.265 truyền hình qua mạng
IP.”.
Tổng quan, luận văn gồm 3 chương:
Chương 1 trình bày về mã hóa video hiệu suất cao HEVC.
Chương 2 giới thiệu về truyền hình qua mạng IP.
Chương 3 đánh giá hiệu năng của chuẩn mã hóa HEVC trong kịch bản truyền
hình qua mạng IP.
Sau một thời gian nỗ lực tìm hiểu cùng với sự chỉ bảo tận tình của các thầy cô
trong khoa, đặc biệt là thầy TS. Vũ Văn San, em đã hoàn thành bài luận văn này. Do
đây là đề tài còn khá mới và vốn kiến thức bản thân còn hạn chế nên không tránh
được các sai sót, kính mong quý thầy cô và các bạn đóng góp ý kiến để bài luận văn
này hoàn thiện hơn.
Em xin chân thành cảm ơn thầy Vũ Văn San và các thầy cô trong Khoa Quốc tế
và Đào tạo đã tận tình giúp đỡ em trong suốt thời gian qua.
Hà Nội, tháng 5 năm 2017
Nguyễn Hữu Bằng
1
CHƯƠNG 1:
1.1.
1.1.1.
KỸ THUẬT MÃ HÓA VIDEO HEVC/H.265
Giới thiệu chung mã hóa video
Tổng quan mã hóa video
Một tín hiệu video số thường chứa một lượng lớn dữ liệu, do đó sẽ gặp rất
nhiều khó khăn trong việc lưu trữ và truyền đi trên băng thông kênh truyền hạn chế.
Vì vậy để có thể tiết kiệm không gian lưu trữ và băng thông kênh truyền thì ta cần
nén (mã hóa) tín hiệu.
Nén video được chia thành hai nhóm: Nén không tổn hao và nén tổn hao.
- Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit nguồn
thành dòng các từ mã sao cho ảnh được khôi phục hoàn toàn giống ảnh gốc,
các thuật toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựa
trên việc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc
biệt khác ngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên
đòi hỏi phải có thiết bị lưu trữ và đường truyền lớn hơn.
- Nén có tổn hao, tức là ảnh được khôi phục không hoàn toàn giống ảnh gốc,
dạng nén này thích hợp cho việc lưu trữ và truyền ảnh tĩnh, ảnh video qua một
mạng có băng thông hạn chế. Các dạng nén này thường có hệ số nén cao hơn
(từ 2:1 đến 100:1) và gây nên tổn hao dữ liệu và sự suy giảm ảnh sau khi giải
nén do việc xóa và làm tròn dữ liệu trong một khung hay giữa các khung. Nó
liên quan đến việc dùng các phép biến đổi tín hiệu từ miền này sang miền khác.
Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn và
các kỹ thuật nén tổn hao thường sử dụng như: mã hóa vi sai, biến đổi Cosin rời rạc
DCT, lượng tử vô hướng, quét zig-zag, mã hóa Entropy…
Để đánh giá chất lượng video ta các giá trị cung cấp bởi hệ thống xử lý, và
việc suy giảm chất lượng tín hiệu có thể nhìn thấy được (thông thường chúng được
2
so sánh với tín hiệu gốc). Qua hệ thống ta có thể thấy được những thay đổi về hình
dạng, việc định chuẩn chất lượng video là rất quan trọng. Để đánh giá chất lượng
của bức ảnh (hay khung ảnh video) ở đầu ra của bộ mã hóa, ta thường sử dụng các
tham số sau để đánh giá:
- Sai số bình phương trung bình – MSE (Mean Square Error) định nghĩa cho
cường độ sai khác giữa ảnh gốc và ảnh dự đoán [1]:
Mean Squared Error
: MSE
1
N2
N 1
N 1
(C
i 0
j 0
ij
Ri j ) 2
(1.1)
- Tỉ số tín hiệu trên nhiễu đỉnh – PSNR (Peak Signal to Noise Ratio) [1].
(2b 1)2
Peak signal to noise ratio : PSNR 10log10
(db)
MSE
(1.2)
Trong đó: + N×N kích thước bù chuyển động
+ hệ số Ci, j và Ri, j tương ứng với mẫu hiện tại và vùng mẫu tham khảo.
+ b số lượng bit/ mẫu.
Thông thường, nếu PSNR ≥ 40dB thì hệ thống mắt người gần như không
phân biệt được giữa ảnh gốc và ảnh khôi phục, tức là ảnh nén có chất lượng xuất
sắc.
• Nếu 30 dB PSNR < 33 dB thì chất lượng ảnh nén bình thường, mắt người
có sự phân biệt được.
• Nếu PSNR < 30 dB thì chất lượng ảnh nén kém.
1.1.2.
GOP
Một GOP (nhóm các hình ảnh) xác định thứ tự mà khung hình intra và inter
được sắp xếp. Một chuỗi video thường gồm các GOP liên tiếp. Cấu trúc GOP thường
được xác định bằng một số cho biết khoảng cách giữa hai ảnh (I hoặc P). Một cấu
trúc GOP điển hình là IBBPBBP, … Với cấu trúc này, các ảnh I có thể được sử dụng
để dự đoán ảnh P đầu tiên và hai ảnh này cũng có thể được sử dụng để dự đoán ảnh
B đầu tiên và thứ 2. Ảnh P thứ hai có thể dự đoán bằng cách sử dụng Ảnh P thứ nhất
3
và nó có thể tham gia dự đoán ảnh B thứ ba và thứ tư. Việc lựa chọn kích thước GOP
phụ thuộc vào nhiều yếu tố khác như kích cỡ DPB và độ trễ. [2]
0
1
2
3
30
31
32
33
30
31
32
33
...
1
0
2
3
Hình 1.1 Cấu trúc GOP phẳng [2]
4
3
5
7
6
8
1
2
3
5
6
7
2
0
1
4
0
8
Hình 1.2 Cấu trúc GOP phân cấp không theo cặp [2]
4
5
7
3
1
8
6
3
5
7
2
2
6
0
1
4
0
Hình 1.3 Cấu trúc GOP phân cấp theo cặp [2]
8
4
Có rất nhiều cách chọn lựa cấu trúc GOP. Cấu trúc GOP phẳng (Hình 1.1)
thường không cho hiệu suất nén tốt và được sử dụng trong các bài kiểm tra để so sánh
hiệu suất nén và độ phức tạp tính toán. Một cấu trúc GOP thứ bậc theo cặp đôi điển
hình với 4 mức phân cấp được giới thiệu trong Hình 1.3. Ngoài ra, cấu trúc GOP thứ
bậc không phân cặp được minh họa trong Hình 1.2. Trong đó, thẻ màu đỏ thể hiện
ảnh I, thẻ màu xanh dương thể hiện ảnh P và thẻ màu xanh lục thể hiện ảnh B.
1.1.3.
Lớp mạng trừu tượng (NAL)
Lớp mạng trừu tượng là một tính năng thiết yếu, có sẵn trên cả H.264/AVC và
HEVC. Về cơ bản, đó là một phương pháp chia luồng bit video thành các đơn vị
NAL. Nhìn chung, HEVC và H.264/AVC có chung một cấu trúc trừ một vài bit tại
mào đầu. [3]
Hình 1.4 cho thấy một bộ mã hóa và giải mã H.264/AVC và HEVC. Ảnh được
đưa vào bộ mã hóa để mã hóa các hình này thành một luồng dữ liệu hay luồng bit.
Một luồng dữ liệu bao gồm một chuỗi các đơn vị dữ liệu được gọi là lớp trừu tượng
mạng (NAL), mỗi một đơn vị lại chứa một số nguyên byte. Hai byte đầu tiên của một
đơn vị NAL cấu thành tiêu đề NAL, trong khi phần còn lại của các đơn vị NAL chứa
các dữ liệu tải trọng. Một số đơn vị NAL mang một giá trị thiết lập tham số có chứa
thông tin điều khiển cho một vùng hoặc toàn bộ hình ảnh.
Hình 1.4 Tổng quan về mã hóa H.264/AVC và HEVC [4]
Đơn vị NAL được giải mã bởi bộ giải mã để tạo thành hình ảnh giải mã tại đầu
ra bộ giải mã. Cả hai bộ mã hóa và giải mã đều lưu trữ các hình ảnh trong bộ nhớ
đệm hình ảnh giải mã (DPB). Bộ đệm này chủ yếu được sử dụng để lưu trữ hình ảnh
5
phục vụ việc dự đoán các hình ảnh sau nó. Hình ảnh lưu trữ ở đây được gọi là hình
ảnh tham khảo (hay hình ảnh tham chiếu). Giống như AVC, HEVC xây dựng hai
danh sách tham khảo L0 và L1. Nó có thể giữ 16 tham khảo mỗi danh sách nhưng
giới hạn 8 ảnh khác nhau (phải lặp thêm các hình ảnh). Các bộ mã hóa có thể chọn
điều này để có thể dự đoán cùng một hình ảnh với trọng số khác nhau.
Đơn vị NAL được chia thành 2 loại – lớp mã hóa video (VCL) và lớp không
mã hóa video (non-VCL). [4] Mỗi đơn vị VCL chứa một phân đoạn slice trong dữ
liệu hình ảnh mã hóa. Còn các đơn vị non-VCL chứa thông tin điều khiển, thường
liên quan đến nhiều hình ảnh được mã hóa. Một hình ảnh được mã hóa, cùng với các
đơn vị non-VCL (có liên quan đến hình ảnh đó) được gọi là đơn vị truy cập HEVC.
Một đơn vị truy cập không nhất thiết phải chứa non-VCL. Tuy nhiên, trong trường
hợp có chứa hình ảnh được mã hóa, nó phải bao gồm một hoặc nhiều đơn vị VCL.
Cấu trúc tiêu đề NAL có độ dài 2 byte, dành cho cả VCL và non-VCL. Tiêu
đề này được thiết kế để dễ dàng phân tích các thuộc tính chính trong một đơn vị NAL:
xác định loại, lớp hoặc phân lớp. Các bit đầu tiên của tiêu đề NAL luôn luôn được
thiết lập bằng ‘0’ để tránh hiểu nhầm là MPEG-2. Sáu bit tiếp theo chứa các loại đơn
vị NAL – xác định loại dữ liệu được mang trong NAL. Như vậy, ở đây sẽ có 64 loại
giá trị đơn vị NAL, trong đó có 32 giá trị VCL và 32 giá trị non-VCL. Sáu bit tiếp
theo chứa một lớp định danh cho biết đơn vị NAL thuộc về lớp nào và dành cho khả
năng mở rộng trong tương lai. Ba bit cuối cùng của tiêu đề NAL chứa các danh định
tạm thời để đại diện cho bảy giá trị và một giá trị cấm.
Hình 1.5 Cấu trúc tiêu đề NAL [4]
6
1.2.
1.2.1.
Chuẩn mã hóa video H.264/AVC
Bối cảnh ra đời và sự phát triển
H.264 được chấp thuận bởi tổ chức truyền thông quốc tế ITU-T với tên gọi
Recommendation H.264 và bởi tổ chức chuẩn hóa quốc tế (ISO/IEC) với tên gọi
International Standard 14496-10 (MPEG-4 part 10) Advanced Video Coding. Lần
đầu tiên được đề xuất vào năm 1998, nhóm chuyên gia nén video (VCEG – ITU-T
SG16 Q.6) kêu gọi đưa ra ý tưởng cho dự án gọi là H.26L, với mục đích tăng gấp đôi
độ hiệu quả nén video so với các chuẩn nén video hiện có áp dụng cho nhiều loại ứng
dụng, thiết bị đa dạng. Thiết kế dự thảo đầu tiên được phê chuẩn vào tháng 10 năm
1999. Vào tháng 12 năm 2001, VCEG và nhóm chuyên gia về ảnh động (MPEG ISO/IEC JTC 1/SC 29/WG 11) hợp tác thành nhóm Joint Video Team (JVT), được
lập ra để hoàn thành bản dự thảo về chuẩn nén video mới để đệ trình chấp thuận với
tên H.264/AVC vào tháng 3 năm 2003 [5].
1.2.2.
Nguyên lý hoạt động cơ bản
Ngoại trừ tính năng lọc tách khối, H.264 vẫn bao gồm các khối chức năng cơ
bản như các chuẩn mã hóa trước đó như dự đoán, biến đổi, lượng tử hóa và mã hóa
entropy. Sự thay đổi quan trọng trong H.264 đến từ sự cải tiến chi tiết bên trong cách
khối chức năng đó.
Hình 1.6 thể hiện quá trình mã hóa H.264 bao gồm hai luồng lưu lượng
“chuyển tiếp” (từ trái sang phải) và “tái cấu trúc” (từ phải sang trái). Hình vẽ giải
thích các bước chính trong quá trình mã hóa và giải mã một khung trong một video.
Thuật ngữ khối để chỉ một phân vùng macroblock (MB) hoặc sub-macroblock (trong
mã hóa liên ảnh) hoặc các mẫu màu của khối 4x4, 16x16 hoặc các mẫu sáng (trong
mã hóa trong ảnh).
7
Phần dư
+
Ảnh
Dự đoán
chuyển động
Bù chuyển
động
Ảnh trước
Chọn kiểu dự
đoán intra
Ảnh cấu trúc
lại
Dự đoán
intra
Lọc tách
khối
Biến đổi
DCT nguyên
-
Lượng tử
Sắp xếp
Mã hóa
Entropy
-
Tín
Liên ảnh hiệu dự
đoán
Nội ảnh
+
+
+
Biến đổi
DCT
ngược
Giải lượng
tử
Hình 1.6 Sơ đồ mã hóa H.264/AVC [6]
Khung đầu vào được xử lý trong các đơn vị của một macroblock (MB). Mỗi
MB có thể được mã hóa trong ảnh hoặc liên ảnh. Ảnh đầu tiên hoặc điểm truy nhập
ngẫu nhiên sẽ được mã hóa Intra, các ảnh còn lại của dãy dùng dự đoán bù chuyển
động từ các ảnh đã mã hóa trước để mã hóa liên ảnh. Dữ liệu cần được mã hóa từ các
MB sẽ được đưa đến bộ trừ và bộ dự đoán chuyển động. Trong bộ dự đoán chuyển
động, các MB được đưa vào với các MB tham khảo để tìm MB có nhiều điểm tương
đồng nhất. Bộ dự đoán chuyển động sẽ tính toán vector chuyển động, vector này sẽ
đặc trưng cho sự dịch chuyển theo cả hai chiều ngang và thẳng đứng của MB mới cần
được mã hóa so với khung tham khảo. Tại bộ trừ, các sai số tiên đoán được tạo ra dựa
vào sự sai khác giữa MB tham khảo và MB cần mã hóa. Tín hiệu sai khác này sẽ
được biến đổi nguyên để tạo ra tập hệ số biến đổi sau đó được đưa qua bộ lượng tử
để làm giảm số lượng bit cần truyền. Đến đây, các hệ số lượng tử được chia làm hai
hướng, một hướng sắp xếp lại và đưa vào mã hóa Entropy, hướng còn lại đưa qua bộ
giải lượng tử và biến đổi ngược. Sau đó, tín hiệu từ khối biến đổi ngược được đưa
vào bộ cộng với tín hiệu dự đoán và được lọc tách khối trong vòng nhằm làm giảm
hiệu ứng khối tạo thành ảnh cấu trúc lại, được lưu trữ nhằm mục đích ước lượng và
dự đoán chuyển động. Dữ liệu tại đầu ra bộ mã hóa Entropy sẽ kết hợp với vector
8
chuyển động và các thông tin khác như thông tin về ảnh I, ảnh P, và ảnh B rồi truyền
ra ngoài kênh truyền dưới dạng dòng bit nén của các đơn vị NAL, gửi tới bộ giải mã.
Ảnh trước
Bù chuyển Liên ảnh
động
Tín hiệu
dự đoán
Dự đoán
Intra
Ảnh cấu trúc
lại
Nội ảnh
Lọc tách
khối
+
+
+
Biến đổi
ngược
Giải lượng
tử
Sắp xếp
trật tự
Giải mã
entropy
NAL
Hình 1.7 Sơ đồ giải mã H.264/AVC [6]
Đối với quá trình giải mã, bộ giải mã nhận được một luồng bit nén từ NAL.
Bộ giải mã sẽ giải mã Entropy để tách thông tin tiêu đề và vector dự đoán chuyển
động đưa vào bù chuyển động. Ngoài ra, các hệ số DCT được giải lượng tử và biến
đổi ngược IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian, các
hệ số biến đổi ngược thu được sẽ cộng với tín hiệu dự đoán. Sau đó một phần được
đưa qua bộ lọc tách khối để loại bỏ hiện tượng nhiễu trước khi đưa vào lưu trữ, phần
còn lại được sử dụng cho mục đích dự đoán.
1.2.3.
Các đặc điểm nổi bật
So với các chuẩn mã hóa video trước đó, H.264/AVC có một số những đặc
điểm nổi bật sau:
• Bù chuyển động với kích cỡ khối thay đổi: Tiêu chuẩn này mang lại
sự mềm dẻo cho sự lựa chọn kích thước và hình dạng, kích thước bù
chuyển động nhỏ nhất là 4x4. Điều này đã mang lại hiệu suất 15% so với
MPEG-2. Bù chuyển động ¼ làm giảm tính phức tạp của xử lý nội suy
so với các tiêu chuẩn trước đó [7].
• Bủ chuyển động chính xác đến một phần tư mẫu: Thiết kế mới cho
phép bù chuyển động chính xác đến một phần tư mẫu, lần đầu được giới
9
thiệu trong MPEG 4 Visual (Part 2), sau đó được cải tiến để giảm sự
phức tạp trong việc xử lý nội suy.
• Tách riêng hình ảnh tham khảo và hình ảnh hiển thị: ở các tiêu chuẩn
trước có sự phụ thuộc giữa hình tham khảo và hình hiển thị, còn trong
H.264/AVC bộ mã hóa có thể chọn hình ảnh để tham khảo gần nhất với
hình ảnh được mã hóa cho mục đích tham khảo dự đoán nên có thể hiển
thị với tính linh hoạt cao, do đó khoảng thời gian trễ sẽ được loại bỏ.
• Dự đoán trọng số: Một tính năng mới trong H.264/AVC cho phép các
tín hiệu dự đoán bù chuyển động có thể được cân đối và bù đắp bằng một
giá trị qui định bởi bộ mã hóa. H.264/AVC có thể hỗ trợ quá trình mờ
dần hay tối dần khung hình trong những đoạn phim có hiệu ứng mờ dần.
• Sử dụng bộ lọc tách khối: Trái ngược với bộ tiền xử lý hay bộ hậu xử
lý, bộ lọc tách khối được áp dụng trong suốt quá trình mã hóa trên mọi
khung đơn lẻ, nhưng trước đó nó sẽ được sử dụng để tham khảo cho
những khung đến sau. Cải tiến mới này sẽ giúp tránh được hiện tượng
kết khối làm ảnh hưởng đến chất lượng hình ảnh, đặc biệt là với tốc độ
bit thấp. Nhưng tốc độ mã hóa, giải mã sẽ bị giảm sút.
• Dự đoán trong ảnh sử dụng không gian định hướng: hỗ trợ tới 17 kiểu
dự đoán, làm cho việc dự đoán mẫu được chính xác hơn, đạt hiệu quả
nén cao hơn [6].
Ngoài ra, H.264/AVC còn có một số đặc tính làm tăng cường khả năng chống
sai số và mất dữ liệu như:
• Tham số cấu trúc: tập hợp các tham số nhằm tăng cường cho thông tin
tiêu đề của quá trình truyền được hiệu quả hơn. Ở những tiêu chuẩn trước,
nếu mất một số thông tin quan trọng như thông tin tiêu đề của chuỗi ảnh
sẽ ảnh hưởng rất lớn đến quá trình giải mã. Còn trong H.264/AVC thì
các thông tin này được tách riêng tạo tính linh hoạt và chuyên dụng hơn.
- Xem thêm -