Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững hệ phi tuyến
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/316700722
[Free download] Nghiên cứu giải thuật học
củng cố trong điều khiển thích nghi bền vững
hệ phi tuyến (Research on...
Thesis · June 2015
DOI: 10.13140/RG.2.2.33156.12168
CITATIONS
READS
0
316
1 author:
Luy Tan Nguyen
Industrial University of Ho Chi Minh
19 PUBLICATIONS 17 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
IOT SYSTEM FOR MONITORING NAVIGATIONAL CLEARANCES OF BRIDGES View project
Distributed optimal integrated tracking control for separate kinematic and dynamic uncertain
nonholonomic mobile mechanical multiagent systems View project
All content following this page was uploaded by Luy Tan Nguyen on 06 May 2017.
The user has requested enhancement of the downloaded file.
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN TẤN LŨY
NGUYỄN TẤN LŨY
NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU
KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN
LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP. HỒ CHÍ MINH NĂM 2015
ĐẠI HỌC QUỐC GIA TP. HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN NGUYỄN TẤN LŨY TẤN LŨY
NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU
KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN
Chuyên ngành: Tự động hóa
Mã số chuyên ngành: 62.52.60.01
Phản biện độc lập 1: GS.TS Phan Xuân Minh
Phản biện độc lập 2: PGS.TS Nguyễn Chí Ngôn
Phản biện 1: GS.TSKH Hồ Đắc Lộc
Phản biện 2: PGS.TS Nguyễn Ngọc Lâm
Phản biện 3: PGS.TS Lê Minh Phương
HƯỚNG DẪN KHOA HỌC
1. TS. NGUYỄN THIỆN THÀNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. TS. NGUYỄN THIỆN THÀNH
2. TS. HOÀNG MINH TRÍ 2. TS. HOÀNG MINH TRÍ
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi. Các kết quả
nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất
kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã
được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
Tác giả luận án
Nguyễn Tấn Lũy
yễn Tấn Lũy
i
TÓM TẮT LUẬN ÁN
Bài toán điều khiển tối ưu cho hệ phi tuyến bị ràng buộc trực tiếp bởi nghiệm của
phương trình Hamilton-Jacobi-Bellman (HJB) và bài toán điều khiển tối ưu bền vững
bị ràng buộc trực tiếp bởi nghiệm của phương trình Hamilton-Jacobi-Isaacs (HJI). Đây
là các phương trình vi phân phi tuyến không có nghiệm giải tích. Từ đó, bài toán xấp
xỉ nghiệm HJB và HJI off-line hoặc online được đặt ra. Học củng cố (Reinforcement
Learning (RL)) bắt nguồn từ qui hoạch động (Dynamic Programming (DP)), phát triển
thành qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) trở thành
một trong những phương pháp hữu hiệu dùng để xấp xỉ các nghiệm HJB và HJI. Dựa
vào cấu trúc điều khiển chuẩn của ADP bao gồm hai hoặc ba xấp xỉ hàm, các giải
thuật RL không ngừng được nghiên cứu và phát triển. Ngày nay, các giải thuật điều
khiển RL là online, không off-line như những nghiên cứu đã công bố trong những năm
đầu của thế kỷ 21. Ví dụ, các giải thuật RL đã được thiết kế để xấp xỉ nghiệm ARE
(Algebraic Riccati Equation) cho hệ tuyến tính với các ma trận trạng thái không biết và
sau này, xấp xỉ nghiệm HJB và HJI cho hệ phi tuyến với các thành phần động học
trong mô hình hệ thống biết hoặc không biết, có nhiễu hoặc bỏ qua nhiễu.
Luận án này nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ
phi tuyến, trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic
Programming (OADP)) và qui hoạch động thích nghi bền vững online (Online Robust
Adaptive Dynamic Programming (ORADP)) là hai giải thuật chính được phân tích và
thiết kế. Giải thuật OADP dùng để xấp xỉ nghiệm HJB cho hệ thống phi tuyến với mô
hình xác định, sau đó được phát triển thành giải thuật ORADP để xấp xỉ nghiệm HJI
cho hệ phi tuyến hoàn toàn không có thông tin về động học nội (internal dynamics).
Ban đầu, cấu trúc ADP chuẩn với hai hoặc ba xấp xỉ hàm được sử dụng để chuyển đổi
thành cấu trúc điều khiển với duy nhất một xấp xỉ hàm để tránh độ phức tạp tính toán
và lãng phí tài nguyên nhằm đẩy nhanh tốc độ hội tụ. Sau đó, luật cập nhật mới cho
tham số cho xấp xỉ hàm và các giải thuật điều khiển mới được thiết kế. Trong giải
thuật, các luật cập nhật tham số được đồng bộ hóa trong một bước lặp nhằm tăng tốc
độ hội tụ. Bên cạnh đó, luật điều khiển ổn định ban đầu để khởi động giải thuật là
không cần thiết. Từ đó, thủ tục thiết kế trở nên linh hoạt hơn. Giải thuật đảm bảo rằng
hàm chi phí được tối thiểu, tham số xấp xỉ hàm và luật điều khiển hội tụ về giá trị cận
ii
tối ưu trong khi toàn bộ trạng thái của hệ kín và sai số xấp xỉ bị chặn theo tiêu chuẩn
UUB (Uniform Ultimate Bounded). Kết quả mô phỏng có so sánh với các phương
pháp khác sử dụng hai hoặc ba xấp xỉ hàm cho thấy tính hiệu quả của giải thuật OADP
và ORADP.
Để kiểm tra khả năng ứng dụng của giải thuật ORADP, mô phỏng số và thực
nghiệm cho robot di động dạng xe (Wheeled Mobile Robot (WMR)) được tiến hành.
So sánh với các giải thuật điều khiển thích nghi khác, giải thuật ORADP điều khiển
WMR có một số ưu điểm mới. Thứ nhất, việc chia tách bộ điều khiển động học
(kinematic) và động lực học (dynamic) sử dụng phổ biến trong điều khiển thích nghi
cho WMR là không cần thiết. Từ đó, tránh phụ thuộc vào kinh nghiệm của người thiết
kế trong việc lựa chọn các tham số cho bộ điều khiển động học. Thứ hai, không đòi
hỏi nhận dạng trực tiếp hoặc gián tiếp thành phần động học không chắc chắn, không
cấu trúc trong mô hình robot. Cuối cùng, với giải thuật ORADP, hàm chỉ tiêu chất
lượng có liên quan đến sai số bám cả về động học, động lực học lẫn năng lượng điều
khiển được tối thiểu.
Giải thuật ORADP tiếp tục được sử dụng để thiết kế mở rộng cho bài toán điều
khiển hợp tác nhiều hệ phi tuyến MIMO không sử dụng thông tin về động học nội hệ
thống. Ban đầu, lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân
tán cho nhiều hệ phi tuyến hợp tác. Sau đó, giải thuật ORADP được thiết kế mở rộng
thành giải thuật điều khiển hợp tác thích nghi bền vững. Kết quả điều khiển đồng bộ
hóa hệ thống robot bầy đàn từ mô phỏng cho thấy tính hiệu quả của giải thuật ORADP
mở rộng.
iii
ABSTRACT
The optimal control problem for nonlinear systems is constrained directly by the
solution of Hamilton-Jacobi-Bellman (HJB) equation and the robust optimal control
problem is constrained directly by the solution of Hamilton-Jacobi-Isaacs (HJI)
equation. These are nonlinear partial differential equations that have been proven to be
impossible to solve analytically. Since then, the problems for approximating off-line or
online HJB and HJI solutions are devoted. The reinforcement learning (RL) method, at
first, derived from the dynamic programming (DP) theory, and then, developed into
adaptive dynamic programming (ADP) method, becomes one of the most effective
online methods to approximate HJB and HJI solutions. Based on the standard control
structure of ADP, including two or three approximators, RL algorithms are studied and
developed continuously. Nowadays, these algorithms are online and no longer off-line
as the researches that are published in the early years of the 21st century. For example,
RL algorithms have been developing to approximate the ARE (Algebraic Riccati
Equation) solutions for linear systems with unknown state matrices, and after that,
HJB and HJI solutions for nonlinear systems contained known and unknown system
dynamics with or without impacted by disturbance.
This thesis proposes reinforcement learning-based robust adaptive control
algorithms for nonlinear systems, in which Online Adaptive Dynamic Programming
(OADP) and Online Robust Adaptive Dynamic Programming (ORADP) are two main
analyzed and designed algorithms. OADP algorithm is used to approximate a HJB
solution for the nonlinear system with known dynamics, and then extended to ORADP
algorithm to approximate HJI solution for the nonlinear system without absolutely
knowing knowledge of internal dynamics. Firstly, the standard ADP structures with
two or three approximators are used to transform into control structures with only
single approximator to avoid the complex computation and waste of resources in order
to accelerate the speed of update processes. Then, novel update laws for the
approximator’s parameters and the novel algorithms are designed. In the algorithm,
parameter update laws are synchronized in one iterative step to increase the speed of
convergence. Besides, any stability control laws to initialize algorithm is not needed;
Therefore, the design procudures become more flexible. The algorithms guarantee that
iv
the cost functions are minimized, the parameters of approximators and cthe ontrol laws
converge to the suboptimal values while all closed-system states and the approximate
errors are bounded by the UUB (Uniform Ultimate Bounded) standard. The results of
numerical simulations compared with other methods using two or three approximators
demonstrate the effectiveness of the OADP and ORADP algorithms.
To verify the application ability of ORADP algorithm, simulation and
experiment for WMR (Wheeled Mobile Robot) are conducted. It is shown that when
the ORADP algorithm is applied to control WMR, some novel advantages compared
with other adaptive control algorithms have been gained. Firstly, the separation of
kinematic and dynamic controllers that commonly used in the adaptive control for
WMR is unnecessary. By doing that, we can avoid depending on the designer's
experience in choosing the parameters for the kinematic controller. Secondly,
identifying directly or indirectly unstructured and unmodeled uncertainty dynamics in
the robot models is not required. Lastly, using the ORADP algorithm, the performance
index function related to both the kinematic, the dynamic tracking errors and the
control energy is minimized.
The ORADP algorithm is continuously designed extendedly for the cooperative
control problem of multiple MIMO nonlinear systems without using the knowledge of
system internal dynamics. Initially, graph theory is used to establish distributed
communication configures for multiple cooperative nonlinear systems. Then, the
ORADP algorithm is expanded to become the robust adaptive cooperative control
algorithm. Simulation results of synchronous control for the swarm robot system show
the effectiveness of the extended ORADP algorithm.
v
LỜI CÁM ƠN
Luận án này được hoàn thành dưới sự hướng dẫn của TS. Nguyễn Thiện Thành
và TS. Hoàng Minh Trí. Tôi xin gửi tới các Thầy lời biết ơn vô hạn về sự quan tâm
giúp đỡ, tạo điều kiện tối đa để tôi hoàn thành cuốn luận án này. Đặc biệt, tôi xin trân
trọng bày tỏ lòng biết ơn chân thành đến Thầy Nguyễn Thiện Thành người đã giới
thiệu và truyền cho tôi nguồn cảm hứng về lĩnh vực học củng cố.
Luận án này không thể hoàn thành nếu không có sự hướng dẫn khoa học của
PGS.TS. Nguyễn Thị Phương Hà. Cô đã cho tôi định hướng và truyền đạt cho tôi rất
nhiều kiến thức quan trọng về lĩnh vực điều khiển thích nghi bền vững. Vì vậy, cho tôi
được bày tỏ đến Cô lòng biết ơn sâu sắc.
Tôi xin chân thành cảm ơn tập thể các nhà khoa học trong Bộ môn Điều khiển
tự động, Đại học Bách Khoa Thành phố Hồ Chí Minh đã có những đóng góp rất quí
báu về mặt học thuật để luận án này được hoàn thành.
Tôi cũng xin dành riêng lời cảm ơn đến các đồng nghiệp ở Khoa Công nghệ
Điện tử Đại học Công nghiệp Thành phố Hồ Chí Minh, đã tạo điều kiện về thời gian
để tôi hoàn thành luận án, cảm ơn các bạn ở Phòng Thí nghiệm Trọng điểm Quốc Gia
Điều khiển số và Kỹ thuật hệ thống Đại học Quốc Gia, Đại học Bách Khoa đã tạo môi
trường vui vẻ và chia sẻ những khó khăn trong thời gian tôi công tác tại đây.
Cuối cùng nhưng không kém phần quan trọng, tôi xin cảm ơn gia đình của tôi,
vợ và hai con, đã hết lòng ủng hộ tôi về thời gian, tinh thần, tình cảm, giúp tôi vượt
qua mọi khó khăn thử thách trên con đường nghiên cứu đầy chông gai nhiều lúc tưởng
chừng như bế tắt để hoàn thành luận án này.
vi
MỤC LỤC
DANH MỤC CÁC HÌNH VẼ
x
DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU
xii
DANH MỤC CÁC TỪ VIẾT TẮT
xiii
DANH MỤC CÁC KÝ HIỆU
xv
CHƢƠNG 1 GIỚI THIỆU
1.1
1
Tổng quan về đề tài ............................................................................................1
1.1.1 Khái niệm về học củng cố .......................................................................1
1.1.2 Lịch sử phát triển của RL trong điều khiển .............................................2
1.2
Động cơ, mục tiêu và nhiệm vụ nghiên cứu .......................................................5
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển ....................5
1.2.2 Tính cấp thiết của đề tài...........................................................................7
1.2.3 Mục tiêu nghiên cứu ................................................................................8
1.2.4 Nhiệm vụ nghiên cứu ..............................................................................8
1.3
Đối tượng, phạm vi và phương pháp nghiên cứu ...............................................9
1.3.1 Đối tượng và phạm vi nghiên cứu ...........................................................9
1.3.2 Phương pháp nghiên cứu .......................................................................11
1.4
Những đóng góp mới của luận án về mặt khoa học .........................................11
1.4.1 Về mặt lý thuyết ....................................................................................11
1.4.2 Về mặt thực tiễn ....................................................................................12
1.5
Bố cục luận án ..................................................................................................13
CHƢƠNG 2 CƠ SỞ LÝ THUYẾT
14
2.1
Các định nghĩa ..................................................................................................14
2.2
Lý thuyết học củng cố ......................................................................................14
2.3
Các giải thuật học củng cố kinh điển ...............................................................16
2.3.1 Giải thuật VI (Value Iteration) ..............................................................16
2.3.2 Giải thuật PI (Policy Iteration) ..............................................................17
2.3.3 Giải thuật Q-Learning............................................................................18
2.4
Xấp xỉ hàm trong RL ........................................................................................19
2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL ....................................19
2.4.2 Yêu cầu về xấp xỉ hàm trong RL ...........................................................20
2.5
Các loại xấp xỉ hàm trong RL, so sánh và đánh giá .........................................21
vii
2.6
Thuộc tính của NN truyền thẳng một lớp .........................................................21
2.7
Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm ...............................22
2.8
Tóm tắt..............................................................................................................25
CHƢƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU 27
3.1
Học củng cố trong điều khiển tối ưu ................................................................28
3.1.1 Mô tả bài toán ........................................................................................28
3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman).....................................28
3.2
Phân tích và thiết kế giải thuật học củng cố OADP .........................................31
3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online .............................31
3.2.2 Giải thuật OADP ...................................................................................34
3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP .................................35
3.3
Mô phỏng, so sánh và đánh giá ........................................................................35
3.4
Tóm tắt..............................................................................................................40
CHƢƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH
NGHI BỀN VỮNG
42
4.1
Học củng cố trong điều khiển thích nghi bền vững .........................................43
4.1.1 Mô tả bài toán ........................................................................................43
4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) ..........................................44
4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI ................................45
4.2
Giải thuật ORADP............................................................................................48
4.2.1 Cấu trúc điều khiển và luật cập nhật tham số ........................................48
4.2.2 Giải thuật ORADP .................................................................................52
4.3
Phân tích ổn định và hội tụ của giải thuật ORADP ..........................................53
4.4
Mô phỏng, so sánh và đánh giá ........................................................................54
4.5
Tóm tắt..............................................................................................................59
CHƢƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG
60
5.1
Mô hình phi tuyến của WMR ...........................................................................62
5.2
Mô hình WMR thực nghiệm ............................................................................66
5.3
Giải thuật ORADP áp dụng cho WMR ............................................................71
5.4
Mô phỏng..........................................................................................................73
5.4.1 Quỹ đạo tham chiếu ...............................................................................74
5.4.2 Thiết lập tham số học ............................................................................75
viii
5.4.3 Kết quả mô phỏng .................................................................................75
5.5
Thực nghiệm .....................................................................................................79
5.6
Tóm tắt..............................................................................................................85
CHƢƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN
VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO
87
6.1
Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO .....................88
6.1.1 Đồ thị truyền thông phân tán .................................................................88
6.1.2 Động học nút .........................................................................................89
6.1.3 Mô hình hợp tác nhiều hệ phi tuyến ......................................................90
6.2
Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP ...........................94
6.2.1 Học củng cố trong điều khiển hợp tác ...................................................94
6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng ...............94
6.2.3 Giải thuật ORADP mở rộng ..................................................................99
6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng ..............100
6.3
Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng ..........100
6.3.1 Mô hình hệ thống robot bầy đàn .........................................................101
6.3.2 Áp dụng giải thuật và kết quả mô phỏng.............................................104
6.4
Tóm tắt............................................................................................................108
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
110
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ
113
TÀI LIỆU THAM KHẢO
113
PHỤ LỤC A CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL
125
PHỤ LỤC B CHỨNG MINH ĐỊNH LÝ 3.1
133
PHỤ LỤC C CHỨNG MINH BỔ ĐỀ 4.4
137
PHỤ LỤC D CHỨNG MINH ĐỊNH LÝ 4.1
138
PHỤ LỤC E MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT
143
PHỤ LỤC F CHỨNG MINH BỔ ĐỀ 6.1
146
ix
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Minh họa về học củng cố .................................................................................2
Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu.......................4
Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞ ................4
Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu.........................16
Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN ................................................33
Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN 37
Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN.................................38
Hình 3.4 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ ...........................................38
Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không ...39
Hình 3.5 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý
thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết .......................39
Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị
khởi tạo của trọng số bằng không ..................................................................................40
Hình 4.2 Cấu trúc điều khiển ORADP sử dụng một NN..............................................51
Hình 4.3 Sự hội tụ của trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN.....56
Hình 4.4 ORADP và AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá
tối ưu xấp xỉ và tối ưu lý thuyết.....................................................................................57
Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý
thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết ................................57
Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với
giá trị khởi tạo bằng không ............................................................................................58
Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi
tạo bằng không...............................................................................................................58
Hình 5.1 Mô hình robot di động dạng xe (WMR) ........................................................62
Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước ..................................67
Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot ...............................................68
Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều ....................................69
Hình 5.5 Xác định tâm robot so với hệ trục cố định Oxy ..........................................69
Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR ..............................................72
Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển ...................74
Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển .......75
Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển ............................76
Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ ...........................78
Hình 5.12 Quỹ đạo 𝑥, 𝑦 trong quá trình học điều khiển: a) 𝑥; b) 𝑦..............................78
x
Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài ....................................79
Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ...................80
Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ ....................80
Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ ............80
Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ .............81
Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo 𝑥 − 𝑦 của robot so với tham chiếu..84
Hình 5.24 a) Sai số bám vị trí 𝑥, 𝑦, 𝜃 ; b) Sai số bám vận tốc dài ................................84
Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển.......................................84
Hình 6.1 Đồ thị truyền thông của 4 hệ phi tuyến..........................................................88
Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến ...............99
Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng ...............104
Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 3 ..............106
Hình 6.5 Chất lượng bám vị trí của đội hình: a) Sai số bám; Quỹ đạo bám x-y ........106
Hình 6.7 Đồng bộ hóa vị trí y qua các giai đoạn: a) Ban đầu; b) Hội tụ ....................107
Hình 6.8 Đồng bộ hóa hướng qua các giai đoạn: a) Ban đầu; b) Hội tụ .................107
Hình 6.9 Sai số bám vận tốc giữa các robot: a) Vận tốc dài; b) Vận tốc quay ...........108
Hình 6.10 Đồng bộ hóa vận tốc dài qua các giai đoạn: a) Ban đầu; b) Hội tụ ...........108
Hình 6.11 Đồng bộ hóa vận tốc quay qua các giai đoạn: a) Ban đầu; b) Hội tụ ........109
Hình 6.12 Mô men điều khiển đội hình robot sau khi hội tụ: a) Sau 100s; b) Hội tụ 109
Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần trong một nút ...125
Hình A.2 Cấu trúc mạng MLP một lớp ẩn, một đơn vị ngõ ra. ..................................126
Hình A.3 Cấu trúc mạng RBF ....................................................................................128
Hình A.4 Cấu trúc mạng RARBF ...............................................................................129
Hình A.5 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
hai mạng MLP có số đơn vị ẩn khác nhau. .................................................................132
Hình A.6 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
nhóm mạng CMAC. ....................................................................................................132
Hình A.7 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
nhóm mạng RBF. .........................................................................................................132
Hình E.1 Tập mẫu ngõ vào đo trong không gian ảnh .................................................143
Hình E.2 Tập mẫu ngõ ra mong muốn đo trong không gian thực...............................143
Hình E.3 Kết quả huấn luyện RBF so với mẫu mong muốn .....................................144
Hình E.4 Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) .......144
xi
DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU
Giải thuật 2.1
Giải thuật 2.2
Giải thuật 2.3
Giải thuật 2.4
Giải thuật 2.5
Giải thuật 2.6
Giải thuật 2.7
Giải thuật 3.1
Giải thuật 4.1
Giải thuật 5.1
Giải thuật 6.1
VI ...........................................................................................................16
PI ...........................................................................................................17
Q-Learning ............................................................................................18
ADP sử dụng hai NN cập nhật tuần tự .................................................23
ADP sử dụng hai NN cập nhật đồng bộ ................................................23
ADP sử dụng ba NN cập nhật tuần tự...................................................24
ADP sử dụng ba NN cập nhật đồng bộ .................................................25
OADP ....................................................................................................34
ORADP ..................................................................................................52
ORADP áp dụng cho WMR ...................................................................73
ORADP mở rộng ...................................................................................99
Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN.....................................38
Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không .....40
Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN ..................................56
xii
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết
tắt
(A)NN
ANRBF
Thuật ngữ tiếng anh
(Artificial) Neural Network
Giải thích
Mạng thần kinh (nhân tạo), được viết tắt là
NN trong luận án
Adaptive Normalized Radial NN có hàm cơ sở xuyên tâm được chuẩn
Basis Function
hóa thích nghi
Cấu trúc điều khiển Actor-Critic trong học
AC
Actor-Critic
củng cố gồm hai NN: Mạng critic xấp xỉ
hàm đánh giá tối ưu, mạng actor xấp xỉ luật
điều khiển tối ưu
ADP
Adaptive Dynamic
Programming
Qui hoạch động thích nghi, một phương
pháp học củng cố để xấp xỉ luật điều khiển
tối ưu online
ADP2NN ADP with two NNs
Cấu trúc điều khiển ADP với hai NN
ADP3NN ADP with three NNs
Cấu trúc điều khiển ADP với ba NN
NN actor đóng vai trò bộ điều khiển trong
ANN
Actor Neural Network
ARE
Algebraic Riccati Equation
Phương trình đại số Riccati
Cerebellar Model
NN dựa theo mô hình tiểu não
CMAC
cấu trúc AC
Articulation Controller
NN critic đóng vai trò xấp xỉ hàm đánh giá
CNN
Critic Neural Network
COD
Curse of Dimensionality
Sự bùng nổ tổ hợp không gian trạng thái
DP
Dynamic Programming
Qui hoạch động
HJB
Hamilton-Jacobi-Bellman
HJI
Hamilton-Jacobi-Isaacs
IDP
Incremental Dynamic
Programming
LS
Least Square
LQR
Linear Quadratic Regulation
MIMO
Multi Input-Multi Output
trong cấu trúc AC
Qui hoạch động tăng cường: phương pháp
xấp xỉ nghiệm ARE online cho hệ tuyến
tính không biết trước các ma trận trạng thái
Phương pháp bình phương tối thiểu
Điều khiển tối ưu tuyến tính dạng toàn
phương
Hệ thống nhiều đầu vào nhiều đầu ra
xiii
ML
Machine Learning
Học máy
MLP
Multi-Layer Perceptron
NN truyền thẳng nhiều lớp
Normalized Radial Basis
NN có hàm cơ sở xuyên tâm được chuẩn
Function
hóa
NRBF
OADP
Online Adaptive Dynamic
Programming
Qui hoạch động thích nghi online: một giải
thuật học củng cố được đề xuất trong luận
án để tìm luật điều khiển tối ưu online
Qui hoạch động thích nghi bền vững
ORADP
Online Robust Adaptive
online: một giải thuật học củng cố được đề
Dynamic Programming
xuất trong luận án để tìm luật điều khiển tối
ưu thích nghi bền vững online
Kích thích hệ thống bằng cách thêm nhiễu
PE
Persistence of Excitation
vào véc tơ tín hiệu vào/ra. PE là điều kiện
để tham số hội tụ trong nhận dạng và điều
khiển thích nghi.
Giải thuật học củng cố sử dụng một số
PI
Policy Iteration
RL
Reinforcement Learning
Học củng cố
RBF
Radial Basis Function
NN có hàm cơ sở xuyên tâm
Resource Allocating Radial
NN có hàm cơ sở xuyên tâm được cấp phát
Basis Function
động
Single Input-Single Output
Hệ thống một ngõ vào một ngõ ra
RARBF
SISO
bước lặp để xấp xỉ luật điều khiển tối ưu
Sai phân tạm thời: giải thuật cập nhật tham
TD
Temporal Difference
số của bộ dự báo liên quan đến sai phân tín
hiệu theo thời gian sử dụng trong học củng
cố
UUB
Uniform Ultimate Boun-ded Bị chặn tới hạn đều
VI
Value Iteration
WMR
Wheeled Mobile Robot
ZDGT
Zero-sum Differential Game
Theory
Giải thuật học củng cố sử dụng một số
bước lặp để xấp xỉ hàm đánh giá tối ưu
Robot di động dạng xe
Lý thuyết trò chơi sai phân tổng bằng
không ứng dụng trong lý thuyết điều khiển
tối ưu 𝐻∞
xiv
DANH MỤC CÁC KÝ HIỆU
ℝ
Tập các số thực
ℝ𝑛
Không gian các tọa độ thực (không gian Euclide) 𝑛 chiều
ℝ 𝑛×𝑚
Tập các ma trận có kích thước 𝑛 × 𝑚 chứa các phần tử số thực
Ω𝑥
Tập đóng (Ω 𝑥 ⊆ ℝ ) bao quanh gốc: nếu 𝑥 ∈ Ω 𝑥 thì 𝑥 là lân cận quanh
điểm cân bằng 𝑥0 .
𝑛
Chuẩn của véc tơ 𝑥
𝑥
𝑥
∞
𝐴
𝐴
Chuẩn vô cùng của véc tơ 𝑥
Chuẩn của ma trận 𝐴
∞
𝑉𝑥 𝑥
⊗
Chuẩn vô cùng của ma trận 𝐴
Gradient của hàm 𝑉(𝑥) theo 𝑥: 𝑉𝑥 𝑥 =
𝜕𝑉(𝑥)
𝜕𝑥
Tích Kronecker, X Y X T Y T , X Y X Y X Y ,
T
trong đó X và Y là các ma trận còn 𝛽 là đại lượng vô hướng
𝐼𝑛
𝟏
Ma trận đơn vị có chiều 𝑛 × 𝑛
𝟏 = 1, … ,1
𝑇
∈ ℝ𝑛
Diag(αi ) Ma trận đường chéo chứa các phần tử αi
𝐿2 0,∞
Không gian Banach, nếu ∀𝑑 ∈ 𝐿2 0,∞ thì
∞
0
𝑑
2
𝑑𝑡 < ∞
sub 𝑥(𝑡) Cận trên nhỏ nhất (cận trên đúng) của 𝑥(𝑡)
inf 𝑥(𝑡) Cận dưới lớn nhất (cận dưới đúng) của 𝑥(𝑡)
𝑊
Ma trận trọng số của NN
𝑤𝑖
Trọng số NN giữa đơn vị ẩn thứ 𝑖 và đơn vị ra (một ngõ ra)
𝑤 𝑖𝑗
Trọng số NN kết nối giữa ngõ ra của đơn vị 𝑖 và ngõ vào đơn vị 𝑗
𝑛𝑖, 𝑛
Lần lượt là số lượng nút ở lớp vào, số lượng nút ở lớp ẩn của NN
𝜙(𝑥)
Véc tơ hàm tác động của NN
𝑉 𝑥
Hàm đánh giá
𝑉 ∗ (𝑥)
Hàm đánh giá tối ưu
𝑢, 𝑢∗
Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu
𝑑
Véc tơ nhiễu của hệ thống
𝑥
Véc tơ tín hiệu trạng thái của hệ thống
𝑥0
Véc tơ trạng thái của hệ thống tại thời điểm 𝑡 = 0
xv
𝑦
Véc tơ ngõ ra của hệ thống
𝐽
Hàm chỉ tiêu chất lượng của hệ thống
𝜆 𝑚𝑖𝑛 𝐴
Trị riêng nhỏ nhất của ma trận 𝐴 (𝐴 ∈ ℝ
𝜆 𝑚𝑎𝑥 𝐴
Trị riêng lớn nhất ma trận 𝐴 (𝐴 ∈ ℝ
𝑄 𝑥
Hàm xác định dương, sao cho ∀𝑥 ≠ 0, 𝑄 𝑥 > 0 và 𝑄 𝑥 = 0 ⟺ 𝑥 = 0
𝑄
Ma trận trọng số xác định dương
𝑅
Ma trận trọng số đối xứng, xác định dương
𝑏1 , 𝑟1 , 𝑙
Bề rộng, bán kính bánh xe và khoảng cách từ tâm đến trục bánh sau của
robot di động
𝜏, 𝜏 𝑚
Véc tơ mô men điều khiển và mô men nhiễu của robot di động
xvi
𝑛×𝑛
𝑛×𝑛
)
)
CHƢƠNG 1
GIỚI THIỆU
1.1 Tổng quan về đề tài
1.1.1
Khái niệm về học củng cố
Học củng cố (Reinforcement Learning (RL)) thuộc lớp phương pháp học máy
(Machine Learning) [62], [95] dùng để giải bài toán tối ưu bằng cách liên tục điều
chỉnh hành động của tác tử (Agent). Lý thuyết RL hình thành dựa trên sự quan sát và
nghiên cứu thuộc tính và hành vi của động vật khi tương tác với môi trường để thích
nghi và tồn tại. Các giải thuật điều khiển dựa vào RL mô phỏng bản năng của động
vật. Đó là biết học hỏi từ sai lầm, biết tự dạy chính mình, biết sử dụng thông tin trực
tiếp từ môi trường cũng như thông tin đã đánh giá trong quá khứ để củng cố, điều
chỉnh hành vi nhằm liên tục cải thiện chất lượng tương tác, tối ưu hóa mục tiêu nào đó
theo thời gian (Hình 1.1).
Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết
định chọn hành động. Trong trường hợp đó, RL sử dụng phương pháp thử và sai có
đánh giá. Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh
giá và lưu trữ. Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn
được thực hiện để cải thiện chất lượng tương tác với môi trường [17], [55], [67], [70],
[95], [99], [111].
Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào
thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước. RL được
chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [42], [43]-[45], [62]
[71]-[72], [83], [91], [95]-[97], [99]-[102], [107]-[112].
Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic
Programming (DP)) [15] và phát triển thành lý thuyết qui hoạch động thích nghi
(Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate
Dynamic Programming (ADP)) [34], [37], [38], [42], [52], [59], [60], [71], [72], [83],
[91], [97], [108], [112], [113], [119], [127]-[129]. ADP đã khắc phục được các hạn chế
của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác.
Ngoài ra, khi ADP sử dụng xấp xỉ hàm sẽ khắc phục được các điểm yếu quan trọng của
1
- Xem thêm -