Lời cảm ơn
LỜI CẢM ƠN
Xin gửi lời cảm ơn chân thành nhất tới PGS.TS Nguyễn Thị Phương Hà,
người đã gợi mở cho học viên một hướng nghiên cứu độc đáo, có tính ứng dụng và
phù hợp với khả năng của học viên. Đồng thời đã tận tình hướng dẫn, giúp đỡ học
viên trong suốt thời gian thực hiện luận văn.
Học viên gửi lời cảm ơn tới mọi thành viên trong gia đình , tới Vợ và con
gái, những người đã tạo mọi điều kiện thời gian, vật chất và hết lòng chăm sóc,
động viên về tinh thần để học viên tập trung nghiên cứu hoàn thành luận văn.
Học viên cũng xin gửi lời cảm ơn đến tất cả những thầy, cô đã trực tiếp
giảng dạy trong suốt khóa học, những người bạn và học viên thuộc lớp cao học tự
động hóa khóa 2006 đã quan tâm liên lạc động viên trong trong suốt thời gian qua.
Cuối cùng học viên xin chân thành cảm ơn các đồng chí, đồng nghiệp đang
công tác tại Học viện Hải quân, nhà khách Quân chủng Hải quân tại thành phố
Hồ Chí Minh và Trường Cao Đẳng kỹ thuật Vinhempic đã tạo mọi điều kiện thuận
lợi nhất về sinh hoạt và học tập cho học viên trong suốt khóa học.
Học viên thực hiện
Phạm Quang Hiếu
LUẬN VĂN CAO HỌC
Trang i
Tóm tắt
TÓM TẮT
Luận văn đề cập một số giải thuật tìm luật điều khiển tối ưu cho hệ con lắc
ngược kép trên xe (DIPC). Mô hình toán học của hệ DIPC được xây dựng dựa vào
phương trình Euler-Lagrange và biến đổi về hệ phương trình trạng thái cho mục
đích thiết kế điều khiển.
Điều khiển tối ưu hệ DIPC với mục tiêu cực tiểu hàm chỉ tiêu chất lượng
dạng toàn phương. Có nhiều phương pháp được thực hiện: Phương pháp điều khiển
toàn phương tuyến tính (LQR), Phương pháp phương trình Riccati trạng thái phụ
thuộc (SDRE), phương pháp sử dụng giải thuật học của mạng nơ-ron (NN) và các
phương pháp kết hợp giữa giải thuật học của mạng nơ-ron và LQR hoặc SDRE .
Ngôn ngữ lập trình của Matlab 6.5 được sử dụng để lập trình hàm M mô
phỏng động hoạt động của hệ DIPC. Trên cơ sở phân tích và so sánh giá trị trung
bình hàm chi phí của từng phương pháp, cho thấy ưu thế vượt trội của phương pháp
SDRE trong thiết kế điều khiển.
ABSTRACT
In this dissertation presents a number of algorithms for optimal control of a
double inverted pendulum on a cart (DIPC). Mathematical model of DIPC is based
on Euler-Lagrange equation and transformed into a system of state equations for
control design purposes.
Optimal control problem of DIPC desires minimizing of a quadratic cost
function. Several approaches are presented: Linear Quadratic Regulator (LQR),
State-dependent Riccati Equation (SDRE), Neural Network learning control (NN)
and combinative methods of the NN with LQR or SDRE. Programming languge of
Matlab 6.5 is used to program M function for simulation results. The potential
advantage of the SDRE in control design is demostrated by comparision
of
simulation results
LUẬN VĂN CAO HỌC
Trang ii
Mục lục
MỤC LỤC
Chương 1: TỔNG QUAN.........................................................................................1
1.1 Đặt vấn đề nghiên cứu.....................................................................................1
1.2 Giới thiệu luận văn ..........................................................................................2
1.2.1 Phát biểu bài toán .....................................................................................2
1.2.2 Nhiệm vụ của luận văn .............................................................................3
1.2.3. Bố cục của luận văn .................................................................................3
Chương 2: CƠ SỞ LÝ THUYẾT.............................................................................6
2.1 Điều khiển tối ưu .............................................................................................6
2.1.1 Khái niệm về điều khiển tối ưu................................................................6
2.1.2 Các bài toán điều khiển tối ưu.................................................................8
2.1.2.1 Bài toán tối ưu hóa không có điều kiện ràng buộc..........................8
2.1.2.2 Bài toán tối ưu hóa có điều kiện ràng buộc .....................................8
2.1.3 Điều khiển tối ưu hệ thống rời rạc ........................................................10
2.1.4 Điều khiển tối ưu hệ thống liên tục .......................................................12
2.1.5 Điều khiển tối ưu hệ tuyến tính với phiếm hàm dạng toàn phương ..14
2.1.5.1 Hệ tuyến tính liên tục.......................................................................14
2.1.5.2 Hệ tuyến tính rời rạc........................................................................17
2.2 Mạng nơ ron nhân tạo..................................................................................19
2.2.1 Cấu trúc cơ bản của một nơ-ron sinh học ............................................20
2.2.2 Mô hình toán của mạng nơ ron nhân tạo. ............................................21
2.2.3 Mạng nơ-ron một lớp .............................................................................22
2.2.4 Mạng nơ-ron nhiều lớp...........................................................................23
2.2.5 Mạng hồi quy...........................................................................................27
2.2.6 Mạng hàm cơ sở xuyên tâm ..................................................................29
2.2.7 Luật học Delta-Bar-Delta.......................................................................29
2.3 Kết luận ..............................................................................................................30
LUẬN VĂN CAO HỌC
Trang iii
Mục lục
Chương 3: MÔ HÌNH CON LẮC NGƯỢC KÉP TRÊN XE .............................31
3.1 Mô hình vật lý ................................................................................................31
3.2 Mô hình toán học ...........................................................................................32
3.3 Phương trình trạng thái của hệ DIPC .........................................................35
3.4 Kết luận: .........................................................................................................36
Chương 4: ĐIỀU KHIỂN TỐI ƯU HỆ DIPC ......................................................37
4.1 Bài toán điều khiển........................................................................................37
4.2 Phương pháp LQR ........................................................................................38
4.2.1 Cách giải bài toán ...................................................................................38
4.2.2 Kết quả mô phỏng...................................................................................40
4.3 Phương pháp SDRE ......................................................................................43
4.3.1 Giải thuật của phương pháp SDRE ......................................................43
4.3.2 Kết quả mô phỏng...................................................................................46
4.4 Phương pháp sử dụng giải thuật học của mạng nơ ron.............................50
4.4.1 Cách giải bài toán ...................................................................................50
4.4.2 Giải thuật học điều khiển .......................................................................58
4.4.2.1 Các bước thực hiện giải thuật.........................................................58
4.4.2.2 Sơ đồ giải thuật.................................................................................60
4.4.3 Kết quả mô phỏng...................................................................................62
4.5 Phương pháp kết hợp giải thuật học của mạng nơ-ron và LQR ..............65
4.5.1 Cách giải bài toán ...................................................................................65
4.5.2 Giải thuật của phương pháp NN+LQR ................................................67
4.5.2.1 Các bước thực hiện giải thuật.........................................................67
4.5.2.2.Sơ đồ giải thuật.................................................................................70
4.5.3 Kết quả mô phỏng...................................................................................71
4.6 Phương pháp kết hợp giải thuật học của mạng nơ-ron và SDRE ............73
4.6.1 Cách giải bài toán ...................................................................................73
4.6.2 Giải thuật theo phương pháp kết hợp NN và SDRE ...........................74
4.6.2.1 Các bước thực hiện giải thuật.........................................................74
LUẬN VĂN CAO HỌC
Trang iv
Mục lục
4.6.2.2.Sơ đồ giải thuật.................................................................................77
4.6.3 Kết quả mô phỏng...................................................................................79
Chương 5: KẾT LUẬN...........................................................................................82
5.1 Nội dung thực hiện ........................................................................................82
5.2 Kết quả đạt được ...........................................................................................90
5.3 Hạn chế của luận văn ....................................................................................90
5.4 Hướng phát triển của đề tài..........................................................................90
TÀI LIỆU THAM KHẢO VÀ TRÍCH DẪN........................................................92
PHỤ LỤC .................................................................................................................94
LUẬN VĂN CAO HỌC
Trang iv
Mục lục hình vẽ
MỤC LỤC HÌNH MINH HỌA
Hình 2.1: Cấu trúc của một nơ-ron sinh học.............................................................20
Hình 2.2: Cấu trúc của một nơ-ron nhân tạo.............................................................21
Hình 2.3 Mạng nơ-ron một lớp .................................................................................22
Hình 2.4: Cấu trúc của mạng nơ-ron ba lớp..............................................................24
Hình 2.5 Biểu diễn hàm năng lượng sai số một chiều ..............................................26
Hình 2.6: Mạng hồi quy toàn phần ...........................................................................27
Hình 2.7: Mạng hồi quy bán phần Jordan.................................................................28
Hình 2.8: Mạng hồi quy bán phần Elman .................................................................28
Hình 2.9: Cấu trúc mạng RBF...................................................................................29
Hình 3.1: Mô hình hệ con lắc ngược kép trên xe......................................................31
Hình 4.1:Sơ đồ khối điều khiển tối ưu theo phương pháp LQR...............................39
Hình 4.2 Kết quả mô phỏng của phương pháp LQR với θ1=100 và θ2= -100 ..........40
Hình 4.3 Kết quả mô phỏng của phương pháp LQR với θ1=150 và θ2= -150 ..........41
Hình 4.4 Kết quả mô phỏng của phương pháp LQR với θ1=200 và θ2= 200 ...........41
Hình 4.5: Kết quả mô phỏng của phương pháp LQR với θ1=350 và θ2=350 ...........42
Hình 4.6: Sơ đồ khối minh họa điều khiển theo phương pháp SDRE ......................44
Hình 4.7: Kết quả so sánh phương pháp SDRE và LQR với θ1=50; θ2 =-50 .............46
Hình 4.8: Kết quả so sánh phương pháp SDRE và LQR với θ1=100; θ2 =-100 .........47
Hình 4.9: Kết quả so sánh phương pháp SDRE và LQR với θ1=180; θ2 =-180 .........47
Hình 4.10: Kết quả so sánh phương pháp SDRE và LQR với θ1=320; θ2 =320 ........48
Hình 4.11: Kết quả mô phỏng của phương pháp SDRE với θ1=280; θ2 =-280 ..........48
Hình 4.12: Kết quả mô phỏng của phương pháp SDRE với θ1=400; θ2 =400 ...........49
Hình 4.13: Mạng nơ-ron truyền thẳng 3 lớp .............................................................51
Hình 4.14: Sơ đồ khối điều điều khiển dùng mạng nơ-ron.......................................54
Hình 4.15: Sơ đồ khối cập nhật tính vector λk của phương pháp NN.......................55
Hình 4.16: Sơ đồ thực hiện giải thuật theo phương pháp NN ..................................61
Hình 4.17:Giao diện mô phỏng điều khiển hệ DIPC theo phương pháp NN ...........62
LUẬN VĂN CAO HỌC
Trang vi
Mục lục hình vẽ
Hình 4.18:Giao diện dùng đặt thông số ban đầu.......................................................62
Hình 4.19:Kết quả mô phỏng động điều khiển hệ DIPC ..........................................63
Hình 4.20: Kết quả mô phỏng của phương pháp NN với θ1=100; θ2=-100 ...............63
Hình 4.21: Kết quả mô phỏng của phương pháp NN với θ1=120; θ2=-120 ...............64
Hình 4.22: Kết quả mô phỏng của phương pháp NN với θ1=320; θ2=320 ................64
Hình 4.23: Sơ đồ khối điều điều khiển theo phương pháp NN+LQR ......................66
Hình 4.24: Sơ đồ khối cập nhật tính vector λk của phương pháp NN+LQR ............67
Hình 4.25: Sơ đồ thực hiện giải thuật theo phương pháp NN+LQR ........................70
Hình 4.26: Kết quả mô phỏng của phương pháp NN+LQR với θ1=100; θ2=-100 .....71
Hình 4.27: Kết quả mô phỏng của phương pháp NN+LQR với θ1=120; θ2=-120 .....71
Hình 4.28: Kết quả mô phỏng của phương pháp NN+LQR với θ1=320; θ2=320 ......72
Hình 4.29: Sơ đồ khối điều điều khiển dùng mạng nơ-ron kết hợp với SDRE ........73
Hình 4.30: Sơ đồ khối cập nhật tính vector λk của phương pháp NN+SDRE ..........74
Hình 4.31: Sơ đồ thực hiện giải thuật theo phương pháp NN+SDRE ......................78
Hình 4.32: Kết quả mô phỏng của phương pháp NN+SDRE với θ1=100; θ2= -100..79
Hình 4.33: Kết quả mô phỏng của phương pháp NN+SDRE với θ1=120; θ2= -120..79
Hình 4.34: Kết quả mô phỏng của phương pháp NN+SDRE với θ1=250; θ2=250 ....80
Hình 4.35: Kết quả mô phỏng của phương pháp NN+SDRE với θ1=320; θ2= 320 ...80
Hình 5.1: Đáp ứng của các phương pháp với góc lệch ban đầu θ1 =100 ; θ 2 = -100 ..85
Hình 5.2: Đáp ứng của các phương pháp với góc lệch ban đầu θ1 = 15o ; θ 2 = 15o .....86
Hình 5.3: Đáp ứng của các phương pháp với góc lệch ban đầu θ1 = 12o ; θ 2 = −12o .87
Hình 5.4: Đáp ứng của các phương pháp với góc lệch ban đầu θ1 = 30o θ 2 = 30o ....88
LUẬN VĂN CAO HỌC
Trang vii
Chữ viết tắt
CHỮ VIẾT TẮT
Back Propagation Through Time
: BPTT
Double Inverted Pendulum on a Cart: DIPC
Linear Quadratic Regulator
: LQR
Neural Network
: NN
State-Dependent Riccati Equation
: SDRE
State-dependent coefficient
: SDC
LUẬN VĂN CAO HỌC
Trang viii
-1-
Chương 1
Chương 1
TỔNG QUAN
1.1 Đặt vấn đề nghiên cứu
Hệ con lắc ngược là mô hình có nhiều ứng dụng trong các thiết bị máy móc
kỹ thuật, đặc biệt trong lĩnh vực hàng không và được sử dụng phổ biến trong các
phòng thí nghiệm kỹ thuật điều khiển ở nhiều trường đại học trên thế giới. Hệ con
lắc ngược có nhiều dạng: hệ con lắc ngược đơn, hệ con lắc ngược kép, hệ con lắc
ngược xoay… Là mô hình có tính chất phi tuyến và bất định, nên hệ con lắc ngược
được coi là công cụ hữu hiệu để thực hiện khảo sát các bài toán tìm luật điều khiển
cho hệ thống tuyến tính cũng như phi tuyến, đồng thời là mô hình phù hợp phục vụ
cho việc nghiên cứu thiết kế điều khiển các hệ thống máy móc kỹ thuật trong thực
tế. Ví dụ, trong quân sự được ứng dụng khi phân tích thiết kế điều khiển bệ phóng
tên lửa, bệ pháo trên xe tự hành [11], trong y học điều khiển giữ thăng bằng cho xe
hỗ trợ người tàn tật khi di chuyển, hoặc điều khiển thiết bị hỗ trợ lấy sách trên giá
cao trong các thư viện lớn… Đã có rất nhiều công trình nghiên cứu về điều khiển
mô hình này, nhưng điều khiển hệ con lắc ngược vẫn là một hướng nghiên cứu hấp
dẫn đối với các nhà khoa học về điều khiển trong nhiều năm gần đây.
Điều khiển hệ con lắc ngược là một bài toán phức tạp, bao gồm hai vấn đề:
Điều khiển dựng đứng con lắc từ vị trí bên dưới lên vị trí thẳng đứng bên trên
(Swingup control) và điều khiển con lắc giữ thăng bằng ở vị trí thẳng đứng bên trên
(Stability control) [1, 3, 15]. Có nhiều phương pháp điều khiển mô hình con lắc
ngược đã được nghiên cứu: Điều khiển mờ với hai bộ điều khiển mờ gồm điều
khiển dựng đứng (swingup control) và điều khiển ổn định (stability control) mô
hình thực của hệ con lắc ngược [15,19]; Điều khiển phi tuyến cho mô hình mờ hệ
con lắc ngược kép [8]; Bộ điều khiển suy diễn nơ ron mờ thích nghi (ANFIS) với
mô hình mờ Takagi Sugeno để ổn định thăng bằng con lắc ngược đơn ở vị trí thẳng
đứng (Stability control) [3]; Điều khiển thích nghi dựa trên nguyên lý Novel trong
tính toán mềm (Adaptive Control Base on Novel Principles of Soft Computing)
[10]; Điều khiển bền vững con lắc ngược đơn [5]...
LUẬN VĂN CAO HỌC
-2-
Chương 1
Các phương pháp điều khiển đề cập ở trên đã cho kết quả điều khiển tốt đối
với hệ con lắc ngược trong điều kiện không yêu cầu cực tiểu hàm chỉ tiêu chất
lượng (Perfomance Index PI). Trong thực tế chất lượng điều khiển đối tượng cần
phải thỏa mãn những chỉ tiêu đặt ra như: swingup con lắc với thời gian tối thiểu, ổn
định con lắc trong khoảng thời gian ngắn nhất, ít tiêu hao năng lượng…Trường hợp
yêu cầu điều khiển ổn định con lắc ngược với mong muốn cực tiểu một hàm chỉ tiêu
chất lượng nào đó, thì giải pháp điều khiển tối ưu với bộ điều khiển LQR được dùng
phổ biến và cho chất lượng điều khiển tốt, đồng thời đơn giản trong thiết kế điều
khiển [4, 14, 18, 22]. Tuy nhiên, bộ điều khiển LQR được áp dụng điều khiển cho
mô hình tuyến tính. Hệ con lắc ngược kép là mô hình có tính chất phi tuyến cao, kết
quả điều khiển LQR không đáp ứng được yêu cầu mong muốn. Đã có nhiều bài báo
khoa học đề cập đến các giải pháp điều khiển tối ưu mô hình phi tuyến như: Phương
pháp phương trình Riccati biến trạng thái phụ thuộc (SDRE) [1, 2], phương pháp sử
dụng thuật toán lan truyền ngược qua thời gian (BPTT) để huấn luyện mạng nơ-ron
cực tiểu hàm chi phí (Cost Function) trong điều khiển ổn định con lắc ngược
đơn [12].
Xuất phát từ yêu cầu thực tiễn, bất cứ thiết bị nào cũng mong muốn làm việc
ở trạng thái tối ưu theo một tiêu chuẩn nào đó. Luận văn này nghiên cứu một số giải
thuật điều khiển ổn định tối ưu hệ con lắc ngược kép. Mục đích của luận văn: Ứng
dụng một số giải thuật đã trình bày để giải bài toán điều khiển ổn định tối ưu cho hệ
con lắc ngược kép trên xe (DIPC), là một đối tượng có nhiều ứng dụng trong lĩnh
vực mà tác giả đang công tác. Khẳng định ưu thế vượt trội của phương pháp được
ứng dụng điều khiển đối với mô hình này qua đánh giá kết quả mô phỏng của từng
phương pháp.
1.2 Giới thiệu luận văn
1.2.1 Phát biểu bài toán
Tìm luật điều khiển tối ưu hàm chỉ tiêu chất lượng (Performance Index PI)
dạng toàn phương cho mô hình con lắc ngược kép trên xe (DIPC) với các thông số
LUẬN VĂN CAO HỌC
-3-
Chương 1
cho trước (vị trí ban đầu của xe cố định, các con lắc từ một vị trí góc lệch ban đầu
so với phương thẳng đứng...).
1.2.2 Nhiệm vụ của luận văn
1. Nghiên cứu lý thuyết điều khiển tối ưu cho hệ phi tuyến và giải thuật huấn luyện
mạng nơ-ron truyền thẳng 3 lớp.
2. Điều khiển tối ưu hệ con lắc ngược kép trên xe (DIPC) với mô hình tuyến tính:
¾ Phương pháp điều khiển tuyến tính hóa dạng toàn phương (LQR).
3. Nghiên cứu giải thuật giải bài toán điều khiển tối ưu hệ con lắc ngược kép trên xe
với mô hình phi tuyến theo các phương pháp sau:
¾ Phương pháp phương trình Riccati biến trạng thái phụ thuộc (StateDependent Riccati Equation - SDRE).
¾ Phương pháp dùng giải thuật học của mạng nơ ron truyền thẳng 3 lớp.
¾ Phương pháp kết hợp giữa giải thuật học của mạng nơ ron và LQR
hoặc SDRE.
4. Dùng ngôn ngữ lập trình của phần mềm Matlab 6.5 để lập trình hàm M mô phỏng
động hoạt động của hệ thống và kết quả của từng phương pháp.
5. Phân tích, đánh giá so sánh kết quả mô phỏng của các phương pháp .
1.2.3. Bố cục của luận văn
Với nhiệm vụ thực hiện luận văn ở trên, bố cục của luận văn gồm 5 chương:
Chương 1: Tổng quan
Giới thiệu khái quát một số công trình đã được công bố có liên quan đến điều
khiển hệ con lắc ngược, ý nghĩa ứng dụng của mô hình này trong thực tế, mục đích
nghiên cứu, nhiệm vụ thực hiện và nội dung sơ lược của luận văn.
Chương 2: Cơ sở lý thuyết
Lý thuyết điều khiển tối ưu cho hệ phi tuyến và thuật toán lan truyền ngược
huấn luyện mạng nơ-ron truyền thẳng 3 lớp.
LUẬN VĂN CAO HỌC
-4-
Chương 1
Chương 3: Mô hình hệ con lắc ngược kép
Dựa vào phương trình Euler-Lagrange để xây dựng mô hình toán đối tượng
con lắc ngược kép trên xe (DIPC).
Chương 4: Đây là phần nội dung chính của luận văn
Trình bày bài toán điều khiển tối ưu hệ con lắc ngược kép trên xe (DIPC),
giải thuật tìm luật điều khiển theo các phương pháp và kết quả mô phỏng của từng
phương pháp:
+ Giải thuật điều khiển tối ưu hệ con lắc ngược kép trên xe với mô hình
tuyến tính theo phương pháp LQR. Kết quả của phương pháp này là chuẩn để so
sánh, đánh giá kết quả điều khiển của các phương pháp khác áp dụng cho mô hình
phi tuyến.
+ Giải thuật tìm luật điều khiển theo phương pháp phương trình Riccati trạng
thái phụ thuộc (SDRE). Ý tưởng của phương pháp là biến đổi phương trình động
học của hệ con lắc ngược kép trên xe thành dạng phương trình trạng thái giả tuyến
tính (pseudo-linear) với các ma trận hệ thống là những hệ số phụ thuộc biến trạng
thái ( State-dependent coefficient – SDC), sau đó luật điều khiển tối ưu được tính
cho hệ thống tuyến tính quanh trạng thái ước lượng tại mỗi bước thời gian. Phương
pháp SDRE được coi là một trường hợp mở rộng của LQR cho hệ phi tuyến, vì bản
chất của phương pháp này là giải bài toán LQR tại mỗi bước thời gian.
+ Giải thuật tìm luật điều khiển theo phương pháp NN (Neural Network). Để
thực hiện theo phương pháp này, một mạng nơ-ron truyền thẳng ba lớp được sử
dụng trong vòng hồi tiếp, và ứng dụng thuật toán lan truyền ngược cập nhật trọng số
kết nối của mạng với mục tiêu cực tiểu hàm chỉ tiêu chất lượng (PI).
+ Giải thuật tìm luật điều khiển theo phương pháp kết hợp giữa mạng nơ-ron
(NN) với LQR hoặc SDRE. Với phương pháp này bộ điều khiển trong vòng hồi tiếp
là sự kết hợp giữa mạng nơ-ron và bộ điều khiển LQR hoặc SDRE. Hạn chế của
phương pháp dùng giải thuật học của mạng nơ-ron là khả năng xấp xỉ hàm của
mạng bị giới hạn bởi kích thước của mạng và khả năng hội tụ của thuật toán trong
quá trình học. Bởi thế kết quả tìm được của phương pháp NN thông thường là giá trị
LUẬN VĂN CAO HỌC
-5-
Chương 1
cực tiểu cục bộ. Phương pháp kết hợp này mong muốn làm đơn giản cấu trúc của
mạng nơ-ron và giảm số chu kỳ huấn luyện.
Chương 5: Kết luận
Phân tích, đánh giá các kết quả đã thực hiện, khẳng định tính ưu việt của
phương pháp được lựa chọn cho mô hình này. Rút ra những vấn đề chưa thực hiện
được trong luận văn và đề xuất hướng phát triển của đề tài.
LUẬN VĂN CAO HỌC
-6-
Chương 2
Chương 2
CƠ SỞ LÝ THUYẾT
2.1 Điều khiển tối ưu
2.1.1 Khái niệm về điều khiển tối ưu
Điều khiển tối ưu cho một hệ thống là giải bài toán tìm luật điều khiển cho
hệ thống, để hệ thống làm việc ở trạng thái tối ưu được đặt ra theo một tiêu chuẩn
nào đó.Trạng thái tối ưu có đạt được hay không phụ thuộc vào nhiều yếu tố như:
yêu cầu chất lượng đặt ra, sự hiểu biết về đối tượng, các tác động lên đối tượng,
điều kiện làm việc của hệ thống điều khiển…Thông thường điều khiển tối ưu là quá
trình giải bài toán tìm luật điều khiển và quỹ đạo trạng thái của một hệ thống động
qua một giai đoạn thời gian để cực tiểu hóa một hàm chỉ tiêu chất lượng. Điều khiển
tối ưu là một lĩnh vực được nghiên cứu từ rất sớm. Một số nhà khoa học có công
trình nghiên cứu đóng góp quan trọng cho lý thuyết điều khiển tối ưu, đó là: Johann
Bernoulli (1667-1748), Issac Newton (1642-1727), Leonhard Euler (1707-1793),
Ludovico Lagrange (1736-1813), Andrien Legendre (1752-1833), Carl Jacobi
(1804-1851), William Hamilton (1805-1865), Karl Weierstrass (1815-1897),
Adolph mayer (1839-1907) và Oskar Bolza (1857-1942)…Phương pháp giải bài
toán điều khiển tối ưu đã có từ năm 1766 đó là phương pháp biến phân cổ điển của
Euler-Lgarange. Nhưng các phương pháp điều khiển tối ưu đã được phát triển mạnh
mẽ trong những năm của thế kỷ 20. Năm 1950, Richard Bellman đã nghiên cứu và
ứng dụng phương pháp quy hoạch động. Phương pháp nguyên lý cực tiểu của Lew
Pontryagin được công bố năm 1956. Phương pháp điều khiển tuyến tính hóa dạng
toàn phương (Linear Quadratic Regulator) và bộ lọc Kalman của Rudolf Kalman
năm 1960…
Điều khiển tối ưu đã được ứng dụng trong nhiều lĩnh vực khác nhau như
hàng không vũ trụ, điều khiển quá trình, robot, công nghệ sinh học, kinh tế…Trước
khi có sự xuất hiện của máy tính số năm 1950 thì lý thuyết điều khiển tối ưu chỉ có
thể giải những bài toán điều khiển tối ưu đơn giản. Sự ra đời và phát triển của máy
LUẬN VĂN CAO HỌC
-7-
Chương 2
tính số đã cho phép ứng dụng lý thuyết và phương pháp điều khiển tối ưu vào nhiều
hệ thống phức tạp.
Có nhiều dạng bài toán điều khiển tối ưu, được phân loại dựa vào hàm chỉ
tiêu chất lượng, vào thời gian ( liên tục hay rời rạc), vào điều kiên ràng buộc (có
điều kiện, hay không có điều kiện ràng buộc)…Một bài toán điều khiển tối ưu
thường phụ thuộc vào: Mô hình toán của đối tượng điều khiển, đặc điểm của hàm
chỉ tiêu chất lượng (Performance Index PI), đặc trưng của điều kiện biên (boundatry
condition) và những điều kiện ràng buộc…
Điều khiển tối ưu là bài toán tìm luật điều khiển để cực tiểu hàm chỉ tiêu
chất lượng J. Chỉ tiêu chất lượng J có thể được đánh giá theo những tiêu chí khác
nhau: đánh giá theo sai lệch đáp ứng ra của hệ thống so với đáp ứng ra mong muốn,
đánh giá theo lượng quá điều khiển, theo thời gian quá độ, hay theo một tiêu chí hỗn
hợp trong điều kiện làm việc nhất định ( như hạn chế về tốc độ, gia tốc, công
suất…). Vì vậy việc chọn luật điều khiển và cơ cấu điều khiển để đạt được chế độ
làm việc tối ưu phụ thuộc vào lượng thông tin ban đầu. Ví dụ, khi thiết kế hệ tối ưu
tác động nhanh thì yêu cầu của hệ là nhanh chóng chuyển từ trạng thái này sang
trạng thái khác với thời gian quá độ nhỏ nhất, nghĩa là cực tiểu hóa thời gian quá độ.
Hoặc khi tính toán động cơ của máy bay, tên lửa thì chỉ tiêu chất lượng đặt ra là làm
thế nào với khoảng cách bay xác định nhiên liệu tiêu hao là ít nhất, có nghĩa là tối
ưu hóa về mặt năng lượng. Bài toán tối ưu hóa có hai dạng: Tối ưu hóa tĩnh là bài
toán không phụ thuộc thời gian; tối ưu hóa động là bài toán coi thời gian cũng là
biến.
Hàm chỉ tiêu chất lượng J thường có dạng [7, 24]:
t
J = ∫ L ( x(t ), u (t ), t )dt
(Đối với hệ liên tục)
(2.1)
0
tf
J = ∑ L ( xk , uk , )
(Đối với hệ rời rạc)
(2.2)
k =t
Trong đó L là một phiếm hàm đối với x , tín hiệu điều khiển u và thời gian t. Tùy
thuộc vào yêu cầu của bài toán điều khiển để chọn phiếm hàm L cho phù hợp.
LUẬN VĂN CAO HỌC
-8-
Chương 2
2.1.2 Các bài toán điều khiển tối ưu
2.1.2.1 Bài toán tối ưu hóa không có điều kiện ràng buộc
Là bài toán tìm giá trị điều khiển u sao cho phiếm hàm L(u) đạt giá trị nhỏ
nhất. Trong đó L(u) là một hàm của một vector điều khiển. Phương pháp chung để
giải bài toán tối ưu dạng này là khai triển hàm L(u) dưới dạng một chuỗi Taylor
1
dL = LTu du + du T Luu du + o(3)
2
(2.3)
Trong đó o(3) là số hạng thứ 3, Lu là gradien của L theo u và Luu là đạo hàm
cấp 2 của L theo u (ma trận uốn-Hessian)
⎡ ∂L ⎤
⎢ ∂u ⎥
⎢ 1⎥
⎢ ∂L ⎥
∂L ⎢
= ⎢ ∂u2 ⎥⎥
Lu =
∂u
⎢ # ⎥
⎢
⎥
⎢ ∂L ⎥
⎢⎣ ∂un ⎥⎦
Luu =
∂2 L ⎛ ∂2 L
=⎜
∂u 2 ⎜⎝ ∂ui ∂u j
(2.4)
⎞
⎟⎟
⎠
(2.5)
Một điểm cực trị xuất hiện khi có sự biến thiên dL với thành phần thứ nhất ở
vế phải của phương trình (2.3) tiến về 0 với mọi biến thiên của du trong quá trình
điều khiển.Vì vậy, điều kiện để L có cực trị là Lu = 0. Để cực trị của hàm L là cực
tiểu của hàm L, thì dL phải xác định dương với mọi biến thiên của du. Điều này xảy
ra khi ma trận uốn Luu >0.
Như vậy, bài toán tối ưu không có điều kiện ràng buộc sẽ là bài toán tìm luật
điều khiển u thỏa mãn điều kiện Lu=0 và Luu>0.
2.1.2.2 Bài toán tối ưu hóa có điều kiện ràng buộc
Là bài toán tìm luật điều khiển u sao cho phiếm hàm L(x,u) đạt cực tiểu và
động thời thỏa mãn điều kiện ràng buộc.
f ( x ,u ) = 0
Trong đó f là một hệ n phương trình vô hướng, f ∈ R n
LUẬN VĂN CAO HỌC
(2.6)
-9-
Chương 2
Phương pháp chung tìm điều kiện cần và đủ để cực tiểu L(x,u) và đồng thời
thỏa mãn f ( x,u ) = 0 , là triển khai dL dưới dạng chuỗi Taylor, sau đó xác định Lu và
Luu như biểu thức (2.4) và (2.5) đã trình bày.
Tại điểm cực trị của hàm L ta có:
dL = LTu du + LTx dx = 0
df = fu du + f x dx = 0
(2.7)
Từ phương trình (2.7) ta suy ra:
dx = − f x−1 fu du
(2.8)
dL = ( LTu − LTx f x−1 fu )du
(2.9)
Mặt khác đạo hàm riêng của L theo u được cho bởi:
T
∂L
= ( LTu − LTx f x−1 fu ) = ( Lu − f x−T f u Lx )
∂u df =0
(2.10)
Để dL = 0 với du tùy ý khi df = 0 ta phải có:
Lu − f x−T fu Lx = 0
(2.11)
Biểu thức (2.11) chính là điều kiện cần để hàm L có cực tiểu.
Một cách khác để tìm cực tiểu của hàm L khi có điều kiện ràng buộc đó là sử
dụng phương pháp đặt λ là vector nhân tử Lagrange như một biến trung gian. Kết
hợp hàm chỉ tiêu chất lượng và điều kiện ràng buộc để lập hàm Hamilton:
H ( x ,u ,λ ) = L( x ,u ) + λ T f ( x ,u )
(2.12)
Khi này điều kiện cần để có cực tiểu của hàm L(x,u) thỏa mãn điều kiện ràng
buộc f(x,u) = 0 là:
∂H
= f ( x ,u ) = 0
∂λ
(2.13)
∂H
= Lx + f xT λ = 0
∂x
(2.14)
∂H
= Lu + fuT λ = 0
∂u
(2.15)
Trong nhiều trường hợp chúng ta không quan tâm đến giá trị của λ, tuy nhiên
vẫn phải tìm giá trị của nó, vì nó là một biến trung gian để xác định các đại lượng
cần tìm là x, u và giá trị cực tiểu của L.
LUẬN VĂN CAO HỌC
-10-
Chương 2
Như vậy, bằng cách đặt vector nhân tử Lagrange λ chúng ta có thể thay thế
bài toán tìm giá trị nhỏ nhất của L(x,u) với điều kiện ràng buộc f(x,u) = 0 thành bài
toán tìm giá trị nhỏ nhất của hàm Hamilton H(x,u, λ) không có điều kiện ràng buộc.
2.1.3 Điều khiển tối ưu hệ thống rời rạc
Cho đối tượng phi tuyến được mô tả bởi phương trình động học như sau:
xk +1 = f k ( xk , uk )
(2.16)
Giả sử hàm chỉ tiêu chất lượng cho bởi:
N −1
J i = Φ ( N , xN ) + ∑ Lk ( xk , uk )
(2.17)
k =i
Trong đó Φ ( N , xN ) là hàm của trạng thái cuối và thời gian cuối, Lk ( xk , uk ) là hàm
của biến trạng thái và đầu vào điều khiển tại mỗi bước thời gian k trong khoảng
[i,N]. Bài toán điều khiển tối ưu cho đối tượng (2.16) là bài toán tìm luật điều khiển
u k* trong khoảng thời gian [i,N], với mong muốn cực tiểu hàm chỉ tiêu chất lượng
theo biểu thức (2.17).
Để giải bài toán này, sử dụng phương pháp đặt nhân tử Lagrange và lập hàm
Hamilton như đã trình bày ở trên.
Vì hàm f k ( xk , uk ) bị ràng buộc tại mỗi bước thời gian k trong khoảng thời
gian [i,N], nên nhân tử lagrange được đặt là một vector λk ∈ R n . Với việc đặt vector
nhân tử Lagrange thì hàm chỉ tiêu chất lượng được viết:
N −1
J = Φ ( N , xN ) + ∑ ⎡⎣ Lk ( xk , uk ) + λkT+1 ( f k ( xk , uk ) − xk +1 ) ⎤⎦
(2.18)
k =i
Hàm Hamilton được định nghĩa như sau:
H k ( xk , uk ) = Lk ( xk , uk ) + λkT+1 f k ( xk , uk )
(2.19)
Từ phương trình (2.18) và (2.19) ta có:
J = Φ ( N , xN ) − λNT xN + H i ( xi , ui ) +
N −1
∑ ⎡⎣ H
k =i +1
k
( xk , uk ) − λkT xk ⎤⎦
(2.20)
Giả sử thời gian cuối N là cố định, và để J đạt cực tiểu thì dj phải bằng 0, vì vậy ta
có biểu thức:
LUẬN VĂN CAO HỌC
-11-
(
dJ = Φ xN − λN
+
N −1
)
T
( )
dxN + H xi i
(
⎡ HT −λ
∑
k
⎢ xk
k =i +1 ⎣
Trong đó: H xk =
k
)
T
T
Chương 2
dxi + H uTi dui
(
dxk + H ukk
)
T
N
(
duk ⎤ + ∑ H λkk−1 − xk
⎦⎥ k =i +1
)
T
d λk = 0
(2.21)
∂H k
∂H k
∂H k
∂Φ
; H ukk =
; H λkk =
; Φ xN =
∂uk
∂λk
∂xk
∂xN
Vậy từ phương trình 2.21 điều kiện cần để cực tiểu có ràng buộc là:
xk +1 =
λk =
∂H k
∂λk +1
k = i,..., N − 1
∂H k
∂xk
(2.22)
k = i,..., N − 1
∂H k
=0
∂uk
(2.23)
k = i,..., N − 1
(2.24)
Tóm tắt các bước tìm luật điều khiển tối ưu cho hệ phi tuyến rời rạc như sau [7]:
- Mô hình của hệ thống có dạng:
xk +1 = f k ( xk , uk )
k>i
(2.25)
J i = Φ ( N , xN ) + ∑ Lk ( xk , uk )
(2.26)
- Chỉ tiêu chất lượng:
N −1
k =i
- Hàm Hamilton được thiết lập là:
H k ( xk , uk ) = Lk ( xk , uk ) + λkT+1 f k ( xk , uk )
(2.27)
- Phương trình trạng thái:
xk +1 =
∂H k
∂λk +1
k = i,..., N − 1
(2.28)
- Phương trình đồng trạng thái:
λk =
∂H k ⎛ ∂f k
=⎜
∂xk
⎝ ∂xk
⎞
∂Lk
λ
+
⎟ k +1
∂xk
⎠
k = i,..., N − 1
(2.29)
- Điều kiện xác lập:
∂H k ⎛ ∂f k
=⎜
∂uk ⎝ ∂uk
⎞
∂Lk
λ
+
0
⎟ k +1
∂uk
⎠
k = i,..., N − 1
(2.30)
- Điều kiện biên:
T
⎛ ∂Li ∂f i
⎞
λi +1 ⎟ dxi = 0
+
⎜
⎝ ∂xi ∂xi
⎠
LUẬN VĂN CAO HỌC
(2.31)
-12-
Chương 2
T
⎛ ∂Φ
⎞
− λN ⎟ dxN = 0
⎜
⎝ ∂xN
⎠
(2.32)
2.1.4 Điều khiển tối ưu hệ thống liên tục
Cho đối tượng phi tuyến được mô tả bởi phương trình động học như sau:
x (t ) = f ( x, u, t )
(2.33)
Trong đó biến trạng thái x(t ) ∈ R n và đầu vào điều khiển u (t ) ∈ R m
Giả sử hàm chỉ tiêu chất lượng cho bởi:
T
J (t0 ) = Φ ( x(T ), T ) + ∫ L ( x(t ), u (t ), t ) dt
(2.34)
t0
Bài toán điều khiển tối ưu cho đối tượng (2.33) là bài toán tìm luật điều khiển u*(t)
trong khoảng thời gian [t0, T] dọc theo quỹ đạo x*(t) với mong muốn cực tiểu hàm
chỉ tiêu chất lượng theo phương trình (2.34). T thỏa mãn phương trình :
Ψ ( x(T ), T ) = 0
(2.35)
Với Ψ ∈ R p cho trước
Vai trò của hàm trọng lượng cuối Φ ( x(T ), T ) và hàm trạng thái cuối
Ψ ( x(T ), T ) không thể đổi cho nhau. Hàm Φ ( x(T ), T ) là trạng thái cuối mà ta
muốn. Ví dụ hàm năng lượng ⎡⎣ xT (T ) S (T ) x(T ) ⎤⎦ / 2 với S là ma trận trọng số.
Trong khi đó hàm Ψ ( x(T ), T ) là trạng thái cuối mà ta mong muốn cố định tại zero.
Ví dụ, một vệ tinh có trạng thái x = ⎡⎣ r
T
r θ θ ⎤⎦ trong đó r và θ là bán kính
và vị trí góc. Nếu muốn đặt vệ tinh lên quỹ đạo tròn với bán kính R thì phương trình
trạng thái cuối là zero phải có dạng :
#
⎡
⎢ r (T ) − R
⎢
r(T )
Ψ ( x(T ), T ) = ⎢
⎢
μ
⎢ ⎛
⎢θ ⎜ T − R 3
⎣ ⎝
⎤
⎥
⎥
⎥
⎥
⎞⎥
⎟⎥
⎠⎦
LUẬN VĂN CAO HỌC
- Xem thêm -