LỜI CẢM ƠN
Luận văn được hoàn thành tại Trường Đại học Sư phạm Hà Nội 2
dưới sự hướng dẫn của TS. Trần Văn Bằng.
Tác giả xin được gửi lời cảm ơn chân thành tới TS. Trần Văn Bằng.
Sự tận tình song rất nghiêm túc của thầy trong suốt quá trình học tập
và làm luận văn đã giúp tác giả trưởng thành hơn rất nhiều về cách tiếp
cận một vấn đề mới. Cảm ơn các thầy cô giáo giảng dạy chuyên ngành
Toán Giải tích đã nhiệt tình cung cấp các tri thức khoa học giúp tác giả
nâng cao trình độ tư duy, hoàn thành tốt quá trình học tập và làm luận
văn. Tác giả cũng xin được cảm ơn tới trường THPT Việt Trì đã quan
tâm giúp đỡ và tạo mọi điều kiện thuận lợi để tác giả yên tâm học tập
trong suốt hai năm vừa qua.
Cuối cùng, tác giả xin được cảm ơn tới gia đình, bạn bè đã giúp
đỡ, động viên kịp thời để tác giả hoàn thành bản luận văn này.
Hà Nội, tháng 5 năm 2011
Tác giả
LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn là công trình nghiên cứu của riêng tôi.
Trong khi nghiên cứu luận văn, tôi đã kế thừa thành quả khoa học
của các nhà khoa học và đồng nghiệp với sự trân trọng và biết ơn.
Hà Nội, tháng 5 năm 2011
Tác giả
Mục lục
Mở đầu
5
Chương 1. Một số kiến thức chuẩn bị
7
1.1
Về lý thuyết điều khiển tối ưu . . . . . . . . . . . . . . .
7
1.1.1
Hệ điều khiển . . . . . . . . . . . . . . . . . . . .
7
1.1.2
Bài toán điều khiển tối ưu . . . . . . . . . . . . .
11
1.1.3
Nguyên lý quy hoạch động . . . . . . . . . . . . .
13
1.1.4
Phương trình Hamilton-Jacobi-Bellman . . . . . .
17
1.1.5
Phương pháp quy hoạch động . . . . . . . . . . .
20
1.2
Lý thuyết trò chơi vi phân . . . . . . . . . . . . . . . . .
24
1.3
Nghiệm nhớt của phương trình Hamilton-Jacobi . . . . .
30
1.3.1
Khái niệm và tính chất . . . . . . . . . . . . . . .
30
1.3.2
Nguyên lý cực trị và nguyên lý so sánh . . . . . .
32
1.3.3
Tính liên tục Lipschitz của nghiệm nhớt . . . . .
35
Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . .
37
1.4
Chương 2. Ứng dụng của nghiệm nhớt
2.1
2.2
38
Ứng dụng đối với lý thuyết điều khiển tối ưu . . . . . . .
38
2.1.1
Nghiệm nhớt của phương trình quy hoạch động .
38
2.1.2
Điều kiện cần và đủ của điều khiển tối ưu . . . .
43
Ứng dụng đối với lý thuyết trò chơi vi phân . . . . . . .
51
2.2.1
Nghiệm nhớt của phương trình quy hoạch động .
51
2.2.2
Ứng dụng của nghiệm nhớt để xây dựng phản hồi
2.2.3
tối ưu. . . . . . . . . . . . . . . . . . . . . . . . .
55
Sự hội tụ của lược đồ xấp xỉ bán rời rạc. . . . . .
61
4
2.3
Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . .
66
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . .
68
MỞ ĐẦU
1. Lí do chọn đề tài
Lý thuyết nghiệm nhớt của phương trình Hamilton- Jacobi cấp một
đã được đề xuất bởi M.Crandall và P.L. Lions từ những năm đầu của
thập kỷ 80 (xem [7], [3]), mà một trong những động lực chính của nó là
để nghiên cứu phương trình Hamilton - Jacobi - Bellman. Nó xuất hiện
trong cách tiếp cận quy hoạch động đối với các bài toán điều khiển tối
ưu tất định. Cho đến nay lý thuyết về nghiệm nhớt đã được mở rộng cho
lớp các phương trình elliptic - parabolic suy biến cấp hai (xem [6]) và
đã được ứng dụng trong rất nhiều lĩnh vực khác nhau, đặc biệt là trong
lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân (xem [4],[5]).
Để nâng cao sự hiểu biết về loại nghiệm suy rộng này chúng tôi đã
chọn đề tài ”Ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối
ưu và lý thuyết trò chơi vi phân".
2. Mục đích nghiên cứu
Nghiên cứu khái niệm nghiệm nhớt của phương trình đạo hàm riêng,
các tính chất và các ứng dụng có thể của chúng trong lý thuyết điều
khiển tối ưu đặc biệt là trong lý thuyết trò chơi vi phân.
3. Nhiệm vụ nghiên cứu
• Tìm hiểu về nghiệm nhớt của phương trình đạo hàm riêng cấp một.
• Tìm hiểu về lý thuyết điều khiển tối ưu tất định, đặc biệt là cách
tiếp cận quy hoạch động.
• Tìm hiểu về lý thuyết trò chơi vi phân.
• Tìm ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu
và lý thuyết trò chơi vi phân.
6
4. Đối tượng và phạm vi nghiên cứu
• Nghiên cứu nghiệm nhớt của lớp phương trình Hamilton - Jacobi Bellman bao gồm các khái niệm, các tính chất; cách tiếp cận quy
hoạch động đối với bài toán điều khiển tối ưu tất định.
• Lý thuyết trò chơi vi phân và mối quan hệ giữa các đối tượng đó.
5. Phương pháp nghiên cứu
• Nghiên cứu tài liệu tham khảo.
• Tổng hợp, phân tích, hệ thống lại các khái niệm, tính chất.
• Hỏi ý kiến chuyên gia.
6. Những đóng góp của đề tài
Đề tài trình bày một cách tổng quan về ứng dụng của nghiệm nhớt
đối với lý thuyết điều khiển tối ưu tất định và lý thuyết trò chơi vi phân.
Chương 1
Một số kiến thức chuẩn bị
1.1
1.1.1
Về lý thuyết điều khiển tối ưu
Hệ điều khiển
Trước hết ta trình bày một số khái niệm và kết quả cần thiết về hệ
phương trình vi phân phi tuyến mà chúng ta muốn điều khiển. Ta giả
thiết rằng: hàm f (x, a) với x ∈ RN , a ∈ A (tương ứng được gọi là biến
trạng thái và biến điều khiển), thỏa mãn các giả thiết sau:
(
A là một không gian tô pô,
f : RN × A → RN là một hàm liên tục;
f bị chặn trên B(0, R) × A, với mọi R > 0;
(tính bị chặn địa phương của f đều theo biến điều khiển a)
tồn tại một mô đun địa phương ωf sao cho
|f (y, a) − f (x, a)| ≤ ωf (|x − y|, R),
với mọi x, y ∈ B(0, R) và R > 0,
(A0)
(A1)
(A2)
(tính liên tục đều địa phương của f, đều theo biến điều khiển a), trong
đó mô đun địa phương là một hàm ω : R+ × R+ → R+ sao cho với mọi
R > 0, ω(., R) liên tục, không giảm và ω(0, R) = 0.
Ta sẽ chủ yếu quan tâm tới trường hợp A ⊂ RM là tập compac. Khi
đó (A1) và (A2) là các hệ quả của (A0).
Ta cũng giả thiết
(f (x, a) − f (y, a)).(x − y) ≤ L|x − y|2 ,
∀x, y ∈ RN , a ∈ A;
(A3)
tức là, tồn tại một số L ∈ R sao cho f (x, a) − LI, với I là toán tử đồng
nhất, là một ánh xạ đơn điệu (không tăng) với mọi a.
8
Trong luận văn này ta chỉ xét trường hợp f liên tục Lipschitz toàn
cục theo biến trạng thái, tức là
|f (x, a) − f (y, a)| ≤ L |x − y| , ∀x, y ∈ RN , a ∈ A.
Khi đó, tự nhiên f thỏa mãn (A3) và (A2).
Chúng ta quan tâm tới nghiệm (hay quỹ đạo) của hệ phi tuyến
(
y 0 (t) = f (y(t), a(t)), t > 0,
(1.1)
y(0) = x
với các hàm điều khiển a(.) (gọi là điều khiển lặp mở (open loop), vì
không phụ thuộc vào biến trạng thái) thuộc tập tất cả các điều khiển:
A := {α : [0; +∞) → A đo được}
(về hàm đo được và các tính chất liên quan có thể xem [2]).
Kí hiệu yx (., a) = yx (.) là nghiệm của (1.1) ứng với điều khiển a, theo
nghĩa yx (., a) là nghiệm của phương trình tích phân
Z t
y(t) = x +
f (y(s), a(s))ds, t > 0.
0
Như vậy yx (., a) là một hàm liên tục tuyệt đối trên các tập con compac
của [0, +∞) và thỏa mãn (1.1) hầu khắp nơi. Các định lý sau đây chỉ
ra sự tồn tại nghiệm cũng như tính chất nghiệm của phương trình tích
phân:
Z
t
y(t) = x +
f (y(s), a(s))ds.
(1.2)
t0
Định lý 1.1.1. [Sự tồn tại quỹ đạo địa phương, [4], Định lý 5.4] Giả sử
ta có các giả thiết (A0), (A1), x ∈ RN cố định và đặt
K = Kx := sup{|f (z, a)| : |z − x| ≤ 1, a ∈ A}.
Khi đó với mỗi t0 ∈ R, a ∈ A tồn tại một nghiệm liên tục Lipschitz y
của (1.2) trên [t0 , t0 + 1/K]. Hơn nữa
|y(t) − x| ≤ K(t − t0 ),
∀t.
9
Định lý 1.1.2. [Sự tồn tại quỹ đạo toàn cục, [4], Định lý 5.5] Giả sử ta
có các giả thiết (A0), (A1) và (A3). Khi đó với mỗi t0 ∈ R, x ∈ RN , a ∈ A
tồn tại một nghiệm duy nhất yx : [0, +∞) → RN của (1.2) và thỏa mãn
p
|yx (t)| ≤ (|x| + 2K(t − t0 ))eK(t−t0 ) , ∀t > t0 ,
trong đó K := L + supα∈A |f (0, α)|. Nếu yz là nghiệm thỏa mãn điều
kiện ban đầu yz (t0 ) = z thì
|yx (t) − yz (t)| ≤ eL(t−t0 ) |x − z|,
∀t ≥ t0 .
Hơn nữa, ta có
|yx (t) − x| ≤
1
sup|f (x, α)|(eLt − 1).
L α∈A
Để xét tính khả vi của nghiệm của (1.1) theo điều kiện ban đầu x,
ta nhớ lại rằng: ma trận nghiệm cơ bản M (s, t) của hệ phương trình vi
phân tuyến tính
ξ 0 (t) = A(t)ξ(t),
t ∈ [t0 , t1 ]
(1.3)
là nghiệm duy nhất của phương trình tích phân
Z s
M (s, t) = I +
A(τ )M (τ, t)dτ, s, t ∈ [t0 , t1 ],
t
trong đó t 7→ A(t) là một ánh xạ đo được, bị chặn từ [t0 , t1 ] vào tập các
ma trận vuông cấp N, I là ma trận đơn vị cấp N. Hơn nữa, cột thứ i, mi
của M (., t0 ), tức là mi (s) = M (s, t0 )ei là nghiệm của (1.3) với dữ kiện
ban đầu là ξ(t0 ) = ei , tức là nó thỏa mãn
Z s
mi (s) = ei +
A(τ )mi (τ )dτ,
s ∈ [t0 , t1 ].
t0
Xét hệ phương trình vi phân thường
(
y 0 (t) = F (y(t), t),
y(t0 ) = x.
t ∈ (t0 , t1 ),
với hàm F : RN × [t0 , t1 ] → RN bị chặn trên các tập compac và
(1.4)
10
• với mỗi x, hàm t 7→ F (x, t) đo được;
• với mỗi t, hàm x 7→ F (x, t) khả vi liên tục, hơn nữa ma trận Jacobi
của nó Dx F bị chặn trên K × [t0 , t1 ] với mọi tập compac K ⊂ RN .
Nghiệm của (1.4) được hiểu theo nghĩa tích phân thông thường và ký
hiệu là S(t, t0 , x) = y(t). Khi đó ta có
Định lý 1.1.3. [[4], Định lý 5.8] Với các giả thiết đã nêu trên, gọi
ŷ(.) = S(., t0 , x0 ) là nghiệm của (1.4) với điểm ban đầu x = x0 . Khi đó
với mọi t ∈ [t0 , t1 ], ánh xạ x 7→ S(t, t0 , x) khả vi liên tục trong một lân
cận của x0 . Hơn nữa, ma trận Jacobi của nó tại x0 là
Dx S(t, t0 , x0 ) = M (t, t0 ),
trong đó M (., .) là ma trận cơ bản của hệ phương trình tuyến tính
ξ 0 (t) = Dx F (ŷ(t), t)ξ(t).
Kết quả này cho ta tính khả vi của quỹ đạo của hệ (1.1), tức là nghiệm
của (1.3) theo vị trí ban đầu với mỗi điều khiển a ∈ A cố định, tức là
tính khả vi của ánh xạ x 7→ yx (t, a) dưới các giả thiết (A0)-(A3) và thêm
điều kiện x 7→ f (x, a) khả vi liên tục với mọi a ∈ A và có ma trận Jacobi
bị chặn trên các tập compac (tức là, ωf (r, R) = LR r trong (A2)).
11
1.1.2
Bài toán điều khiển tối ưu
Gắn với hệ (1.1), lý thuyết điều khiển tối ưu thường xét một trong
bốn phiếm hàm chi phí (cost functional) sau đây:
• TH1: Bài toán với thời gian vô hạn (Infinite Horizon):
Z ∞
J∞ (x, a) :=
l(yx (t), a(t))e−t dt
0
trong đó l : RN × A → R là hàm đã cho, có tính chất liên tục, bị
chặn và thỏa mãn
|l(x, a) − l(y, a)| ≤ wl (|x − y|), ∀x, y ∈ RN , a ∈ A,
trong đó, wl là một mô đun (Mô đun là một hàm liên tục, không
giảm w : R+ → R+ và w(0) = 0);
• TH2: Bài toán với thời gian hữu hạn hay Bài toán Mayer (Finite
Horizon):
J(x, t, a) := g(yx (t, a));
trong đó g ∈ C(RN ) và t > 0 đã cho.
• TH3: Bài toán tìm thời gian tối thiểu (Minimum Time): Cho T ⊆
RN là tập đóng và gọi là tập đích
(
min {s : yx (s, a) ∈ T } nếu {s : yx (s, a) ∈ T } 6= ∅
tx (a) :=
+∞,
nếu trái lại;
• TH4: Bài toán chiết khấu thời gian tối thiểu (Discounted Minimum
Time):
(R t (a)
x
J(x, a) :=
0
1,
e−s ds, nếu tx (a) < +∞
nếu trái lại.
Chúng ta muốn cực tiểu hóa các phiếm hàm chi phí nêu trên với
a(.) ∈ A (trong tình huống chỉ có ràng buộc đối với điều khiển a), hoặc
với
a(.) ∈ Ax := {a ∈ A : yx (a, t) ∈ Ω, ∀t > 0},
12
trong đó Ω ⊆ RN là một tập mở đã cho (trong tình huống có ràng buộc
trạng thái).
Định nghĩa 1.1.4. Nếu phiếm hàm chi phí đạt cực tiểu tại điều khiển
a∗ (.) thì a∗ (.) được gọi là một điều khiển tối ưu ứng với vị trí ban đầu x
(và ứng với thời điểm t trong bài toán với thời gian hữu hạn).
Việc cực tiểu hóa các phiếm hàm chi phí đề cập ở trên lần lượt dẫn
tới các hàm giá trị (value function) sau đây:
• TH1: Bài toán với thời gian vô hạn:
V∞ (x) := inf J∞ (x, a);
a(.)∈A
• TH2: Bài toán với thời gian vô hạn có ràng buộc trạng thái:
Vc (x) := inf J∞ (x, a);
a(.)∈Ax
• TH3: Bài toán với thời gian hữu hạn:
v(x, t) := inf J(x, t, a);
a(.)∈A
• TH4: Bài toán tìm thời gian tối thiểu:
T (x) := inf tx (a);
a(.)∈A
• TH5: Bài toán chiết khấu thời gian tối thiểu:
V (x) := inf J(x, a) = 1 − e−T (x) .
a(.)∈A
13
1.1.3
Nguyên lý quy hoạch động
Tiếp theo ta đưa ra phương trình hàm, tương ứng thỏa mãn bởi các
hàm giá trị trên đây, phương trình đó diễn tả một cách trực quan rằng:
để đạt được chi phí cực tiểu ta cần thực hiện các bước sau:
• Cho hệ vận hành đến một thời gian nhỏ s với một điều khiển a(.)
tùy ý trên đoạn [0, s];
• Thanh toán chi phí tương ứng đến thời điểm s;
• Thanh toán chi phí còn lại (cho thời gian sau s) với một điều khiển
tốt nhất có thể;
• Cực tiểu hóa tổng hai khoản đã thanh toán trên tất cả các điều
khiển có thể trên đoạn [0, s].
Định nghĩa 1.1.5. Phương trình hàm đối với hàm giá trị đó được gọi
là nguyên lý quy hoạch động.
Các nguyên lý quy hoạch động tương ứng với các hàm giá trị (trừ
Vc (x)) được chỉ ra trong mệnh đề sau:
Mệnh đề 1.1.6. Với mọi s > 0
• TH1: Bài toán với thời gian vô hạn:
Z s
V∞ (x) := inf
l(yx (t), a(t))e−t dt + V∞ (yx (s, a))e−s ;
a(.)∈A
0
• TH2: Bài toán với thời gian hữu hạn:
v(x, t) = inf v(yx (s, a), t − s) nếu s ≤ t;
a(.)∈A
• TH3: Bài toán tìm thời gian tối thiểu:
T (x) = inf {s + T (yx (s, a))}, nếu s ≤ T (x) < +∞;
a(.)∈A
14
• TH4: Bài toán chiết khấu thời gian tối thiểu:
Z s
−t
−s
V (x) = inf
e dt + V (yx (s, a))e
, nếu s ≤ T (x)).
a(.)∈A
0
Chứng minh. Để chứng minh các nguyên lý quy hoạch động ta dựa vào
tính chất nửa nhóm của các nghiệm của (1.1):
yx (s + t, a) = yyx (s,a) (t, a(. + s)),
và hai tính chất sau của các điều khiển chấp nhận được:
1. Nếu a(.) ∈ A và t > 0 thì a(. + t) ∈ A;
2. Nếu a1 (.); a2 (.) ∈ A và
(
a1 (s), nếu s ≤ t
a(s) :=
a2 (s), nếu s > t
thì a(.) ∈ A.
Sau đây chúng tôi chỉ trình bày chứng minh nguyên lý quy hoạch
động cho bài toán tìm thời gian tối thiểu. Thật vậy, với mọi a(.) ∈ A ta
có
tx (a) = s + tyx (s,a) (a(. + s)) ≥ s + T (yx (s, a)),
vì vậy
T (x) = inf tx (a) ≥ inf {s + T (yx (s, a))}.
a(.)∈A
a(.)∈A
Để chứng minh bất đẳng thức ngược lại ta cố định một điều khiển
a(.) ∈ A, đặt z := yx (s, a)) và để đơn giản ta giả sử tồn tại a1 (.) ∈ A
sao cho T (z) = tz (a1 ). Khi đó
(
a(t)
a(t) :=
a1 (t − s)
nếu t ≤ s
nếu t > s
thì ta có
T (x) ≤ tx (a) = s + tz (a1 ) = s + T (yx (s, a)).
Do a(.) là tùy ý nên
T (x) ≤ inf {s + T (yx (s, a))}.
a(.)∈A
15
Vậy
T (x) = inf {s + T (yx (s, a))}
a(.)∈A
Mệnh đề sau đây cho ta một dạng hữu dụng của nguyên lý quy hoạch
động. Dạng này gần với nguyên lý tối ưu của Bellman hơn:
Mệnh đề 1.1.7. Với mọi a(.) ∈ A các hàm sau không giảm:
• TH1: Bài toán với thời gian vô hạn:
Z s
s 7→
l(yx (t), a(t))e−t dt + V∞ (yx (s, a))e−s , s ∈ [0, +∞);
0
• TH2: Bài toán với thời gian hữu hạn:
s 7→ v(yx (s, a), t − s), s ∈ [0, t];
• TH3: Bài toán tìm thời gian tối thiểu:
s 7→ s + T (yx (s, a)), s ∈ [0, tx (a)], nếu T (x) < +∞;
• TH4: Bài toán chiết khấu thời gian tối thiểu:
Z s
s 7→
e−t dt + V (yx (s, a))e−s , s ∈ [0, tx (a)].
0
Hơn nữa các hàm này là hằng khi và chỉ khi điều khiển a(.) là điều khiển
tối ưu ứng với vị trí ban đầu x (và ứng với thời điểm t trong bài toán
với thời gian hữu hạn).
Chứng minh. (cho bài toán tìm thời gian tối thiểu)
1. Với mọi a(.) ∈ A, từ nguyên lý quy hoạch động với vị trí ban đầu
yx (s, a), ta có
T (yx (s, a)) ≤ ε + T (yx (s + ε, a))
với ε > 0 đủ nhỏ, suy ra:
s + T (yx (s, a)) ≤ s + ε + T (yx (s + ε, a)).
16
Vậy ta có khẳng định thứ nhất.
2. Nếu h(s) := s + T (yx (s, a)) là hàm hằng thì h(s) ≡ h(0) = T (x).
Vì thế từ 0 ≤ T (x) < +∞ ta suy ra tx (a) < +∞ và h(tx (a)) = tx (a) bởi
vì T ≡ 0 trên tập đích T . Vậy T (x) = tx (a). Hay a(.) là điều khiển tối
ưu ứng với vị trí ban đầu x.
Ngược lại, nếu a(.) ∈ A là điều khiển tối ưu ứng với x thì
h(0) = T (x) = tx (a).
Mà trong chứng minh của nguyên lý quy hoạch động chúng ta có kết
quả:
tx (a) ≥ h(s).
Vậy h(0) = h(s), do h là hàm không giảm.
17
1.1.4
Phương trình Hamilton-Jacobi-Bellman
Tiếp theo chúng ta sẽ đưa ra các phương trình Hamilton-JacobiBellman là dạng vi phân của các Nguyên lý quy hoạch động.
Mệnh đề 1.1.8. Giả sử hàm giá trị là C 1 trong một lân cận của x (của
(x, t) đối với bài toán với thời gian hữu hạn). Khi đó
• TH1: Bài toán với thời gian vô hạn:
V∞ (x) + max{−f (x, a).DV∞ (x) − l(x, a)} = 0;
a∈A
• TH2: Bài toán với thời gian hữu hạn:
∂v
(x, t) + H(x, Dx v(x, t)) = 0, t > 0,
∂t
• TH3: Bài toán tìm thời gian tối thiểu:
H(x, DT (x)) = 1,
x∈
/ T , T (x) < +∞,
• TH4: Bài toán chiết khấu thời gian tối thiểu:
V (x) + H(x, DV (x)) = 1, x ∈
/ T,
trong đó
H(x, p) := max{−f (x, a).p}.
a∈A
Chứng minh. (cho bài toán tìm thời gian tối thiểu).
1. Ta chứng minh H(x, DT (x)) ≤ 1. Cố định một điều khiển hằng
a(t) ≡ a0 và đặt y(t) = yx (t, a). Từ nguyên lý quy hoạch động ta có
T (x) − T (y(s)) ≤ s với 0 ≤ s < T (x).
chia hai vế cho s > 0 ta được:
T (x) − T (y(s))
≤1
s
T (x) − T (y(s)) y(s) − y(0)
⇔−
·
≤ 1.
y(0) − y(s)
s
18
Cho s → 0 ta nhận được
−DT (x).y 0 (0) ≤ 1.
Do y 0 (0) = f (x, a0 ) và a0 ∈ A là tùy ý nên ta thu được
max{−f (x, a).DT (x)} ≤ 1.
a∈A
2. Ta chứng minh H(x, DT (x)) ≥ 1. Với mọi ε, s > 0 nhỏ, theo nguyên
lý quy hoạch động ta có một a ∈ A sao cho
T (x) ≥ s + T (y(s)) − εs,
trong đó y(s) := yx (s, a). Do vậy
T (x) − T (y(s))
Z s
1 s d
T (y(s))ds
=−
s 0 ds
Z
1 s
=−
DT (y(s)).y 0 (s)ds
s 0
Z
1 s
=−
DT (x).f (x, a(s))ds + o(1),
s 0
≤ max{−DT (x).f (x, a)} + o(1).
1−ε≤
s→0
a∈A
Bằng cách cho s và ε tiến đến 0 ta nhận được 1 ≤ H(x, DT (x)).
Mỗi phương trình đạo hàm riêng trên đều được gắn một cách tự nhiên
với một điều kiện biên. Khi đó chúng ta có các bài toán biên hoặc bài
toán ban đầu mà ứng cử viên nghiệm của nó là hàm giá trị:
• TH1: Bài toán với thời gian vô hạn:
u + max{−f (x, a).Du(x) − l(x, a)} = 0 trong RN ;
a∈A
• TH2: Bài toán với thời gian vô hạn có ràng buộc trạng thái:
u + max{−f (x, a).Du(x) − l(x, a)} = 0
trong Ω,
a∈Ax
u + max{−f (x, a).Du(x) − l(x, a)} ≥ 0
a∈Ax
trên ∂Ω;
(1.5)
(1.6)
19
• TH3: Bài toán với thời gian hữu hạn:
(
∂u
trong RN × (0, +∞),
∂t + H(x, Dx (u) = 0
u(x, 0) = g(x)
trên RN × 0;
• TH4: Bài toán tìm thời gian tối thiểu:
H(x, Du) = 1 trong Ω \ T ,
u=0
trên ∂T ,
u(x) → +∞
khi x → ∂Ω,
(1.7)
(1.8)
trong đó Ω ⊇ T là một tập mở.
• TH5: Bài toán chiết khấu thời gian tối thiểu:
(
u + H(x, Du) = 1 trong RN \ T ,
u=0
trên ∂T ,
(1.9)
Để ý rằng các bài toán biên ứng với bài toán với thời gian hữu hạn
(1.7) ứng với bài toán chiết khấu thời gian tối thiểu (1.9) tương ứng được
gọi là bài toán Cauchy và bài toán Dirichlet (nhưng các tập mở RN \T có
thể không bị chặn, chẳng hạn khi tập đích T là compact). Phương trình
đạo hàm riêng ứng với bài toán với thời gian vô hạn (1.5) được đặt trong
toàn bộ không gian. Lúc này, tính bị chặn của V∞ có thể được xem như
là điều kiện biên ”ở vô cực” của phương trình đó. Điều kiện biên của bài
toán có ràng buộc trạng thái (1.6) là mới và lần đầu tiên nó được đặt ra
bởi Soner. Bài toán biên ứng với bài toán tìm thời gian tối thiểu (1.8) là
bài toán biên tự do; chúng ta muốn rằng: Ω = R := {x : T (x) < +∞},
(dễ thấy R là tập mở và T (x) → +∞ khi x → ∂R nếu hệ điều khiển
được ở gần T ).
20
1.1.5
Phương pháp quy hoạch động
Lý thuyết cổ điển của phương pháp quy hoạch động thực hiện với
giả thiết phương trình Hamilton-Jacobi-Bellman có một nghiệm (đôi khi
chỉ cần một nghiệm dưới) và dùng nghiệm đó để chỉ ra các điều kiện đủ
để tồn tại điều khiển tối ưu. Kết quả khi đó thường được gọi là định lý
kiểm chứng. Sau đây là một ví dụ về kết quả như vậy đối với bài toán
chiết khấu thời gian tối thiểu. Trước hết ta đưa ra định nghĩa hàm kiểm
chứng cổ điển:
Định nghĩa 1.1.9. Hàm kiểm chứng cổ điển là một hàm bị chặn u ∈
C(RN ) ∩ C 1 (RN \ T ) sao cho
(
u + H(x, Du) ≤ 1
u≤0
trong RN \ T ,
trên ∂T .
(1.10)
Định lý 1.1.10. Giả sử u là một hàm kiểm chứng cổ điển của bài toán
chiết khấu thời gian tối thiểu, x ∈
/ T , a∗ (.) ∈ A.
(i) Nếu u(x) ≥ J(x, a∗ ) thì a∗ (.) là một điều khiển tối ưu ứng với x
(ii) Nếu
(
u(y ∗ (t)) − f (y ∗ (t), a∗ (t)).Du(y ∗ (t)) = 1 với hầu hết t ≤ tx (a∗ ),
u=0
trên ∂T ,
(1.11)
trong đó y ∗ (.) := yx (., a∗ ), thì a∗ (.) là điều khiển tối ưu ứng với x.
Chứng minh.
(i) Chúng ta sẽ chứng minh u(x) ≤ V (x), với V là hàm giá trị. Nếu
có điều đó thì ta sẽ có V (x) = J(x, a∗ ), chứng tỏ a∗ (.) là điều khiển tối
ưu ứng với x. Thật vậy, lấy bất kỳ a(.) ∈ A; y(.) = yx (., a), từ (1.10) ta
có
d
[−e−t u(y(t))] = e−t [u(y(t)) − Du(y(t)).f (y(t), a(t))] ≤ e−t
dt
- Xem thêm -