Tài liệu ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu và trò chơi vi phân

.PDF

okyeuniterd Báo vi phạm

Tải xuống 71

Mô tả:

LỜI CẢM ƠN Luận văn được hoàn thành tại Trường Đại học Sư phạm Hà Nội 2 dưới sự hướng dẫn của TS. Trần Văn Bằng. Tác giả xin được gửi lời cảm ơn chân thành tới TS. Trần Văn Bằng. Sự tận tình song rất nghiêm túc của thầy trong suốt quá trình học tập và làm luận văn đã giúp tác giả trưởng thành hơn rất nhiều về cách tiếp cận một vấn đề mới. Cảm ơn các thầy cô giáo giảng dạy chuyên ngành Toán Giải tích đã nhiệt tình cung cấp các tri thức khoa học giúp tác giả nâng cao trình độ tư duy, hoàn thành tốt quá trình học tập và làm luận văn. Tác giả cũng xin được cảm ơn tới trường THPT Việt Trì đã quan tâm giúp đỡ và tạo mọi điều kiện thuận lợi để tác giả yên tâm học tập trong suốt hai năm vừa qua. Cuối cùng, tác giả xin được cảm ơn tới gia đình, bạn bè đã giúp đỡ, động viên kịp thời để tác giả hoàn thành bản luận văn này. Hà Nội, tháng 5 năm 2011 Tác giả LỜI CAM ĐOAN Tôi xin cam đoan Luận văn là công trình nghiên cứu của riêng tôi. Trong khi nghiên cứu luận văn, tôi đã kế thừa thành quả khoa học của các nhà khoa học và đồng nghiệp với sự trân trọng và biết ơn. Hà Nội, tháng 5 năm 2011 Tác giả Mục lục Mở đầu 5 Chương 1. Một số kiến thức chuẩn bị 7 1.1 Về lý thuyết điều khiển tối ưu . . . . . . . . . . . . . . . 7 1.1.1 Hệ điều khiển . . . . . . . . . . . . . . . . . . . . 7 1.1.2 Bài toán điều khiển tối ưu . . . . . . . . . . . . . 11 1.1.3 Nguyên lý quy hoạch động . . . . . . . . . . . . . 13 1.1.4 Phương trình Hamilton-Jacobi-Bellman . . . . . . 17 1.1.5 Phương pháp quy hoạch động . . . . . . . . . . . 20 1.2 Lý thuyết trò chơi vi phân . . . . . . . . . . . . . . . . . 24 1.3 Nghiệm nhớt của phương trình Hamilton-Jacobi . . . . . 30 1.3.1 Khái niệm và tính chất . . . . . . . . . . . . . . . 30 1.3.2 Nguyên lý cực trị và nguyên lý so sánh . . . . . . 32 1.3.3 Tính liên tục Lipschitz của nghiệm nhớt . . . . . 35 Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . 37 1.4 Chương 2. Ứng dụng của nghiệm nhớt 2.1 2.2 38 Ứng dụng đối với lý thuyết điều khiển tối ưu . . . . . . . 38 2.1.1 Nghiệm nhớt của phương trình quy hoạch động . 38 2.1.2 Điều kiện cần và đủ của điều khiển tối ưu . . . . 43 Ứng dụng đối với lý thuyết trò chơi vi phân . . . . . . . 51 2.2.1 Nghiệm nhớt của phương trình quy hoạch động . 51 2.2.2 Ứng dụng của nghiệm nhớt để xây dựng phản hồi 2.2.3 tối ưu. . . . . . . . . . . . . . . . . . . . . . . . . 55 Sự hội tụ của lược đồ xấp xỉ bán rời rạc. . . . . . 61 4 2.3 Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . 66 Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . 68 MỞ ĐẦU 1. Lí do chọn đề tài Lý thuyết nghiệm nhớt của phương trình Hamilton- Jacobi cấp một đã được đề xuất bởi M.Crandall và P.L. Lions từ những năm đầu của thập kỷ 80 (xem [7], [3]), mà một trong những động lực chính của nó là để nghiên cứu phương trình Hamilton - Jacobi - Bellman. Nó xuất hiện trong cách tiếp cận quy hoạch động đối với các bài toán điều khiển tối ưu tất định. Cho đến nay lý thuyết về nghiệm nhớt đã được mở rộng cho lớp các phương trình elliptic - parabolic suy biến cấp hai (xem [6]) và đã được ứng dụng trong rất nhiều lĩnh vực khác nhau, đặc biệt là trong lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân (xem [4],[5]). Để nâng cao sự hiểu biết về loại nghiệm suy rộng này chúng tôi đã chọn đề tài ”Ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân". 2. Mục đích nghiên cứu Nghiên cứu khái niệm nghiệm nhớt của phương trình đạo hàm riêng, các tính chất và các ứng dụng có thể của chúng trong lý thuyết điều khiển tối ưu đặc biệt là trong lý thuyết trò chơi vi phân. 3. Nhiệm vụ nghiên cứu • Tìm hiểu về nghiệm nhớt của phương trình đạo hàm riêng cấp một. • Tìm hiểu về lý thuyết điều khiển tối ưu tất định, đặc biệt là cách tiếp cận quy hoạch động. • Tìm hiểu về lý thuyết trò chơi vi phân. • Tìm ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân. 6 4. Đối tượng và phạm vi nghiên cứu • Nghiên cứu nghiệm nhớt của lớp phương trình Hamilton - Jacobi Bellman bao gồm các khái niệm, các tính chất; cách tiếp cận quy hoạch động đối với bài toán điều khiển tối ưu tất định. • Lý thuyết trò chơi vi phân và mối quan hệ giữa các đối tượng đó. 5. Phương pháp nghiên cứu • Nghiên cứu tài liệu tham khảo. • Tổng hợp, phân tích, hệ thống lại các khái niệm, tính chất. • Hỏi ý kiến chuyên gia. 6. Những đóng góp của đề tài Đề tài trình bày một cách tổng quan về ứng dụng của nghiệm nhớt đối với lý thuyết điều khiển tối ưu tất định và lý thuyết trò chơi vi phân. Chương 1 Một số kiến thức chuẩn bị 1.1 1.1.1 Về lý thuyết điều khiển tối ưu Hệ điều khiển Trước hết ta trình bày một số khái niệm và kết quả cần thiết về hệ phương trình vi phân phi tuyến mà chúng ta muốn điều khiển. Ta giả thiết rằng: hàm f (x, a) với x ∈ RN , a ∈ A (tương ứng được gọi là biến trạng thái và biến điều khiển), thỏa mãn các giả thiết sau: ( A là một không gian tô pô, f : RN × A → RN là một hàm liên tục; f bị chặn trên B(0, R) × A, với mọi R > 0; (tính bị chặn địa phương của f đều theo biến điều khiển a)   tồn tại một mô đun địa phương ωf sao cho |f (y, a) − f (x, a)| ≤ ωf (|x − y|, R),   với mọi x, y ∈ B(0, R) và R > 0, (A0) (A1) (A2) (tính liên tục đều địa phương của f, đều theo biến điều khiển a), trong đó mô đun địa phương là một hàm ω : R+ × R+ → R+ sao cho với mọi R > 0, ω(., R) liên tục, không giảm và ω(0, R) = 0. Ta sẽ chủ yếu quan tâm tới trường hợp A ⊂ RM là tập compac. Khi đó (A1) và (A2) là các hệ quả của (A0). Ta cũng giả thiết (f (x, a) − f (y, a)).(x − y) ≤ L|x − y|2 , ∀x, y ∈ RN , a ∈ A; (A3) tức là, tồn tại một số L ∈ R sao cho f (x, a) − LI, với I là toán tử đồng nhất, là một ánh xạ đơn điệu (không tăng) với mọi a. 8 Trong luận văn này ta chỉ xét trường hợp f liên tục Lipschitz toàn cục theo biến trạng thái, tức là |f (x, a) − f (y, a)| ≤ L |x − y| , ∀x, y ∈ RN , a ∈ A. Khi đó, tự nhiên f thỏa mãn (A3) và (A2). Chúng ta quan tâm tới nghiệm (hay quỹ đạo) của hệ phi tuyến ( y 0 (t) = f (y(t), a(t)), t > 0, (1.1) y(0) = x với các hàm điều khiển a(.) (gọi là điều khiển lặp mở (open loop), vì không phụ thuộc vào biến trạng thái) thuộc tập tất cả các điều khiển: A := {α : [0; +∞) → A đo được} (về hàm đo được và các tính chất liên quan có thể xem [2]). Kí hiệu yx (., a) = yx (.) là nghiệm của (1.1) ứng với điều khiển a, theo nghĩa yx (., a) là nghiệm của phương trình tích phân Z t y(t) = x + f (y(s), a(s))ds, t > 0. 0 Như vậy yx (., a) là một hàm liên tục tuyệt đối trên các tập con compac của [0, +∞) và thỏa mãn (1.1) hầu khắp nơi. Các định lý sau đây chỉ ra sự tồn tại nghiệm cũng như tính chất nghiệm của phương trình tích phân: Z t y(t) = x + f (y(s), a(s))ds. (1.2) t0 Định lý 1.1.1. [Sự tồn tại quỹ đạo địa phương, [4], Định lý 5.4] Giả sử ta có các giả thiết (A0), (A1), x ∈ RN cố định và đặt K = Kx := sup{|f (z, a)| : |z − x| ≤ 1, a ∈ A}. Khi đó với mỗi t0 ∈ R, a ∈ A tồn tại một nghiệm liên tục Lipschitz y của (1.2) trên [t0 , t0 + 1/K]. Hơn nữa |y(t) − x| ≤ K(t − t0 ), ∀t. 9 Định lý 1.1.2. [Sự tồn tại quỹ đạo toàn cục, [4], Định lý 5.5] Giả sử ta có các giả thiết (A0), (A1) và (A3). Khi đó với mỗi t0 ∈ R, x ∈ RN , a ∈ A tồn tại một nghiệm duy nhất yx : [0, +∞) → RN của (1.2) và thỏa mãn p |yx (t)| ≤ (|x| + 2K(t − t0 ))eK(t−t0 ) , ∀t > t0 , trong đó K := L + supα∈A |f (0, α)|. Nếu yz là nghiệm thỏa mãn điều kiện ban đầu yz (t0 ) = z thì |yx (t) − yz (t)| ≤ eL(t−t0 ) |x − z|, ∀t ≥ t0 . Hơn nữa, ta có |yx (t) − x| ≤ 1 sup|f (x, α)|(eLt − 1). L α∈A Để xét tính khả vi của nghiệm của (1.1) theo điều kiện ban đầu x, ta nhớ lại rằng: ma trận nghiệm cơ bản M (s, t) của hệ phương trình vi phân tuyến tính ξ 0 (t) = A(t)ξ(t), t ∈ [t0 , t1 ] (1.3) là nghiệm duy nhất của phương trình tích phân Z s M (s, t) = I + A(τ )M (τ, t)dτ, s, t ∈ [t0 , t1 ], t trong đó t 7→ A(t) là một ánh xạ đo được, bị chặn từ [t0 , t1 ] vào tập các ma trận vuông cấp N, I là ma trận đơn vị cấp N. Hơn nữa, cột thứ i, mi của M (., t0 ), tức là mi (s) = M (s, t0 )ei là nghiệm của (1.3) với dữ kiện ban đầu là ξ(t0 ) = ei , tức là nó thỏa mãn Z s mi (s) = ei + A(τ )mi (τ )dτ, s ∈ [t0 , t1 ]. t0 Xét hệ phương trình vi phân thường ( y 0 (t) = F (y(t), t), y(t0 ) = x. t ∈ (t0 , t1 ), với hàm F : RN × [t0 , t1 ] → RN bị chặn trên các tập compac và (1.4) 10 • với mỗi x, hàm t 7→ F (x, t) đo được; • với mỗi t, hàm x 7→ F (x, t) khả vi liên tục, hơn nữa ma trận Jacobi của nó Dx F bị chặn trên K × [t0 , t1 ] với mọi tập compac K ⊂ RN . Nghiệm của (1.4) được hiểu theo nghĩa tích phân thông thường và ký hiệu là S(t, t0 , x) = y(t). Khi đó ta có Định lý 1.1.3. [[4], Định lý 5.8] Với các giả thiết đã nêu trên, gọi ŷ(.) = S(., t0 , x0 ) là nghiệm của (1.4) với điểm ban đầu x = x0 . Khi đó với mọi t ∈ [t0 , t1 ], ánh xạ x 7→ S(t, t0 , x) khả vi liên tục trong một lân cận của x0 . Hơn nữa, ma trận Jacobi của nó tại x0 là Dx S(t, t0 , x0 ) = M (t, t0 ), trong đó M (., .) là ma trận cơ bản của hệ phương trình tuyến tính ξ 0 (t) = Dx F (ŷ(t), t)ξ(t). Kết quả này cho ta tính khả vi của quỹ đạo của hệ (1.1), tức là nghiệm của (1.3) theo vị trí ban đầu với mỗi điều khiển a ∈ A cố định, tức là tính khả vi của ánh xạ x 7→ yx (t, a) dưới các giả thiết (A0)-(A3) và thêm điều kiện x 7→ f (x, a) khả vi liên tục với mọi a ∈ A và có ma trận Jacobi bị chặn trên các tập compac (tức là, ωf (r, R) = LR r trong (A2)). 11 1.1.2 Bài toán điều khiển tối ưu Gắn với hệ (1.1), lý thuyết điều khiển tối ưu thường xét một trong bốn phiếm hàm chi phí (cost functional) sau đây: • TH1: Bài toán với thời gian vô hạn (Infinite Horizon): Z ∞ J∞ (x, a) := l(yx (t), a(t))e−t dt 0 trong đó l : RN × A → R là hàm đã cho, có tính chất liên tục, bị chặn và thỏa mãn |l(x, a) − l(y, a)| ≤ wl (|x − y|), ∀x, y ∈ RN , a ∈ A, trong đó, wl là một mô đun (Mô đun là một hàm liên tục, không giảm w : R+ → R+ và w(0) = 0); • TH2: Bài toán với thời gian hữu hạn hay Bài toán Mayer (Finite Horizon): J(x, t, a) := g(yx (t, a)); trong đó g ∈ C(RN ) và t > 0 đã cho. • TH3: Bài toán tìm thời gian tối thiểu (Minimum Time): Cho T ⊆ RN là tập đóng và gọi là tập đích ( min {s : yx (s, a) ∈ T } nếu {s : yx (s, a) ∈ T } 6= ∅ tx (a) := +∞, nếu trái lại; • TH4: Bài toán chiết khấu thời gian tối thiểu (Discounted Minimum Time): (R t (a) x J(x, a) := 0 1, e−s ds, nếu tx (a) < +∞ nếu trái lại. Chúng ta muốn cực tiểu hóa các phiếm hàm chi phí nêu trên với a(.) ∈ A (trong tình huống chỉ có ràng buộc đối với điều khiển a), hoặc với a(.) ∈ Ax := {a ∈ A : yx (a, t) ∈ Ω, ∀t > 0}, 12 trong đó Ω ⊆ RN là một tập mở đã cho (trong tình huống có ràng buộc trạng thái). Định nghĩa 1.1.4. Nếu phiếm hàm chi phí đạt cực tiểu tại điều khiển a∗ (.) thì a∗ (.) được gọi là một điều khiển tối ưu ứng với vị trí ban đầu x (và ứng với thời điểm t trong bài toán với thời gian hữu hạn). Việc cực tiểu hóa các phiếm hàm chi phí đề cập ở trên lần lượt dẫn tới các hàm giá trị (value function) sau đây: • TH1: Bài toán với thời gian vô hạn: V∞ (x) := inf J∞ (x, a); a(.)∈A • TH2: Bài toán với thời gian vô hạn có ràng buộc trạng thái: Vc (x) := inf J∞ (x, a); a(.)∈Ax • TH3: Bài toán với thời gian hữu hạn: v(x, t) := inf J(x, t, a); a(.)∈A • TH4: Bài toán tìm thời gian tối thiểu: T (x) := inf tx (a); a(.)∈A • TH5: Bài toán chiết khấu thời gian tối thiểu: V (x) := inf J(x, a) = 1 − e−T (x) . a(.)∈A 13 1.1.3 Nguyên lý quy hoạch động Tiếp theo ta đưa ra phương trình hàm, tương ứng thỏa mãn bởi các hàm giá trị trên đây, phương trình đó diễn tả một cách trực quan rằng: để đạt được chi phí cực tiểu ta cần thực hiện các bước sau: • Cho hệ vận hành đến một thời gian nhỏ s với một điều khiển a(.) tùy ý trên đoạn [0, s]; • Thanh toán chi phí tương ứng đến thời điểm s; • Thanh toán chi phí còn lại (cho thời gian sau s) với một điều khiển tốt nhất có thể; • Cực tiểu hóa tổng hai khoản đã thanh toán trên tất cả các điều khiển có thể trên đoạn [0, s]. Định nghĩa 1.1.5. Phương trình hàm đối với hàm giá trị đó được gọi là nguyên lý quy hoạch động. Các nguyên lý quy hoạch động tương ứng với các hàm giá trị (trừ Vc (x)) được chỉ ra trong mệnh đề sau: Mệnh đề 1.1.6. Với mọi s > 0 • TH1: Bài toán với thời gian vô hạn: Z s V∞ (x) := inf l(yx (t), a(t))e−t dt + V∞ (yx (s, a))e−s ; a(.)∈A 0 • TH2: Bài toán với thời gian hữu hạn: v(x, t) = inf v(yx (s, a), t − s) nếu s ≤ t; a(.)∈A • TH3: Bài toán tìm thời gian tối thiểu: T (x) = inf {s + T (yx (s, a))}, nếu s ≤ T (x) < +∞; a(.)∈A 14 • TH4: Bài toán chiết khấu thời gian tối thiểu: Z s −t −s V (x) = inf e dt + V (yx (s, a))e , nếu s ≤ T (x)). a(.)∈A 0 Chứng minh. Để chứng minh các nguyên lý quy hoạch động ta dựa vào tính chất nửa nhóm của các nghiệm của (1.1): yx (s + t, a) = yyx (s,a) (t, a(. + s)), và hai tính chất sau của các điều khiển chấp nhận được: 1. Nếu a(.) ∈ A và t > 0 thì a(. + t) ∈ A; 2. Nếu a1 (.); a2 (.) ∈ A và ( a1 (s), nếu s ≤ t a(s) := a2 (s), nếu s > t thì a(.) ∈ A. Sau đây chúng tôi chỉ trình bày chứng minh nguyên lý quy hoạch động cho bài toán tìm thời gian tối thiểu. Thật vậy, với mọi a(.) ∈ A ta có tx (a) = s + tyx (s,a) (a(. + s)) ≥ s + T (yx (s, a)), vì vậy T (x) = inf tx (a) ≥ inf {s + T (yx (s, a))}. a(.)∈A a(.)∈A Để chứng minh bất đẳng thức ngược lại ta cố định một điều khiển a(.) ∈ A, đặt z := yx (s, a)) và để đơn giản ta giả sử tồn tại a1 (.) ∈ A sao cho T (z) = tz (a1 ). Khi đó ( a(t) a(t) := a1 (t − s) nếu t ≤ s nếu t > s thì ta có T (x) ≤ tx (a) = s + tz (a1 ) = s + T (yx (s, a)). Do a(.) là tùy ý nên T (x) ≤ inf {s + T (yx (s, a))}. a(.)∈A 15 Vậy T (x) = inf {s + T (yx (s, a))} a(.)∈A Mệnh đề sau đây cho ta một dạng hữu dụng của nguyên lý quy hoạch động. Dạng này gần với nguyên lý tối ưu của Bellman hơn: Mệnh đề 1.1.7. Với mọi a(.) ∈ A các hàm sau không giảm: • TH1: Bài toán với thời gian vô hạn: Z s s 7→ l(yx (t), a(t))e−t dt + V∞ (yx (s, a))e−s , s ∈ [0, +∞); 0 • TH2: Bài toán với thời gian hữu hạn: s 7→ v(yx (s, a), t − s), s ∈ [0, t]; • TH3: Bài toán tìm thời gian tối thiểu: s 7→ s + T (yx (s, a)), s ∈ [0, tx (a)], nếu T (x) < +∞; • TH4: Bài toán chiết khấu thời gian tối thiểu: Z s s 7→ e−t dt + V (yx (s, a))e−s , s ∈ [0, tx (a)]. 0 Hơn nữa các hàm này là hằng khi và chỉ khi điều khiển a(.) là điều khiển tối ưu ứng với vị trí ban đầu x (và ứng với thời điểm t trong bài toán với thời gian hữu hạn). Chứng minh. (cho bài toán tìm thời gian tối thiểu) 1. Với mọi a(.) ∈ A, từ nguyên lý quy hoạch động với vị trí ban đầu yx (s, a), ta có T (yx (s, a)) ≤ ε + T (yx (s + ε, a)) với ε > 0 đủ nhỏ, suy ra: s + T (yx (s, a)) ≤ s + ε + T (yx (s + ε, a)). 16 Vậy ta có khẳng định thứ nhất. 2. Nếu h(s) := s + T (yx (s, a)) là hàm hằng thì h(s) ≡ h(0) = T (x). Vì thế từ 0 ≤ T (x) < +∞ ta suy ra tx (a) < +∞ và h(tx (a)) = tx (a) bởi vì T ≡ 0 trên tập đích T . Vậy T (x) = tx (a). Hay a(.) là điều khiển tối ưu ứng với vị trí ban đầu x. Ngược lại, nếu a(.) ∈ A là điều khiển tối ưu ứng với x thì h(0) = T (x) = tx (a). Mà trong chứng minh của nguyên lý quy hoạch động chúng ta có kết quả: tx (a) ≥ h(s). Vậy h(0) = h(s), do h là hàm không giảm. 17 1.1.4 Phương trình Hamilton-Jacobi-Bellman Tiếp theo chúng ta sẽ đưa ra các phương trình Hamilton-JacobiBellman là dạng vi phân của các Nguyên lý quy hoạch động. Mệnh đề 1.1.8. Giả sử hàm giá trị là C 1 trong một lân cận của x (của (x, t) đối với bài toán với thời gian hữu hạn). Khi đó • TH1: Bài toán với thời gian vô hạn: V∞ (x) + max{−f (x, a).DV∞ (x) − l(x, a)} = 0; a∈A • TH2: Bài toán với thời gian hữu hạn: ∂v (x, t) + H(x, Dx v(x, t)) = 0, t > 0, ∂t • TH3: Bài toán tìm thời gian tối thiểu: H(x, DT (x)) = 1, x∈ / T , T (x) < +∞, • TH4: Bài toán chiết khấu thời gian tối thiểu: V (x) + H(x, DV (x)) = 1, x ∈ / T, trong đó H(x, p) := max{−f (x, a).p}. a∈A Chứng minh. (cho bài toán tìm thời gian tối thiểu). 1. Ta chứng minh H(x, DT (x)) ≤ 1. Cố định một điều khiển hằng a(t) ≡ a0 và đặt y(t) = yx (t, a). Từ nguyên lý quy hoạch động ta có T (x) − T (y(s)) ≤ s với 0 ≤ s < T (x). chia hai vế cho s > 0 ta được: T (x) − T (y(s)) ≤1 s T (x) − T (y(s)) y(s) − y(0) ⇔− · ≤ 1. y(0) − y(s) s 18 Cho s → 0 ta nhận được −DT (x).y 0 (0) ≤ 1. Do y 0 (0) = f (x, a0 ) và a0 ∈ A là tùy ý nên ta thu được max{−f (x, a).DT (x)} ≤ 1. a∈A 2. Ta chứng minh H(x, DT (x)) ≥ 1. Với mọi ε, s > 0 nhỏ, theo nguyên lý quy hoạch động ta có một a ∈ A sao cho T (x) ≥ s + T (y(s)) − εs, trong đó y(s) := yx (s, a). Do vậy T (x) − T (y(s)) Z s 1 s d T (y(s))ds =− s 0 ds Z 1 s =− DT (y(s)).y 0 (s)ds s 0 Z 1 s =− DT (x).f (x, a(s))ds + o(1), s 0 ≤ max{−DT (x).f (x, a)} + o(1). 1−ε≤ s→0 a∈A Bằng cách cho s và ε tiến đến 0 ta nhận được 1 ≤ H(x, DT (x)). Mỗi phương trình đạo hàm riêng trên đều được gắn một cách tự nhiên với một điều kiện biên. Khi đó chúng ta có các bài toán biên hoặc bài toán ban đầu mà ứng cử viên nghiệm của nó là hàm giá trị: • TH1: Bài toán với thời gian vô hạn: u + max{−f (x, a).Du(x) − l(x, a)} = 0 trong RN ; a∈A • TH2: Bài toán với thời gian vô hạn có ràng buộc trạng thái:  u + max{−f (x, a).Du(x) − l(x, a)} = 0 trong Ω, a∈Ax u + max{−f (x, a).Du(x) − l(x, a)} ≥ 0 a∈Ax trên ∂Ω; (1.5) (1.6) 19 • TH3: Bài toán với thời gian hữu hạn: ( ∂u trong RN × (0, +∞), ∂t + H(x, Dx (u) = 0 u(x, 0) = g(x) trên RN × 0; • TH4: Bài toán tìm thời gian tối thiểu:   H(x, Du) = 1 trong Ω \ T , u=0 trên ∂T ,   u(x) → +∞ khi x → ∂Ω, (1.7) (1.8) trong đó Ω ⊇ T là một tập mở. • TH5: Bài toán chiết khấu thời gian tối thiểu: ( u + H(x, Du) = 1 trong RN \ T , u=0 trên ∂T , (1.9) Để ý rằng các bài toán biên ứng với bài toán với thời gian hữu hạn (1.7) ứng với bài toán chiết khấu thời gian tối thiểu (1.9) tương ứng được gọi là bài toán Cauchy và bài toán Dirichlet (nhưng các tập mở RN \T có thể không bị chặn, chẳng hạn khi tập đích T là compact). Phương trình đạo hàm riêng ứng với bài toán với thời gian vô hạn (1.5) được đặt trong toàn bộ không gian. Lúc này, tính bị chặn của V∞ có thể được xem như là điều kiện biên ”ở vô cực” của phương trình đó. Điều kiện biên của bài toán có ràng buộc trạng thái (1.6) là mới và lần đầu tiên nó được đặt ra bởi Soner. Bài toán biên ứng với bài toán tìm thời gian tối thiểu (1.8) là bài toán biên tự do; chúng ta muốn rằng: Ω = R := {x : T (x) < +∞}, (dễ thấy R là tập mở và T (x) → +∞ khi x → ∂R nếu hệ điều khiển được ở gần T ). 20 1.1.5 Phương pháp quy hoạch động Lý thuyết cổ điển của phương pháp quy hoạch động thực hiện với giả thiết phương trình Hamilton-Jacobi-Bellman có một nghiệm (đôi khi chỉ cần một nghiệm dưới) và dùng nghiệm đó để chỉ ra các điều kiện đủ để tồn tại điều khiển tối ưu. Kết quả khi đó thường được gọi là định lý kiểm chứng. Sau đây là một ví dụ về kết quả như vậy đối với bài toán chiết khấu thời gian tối thiểu. Trước hết ta đưa ra định nghĩa hàm kiểm chứng cổ điển: Định nghĩa 1.1.9. Hàm kiểm chứng cổ điển là một hàm bị chặn u ∈ C(RN ) ∩ C 1 (RN \ T ) sao cho ( u + H(x, Du) ≤ 1 u≤0 trong RN \ T , trên ∂T . (1.10) Định lý 1.1.10. Giả sử u là một hàm kiểm chứng cổ điển của bài toán chiết khấu thời gian tối thiểu, x ∈ / T , a∗ (.) ∈ A. (i) Nếu u(x) ≥ J(x, a∗ ) thì a∗ (.) là một điều khiển tối ưu ứng với x (ii) Nếu ( u(y ∗ (t)) − f (y ∗ (t), a∗ (t)).Du(y ∗ (t)) = 1 với hầu hết t ≤ tx (a∗ ), u=0 trên ∂T , (1.11) trong đó y ∗ (.) := yx (., a∗ ), thì a∗ (.) là điều khiển tối ưu ứng với x. Chứng minh. (i) Chúng ta sẽ chứng minh u(x) ≤ V (x), với V là hàm giá trị. Nếu có điều đó thì ta sẽ có V (x) = J(x, a∗ ), chứng tỏ a∗ (.) là điều khiển tối ưu ứng với x. Thật vậy, lấy bất kỳ a(.) ∈ A; y(.) = yx (., a), từ (1.10) ta có d [−e−t u(y(t))] = e−t [u(y(t)) − Du(y(t)).f (y(t), a(t))] ≤ e−t dt

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất