Logo vi.boatexistence.com

Liệu phép lặp giá trị có luôn hội tụ không?

Mục lục:

Liệu phép lặp giá trị có luôn hội tụ không?
Liệu phép lặp giá trị có luôn hội tụ không?
Anonim

Giống như đánh giá chính sách, chính thức lặp lại giá trị yêu cầu số lần lặp vô hạn để hội tụ chính xác về. Trong thực tế, chúng tôi dừng lại khi hàm giá trị chỉ thay đổi một lượng nhỏ trong một lần quét. … Tất cả các thuật toán này đều hội tụ thành một chính sách tối ưu cho các MDP hữu hạn được chiết khấu.

Phép lặp giá trị có xác định không?

Tuy nhiên, phép lặp giá trị là tổng quát hóa đơn giản của trường hợp xác định. Nó có thể mạnh mẽ hơn trong các bài toán động, cho độ không chắc chắn cao hơn hoặc tính ngẫu nhiên mạnh. NẾU không có thay đổi trong chính sách, hãy trả lại nó như một chính sách tối ưu, ELSE chuyển đến 1.

Việc lặp giá trị có tối ưu không?

3 Lặp lại giá trị. Phép lặp giá trị là phương pháp tính toán chính sách MDP tối ưu và giá trị của nó Lưu mảng V dẫn đến việc lưu trữ ít hơn, nhưng khó xác định một hành động tối ưu hơn và cần thêm một lần lặp để xác định hành động nào dẫn đến giá trị lớn nhất. …

Sự khác biệt giữa lặp lại chính sách và lặp lại giá trị là gì?

Trong quá trình lặp lại chính sách, chúng tôi bắt đầu với một chính sách cố định. Ngược lại, trong phép lặp giá trị, chúng ta bắt đầu bằng cách chọn hàm giá trị. Sau đó, trong cả hai thuật toán, chúng tôi cải tiến lặp đi lặp lại cho đến khi chúng tôi đạt đến sự hội tụ.

Giá trị lặp là gì?

Về cơ bản, thuật toán Lặp lại giá trị tính toán hàm giá trị trạng thái tối ưu bằng cách cải tiến lặp đi lặp lại ước tính của V (các). Thuật toán khởi tạo V (s) thành các giá trị ngẫu nhiên tùy ý. Nó liên tục cập nhật các giá trị Q (s, a) và V (s) cho đến khi chúng hội tụ.

Đề xuất: