ЗАДАЧА ОПТИМАЛЬНОГО КЕРУВАННЯ ДИСКРЕТНИМ ПРОЦЕСОМ МАРКОВА
Анотація
В повідомленні вивчається задача оптимального керування випадковими марківськими
процесами з дискретними станами, для яких перехідні ймовірності і інтенсивності переходів
змінюються в часі. Такі системи застосовуються в економічних і технічних задачах, військо-
вому управлінні [1]. Як приклади наведемо задачу оптимального управління портфелями
цінних паперів, задачу оптимального управління прибутком комерційного банку, задачу оп-
тимального планування активних/захисних дій. Відомо, що для марківських ланцюгів з дис-
кретним часом складаються системи рівнянь Маркова, а для марківських ланцюгів з непере-
рвним часом – системи диференціальних рівнянь Колмогорова [ 1, 3 ]:
pj∕(t)=iijtpit-pj(t)kjk(t), (1)
p0=(p00, p10, …, pn0,…)
p0t+ p1t+ …+ pnt+…=1, ij(t) ≥ 0 (2)
де pit, i=0,1,2,3, – ймовірності станів ланцюга; pi0 – початкові ймовірності;
ij(t) – інтенсивності переходів із стану в стан.
Особливістю лінійної системи диференціальних рівнянь (1) є змінні в часі
інтенсивності ij(t) . Такий підхід застосовується, коли управлінські рішення приймаються на
скінченому проміжку часу і система диференціальних рівнянь (1) розглядається на скінчено-
му інтервалі. Відмітимо, що для диференціальних рівнянь з змінними коефіцієнтами значно
складніше знаходити розв'язки. Якщо в системі (1) є сталими інтенсивності переходів, то
система диференціальних рівнянь має сталі коефіцієнти і можливо аналізувати граничний
при ( t→∞ ) режим, а система (1) переходить при ( t→∞ ) у систему лінійних алгебраїчних
рівнянь.
Якщо перехідні ймовірності, або інтенсивності переходів ij(t) змінні у часі, а сама си-
стема розглядається на скінченному проміжку часу 0≤t≤T, то для відповідних систем, що
керуються марківськими процесами можливо ставити задачу оптимального керування з та-
кими критеріями ефективності (одним, або кількома):
0Tkpk(t)ak(t)dt→max(min ) , (3)
де a(t) – параметри, що характеризують управлінські рішення в термінах одиниць ефектив-
ності. Управліннями є деякі з функцій інтенсивностей переходів ij(t), інші з функцій ijt,
вважаються заданими. Зокрема при плануванні захисних дій заданими є вхідні впливи, а
управліннями – інтенсивності відповідей. При активних діях – навпаки. В задачах управлін-
ня портфелями заданими є курси паперів, а керуваннями є структури портфелів. На
функції ijt, pi(t) можуть також накладатися і додаткові обмеження, які враховують викори-
стання ресурсів.
В тому випадку, коли марківський ланцюг є процесом народження та загибелі [1, 3], то
невідомими управліннями стають інтенсивності переходів в сусідні стани з i – го до (i+1) –
го та (i-1) – го, відповідно: i,i+1t, i,i-1t. Система диференціальних рівнянь набуває вигляду:
124
piΙt=i,i+1pi-1+i,i-1pi+1-pj(t)(i,i+1+i,i-1) . (4)
(i = 0, 1, 2, 3, … )
p0t+ p1t+ …+ pnt+…=1
В деяких випадках (4) дозволяє рекурентне розв'язання.
Якщо i,i+1t, i,i-1t не залежать від номеру стану ланцюга:
i,i+1t=λ(t), i,i-1t=μ(t).
В диференціальній системі рівнянь (4) є дві скалярні функції керування t i (t).
Точне розв'язання задач керування (1), (2), (3) , або (3), (4) можливе у виключних випад-
ках. Розв'язання задачі керування з заданою точністю можливе методами обчислювальної
математики, за допомогою яких задачу управління наближають задачею математичного про-
грамування – одно- , або багатокритеріальною. Для цього вводять дискретний час t : 0≤t0≤
t1≤ t2≤…≤tnT. Інтеграли в (3) замінюють за наближеними квадратурними формулами. Си-
стеми диференціальних рівнянь (1), (4) замінюються системою різницевих рівнянь, а
відповідні різницеві рівняння стають обмеженнями задачі математичного програмування.
Для цього використовують методи Мілна, Рунге-Кутта, Ейлера, або інші. Обмеження на
функції ijt, pi(t) переходять у систему обмежень-нерівностей. При цьому значення інтен-
сивностей переходів ijt і ймовірностей pit є невідомими і визначаються на дискретній мно-
жині точок t: 0≤t0≤ t1≤ t2≤…≤tnT. При вирішенні задачі нелінійного математичного про-
грамування з одним критерієм застосовуються стандартні підходи до їх вирішення. Якщо
задано декілька критеріїв виду (3), то задача математичного програмування стає багатокри-
теріальною і до її розв'язання