バンディット問題では、エージェントの行動によって次に取り組む問題は変わらない。
マルコフ決定過程(MDP)は、エージェントの行動によって状況(状態(state))が変わる問題を扱う。
MDPでは、以下の3つを数式によって定式化する
次の状態s’は状態sと行動aによって一意に決まることを、決定論的な状態遷移という
関数としては以下のようになる(状態遷移関数)
今エージェントが状態Sにいて、行動aを行い、状態S’に移動する確率は以下になる(状態遷移確率)
上記は現在の状況sと行動aに依存してs’が決まるので、現在よりも過去の情報は必要ない
この性質をマルコフ性という
エージェントが状態sにいて、行動aを行い、次の状態がs’になったときの報酬を以下とする
方策はエージェントがどのように行動を決めるかを表す
エージェントがある場所にいるときには、必ず特定の行動を行う
ある状態sにいるときの行動aをとる確率
上記の枠組みの中で最適方策(Optimal Policy)を見つけること。最適方策とは収益を最大化する方策。
「終わりのある問題」。例えば囲碁(最終的に勝ち負け引き分けになる)。
「終わりのない問題」。例えば在庫管理。
時刻はtで状態がStであると仮定する。エージェントが方策πによって行動Atを行い報酬Rtを得て、新しい状態に遷移する流れが続く場合、収益Gtは以下のように定義される
は割引率(0から1の間)と呼ばれる。割引率を導入する理由は連続タスクの場合に報酬が無限大に発散することを防ぎ、近い将来の報酬ほど重要に見せかける。
エージェントは行動を確率的に消えるかもしれないし、状態が確率的に遷移するかもしれずその場合、得られる収益も確率的となる
確率的な挙動に対応するには期待値を使う。収益の期待値は以下のようになる
または
上記のを状態価値関数と呼ぶ
すべての状態において、他のどの方策よりも状態価値関数の値が大きいとき、その方策は最適方策となる。最適方策は決定論的である。数式にすると以下のようになる。
最適方策における状態価値関数は最適状態価値関数と呼ぶ