本記事では,主に用語の確認をする.
なお,強化学習において頻繁に登場する記号たちをExtraMaterialにまとめている.
エージェントと環境
エージェントは,強化学習における主人公的なポジションであり, 行動(Action) をする.エージェントの行動によって,変化するものが 環境(Environment) である.エージェントは,環境の 状態(State) を得ることによって,次の行動を決定する.行動によって評価されるものが 報酬(Reward) である.
まとめると,時刻のとき次の手順を踏む.
- エージェントは環境から状態を得る.
- エージェントは状態を用いて行動を決定する.
- エージェントは行動を実行する.
- エージェントは環境から報酬を得る.
- 時刻に移る.
決定的,確率的挙動
ロボット(エージェント)が迷路の中で,右に移動するという行動を取った.しかし,たまたま床がツルツルで滑ってしまうことが原因で,の確立で左に移動してしまうとする.あるいは,エージェント以外が状態を変化させるような問題も考えられる.このような,行動に対して状態が確率によって変化することを 確率的(stochastic) な挙動 と呼ぶ.逆に,行動が確率によって変化しないことを 決定的(deterministic) な挙動 と呼ぶ.
決定的な挙動は式()で表される. は状態と行動を受け取り,次の状態を返す関数である.
また,状態と行動を取って状態が得られる確率を式()ので表記する. のパイプラインのような記号を用いた表記は,のに条件を付け足すものである. 例えば,迷路の例で,
- =スタート地点
- =上に進む
- =座標1に移動する
の場合は「スタート地点にいて上に進んだときに,座標1に移動する確率」を表している.
なお,決定的な挙動の場合,であると考えれば確率的な挙動の特殊ケースと捉えられる.
マルコフ性
という式は,次の状態が現在の状態と行動のみから決まることを意味している.このような性質を マルコフ性(Markov property) と呼ぶ. 別の言い方をすると,過去の行動や状態は考えなくて良いということである.このマルコフ性を仮定することにより,過去の行動を考えた膨大な行動パターンを考える必要がなくなり,問題が解きやすくなる.
方策
マルコフ性を仮定した場合,現在の状態のみから次の行動を決定する.行動の方針のことを 方策(policy) と呼ぶ. 状態であるときに,行動を取る確率をで表現する. 決定論的な場合はと表すこともある.
エピソードタスクと連続タスク
エピソードタスクはオセロやチェスのような終わりのある問題のことである.オセロであれば,最終的には勝ち負け引き分けのいずれかになる.対して,終わりが考えにくいような問題を連続タスクと呼ぶ.注文を確認して在庫を管理するような問題は,これといった終わりを考えないエンドレスなものだと認識すると連続タスクだと考えられる.
収益
エージェントは時刻から報酬を得ていく.これらの報酬をあわせたものを収益と呼ぶ. 時刻の収益は具体的に式()の計算をする.ただし,は割引率と呼び,である.
割引率を導入することで,未来の報酬を現在の報酬に対してどれだけ重視するかを決めることができる.また,連続タスクでは,を導入しないとは無限大に発散するので,を有限値に収束させるためにも必要である.
状態価値関数
収益を導入したが,は未来の報酬について値を計算するため,報酬の値が不明である.未来では確率的な行動をすることもあり,どの値を報酬として用いるかがわからない.ここで,式()で表される状態価値関数を導入する.
さて,多くの変数が出てきてのでこれらの意味を整理する.
- は状態の価値を表している.
- やの右下についているはこの方策ですよというサインみたいなもの.
- 条件としてという表記をする場合もある.
- はの期待値.
- は,状態にいて,方策を用いたときの収益の期待値を表している. なぜ期待値であるのかというと,方策は確率で様々な行動を取るため,それらの行動を平均化(期待値)したものを収益として用いるためである.
方策をうまく選ぶことで,他のどの方策よりも状態の価値が高くなるようにすることができる1.そのような方策を 最適方策 と呼び,と表す.また,についての状態価値観数(と表すこともある)を 最適状態価値関数 と呼ぶ.
行動価値関数
状態価値関数は,ある状態の価値を表していた.行動価値関数は,ある状態で,行動をしたときの価値を表す.定義式は,状態価値関数に行動の要素を追加させた式で表される.
単に関数と呼ぶこともある.
証明が可能だそう. ↩︎