強化学習 2022.04.29に公開 2022.05.07に更新 5 min reads 強化学習 機械学習 数学 勉強ノート WIP 方策 エージェントがどのように行動を決めるかを表したものを方策 (policy) という。 現在の状態 s のみによって行動 a が決まるような、確率に依らない方策を決定...