diff --git a/Reinforcement Learning.svg b/Reinforcement Learning.svg index ef2ca66..eb93f26 100644 --- a/Reinforcement Learning.svg +++ b/Reinforcement Learning.svg @@ -1,4 +1,4 @@ -]>‎Reinforcement ‎Learning‎MDP‎马尔科夫过程‎马尔科夫奖励过程‎回报‎价值函数‎马尔科夫决策过程‎策略‎状态价值函数‎动作价值函数‎贝尔曼期望方程‎蒙特卡洛方法‎MDP状态价值‎一条序列只计算一次回报,也就是这条序列第一‎次出现该状态是计算后面的累积奖励,而后面再‎出现该状态时,该状态就被忽略了使‎两种不同的方法‎贝尔曼最优方程‎value-based‎DP‎策略迭代‎策略评估‎策略提升‎价值迭代‎TD‎价值函数的蒙特卡洛‎价值函数的时序差分‎Sarsa‎在线策略‎多步Sarsa‎使用n步的奖励,然后使用之后状态的价值估计‎动作价值函数更新‎Q-Learning‎离线策略‎蒙特卡洛是无偏的,但有较大的方差;时序差分‎是有偏的,但方差小‎policy-based‎一般方法‎目标函数‎策略梯度定理‎随机梯度——策略梯度的无偏估计‎策略网络提升‎带基线的策略梯度方法‎带基线的策略梯度定理——b是不依赖于A的任意‎函数‎随机梯度线‎REINFORCE‎折扣回报‎动作价值是折扣回报的期望‎用折扣回报的观测值蒙特卡洛近似动作价值‎策略网络提升‎带基线的REINFORCE‎策略网络‎折扣回报‎基线——价值网络做出的预测‎带基线的策略梯度‎梯度上升‎价值网络‎损失函数‎损失函数的梯度‎梯度下降‎Actor-Critic‎策略网络‎用价值网络近似动作价值‎策略网络提升‎价值网络‎TD目标‎损失函数‎损失函数梯度‎梯度下降‎Advantage Actor-Critic (A2C)‎策略网络‎贝尔曼公式‎优势函数(Advantage function)‎近似策略梯度‎策略网络提升‎价值网络‎贝尔曼公式‎TD目标‎损失函数‎损失函数的梯度‎梯度下降‎TRPO‎策略目标‎Multi-agent‎完全合作关系‎multi-agent cooperative A2C(MAC-A2C)‎策略网络‎动作A的概率密度函数‎合作关系 MARL 的策略梯度定理‎随机梯度——策略梯度的无偏估计‎策略网络提升‎价值网络‎观测‎TD目标‎损失函数‎损失函数的梯度‎梯度下降‎价值网络只起到基线的作用‎价值网络直接参与策略提升‎智能体不能独立做决策,‎需要所有智能体的观测‎结合二者的优势 \ No newline at end of file +]]>‎Reinforcement ‎Learning‎MDP‎马尔科夫过程‎马尔科夫奖励过程‎回报‎价值函数‎马尔科夫决策过程‎策略‎状态价值函数‎动作价值函数‎贝尔曼期望方程‎蒙特卡洛方法‎MDP状态价值‎一条序列只计算一次回报,也就是这条序列第一‎次出现该状态是计算后面的累积奖励,而后面再‎出现该状态时,该状态就被忽略了使‎两种不同的方法‎贝尔曼最优方程‎value-based‎DP‎策略迭代‎策略评估‎策略提升‎价值迭代‎TD‎价值函数的蒙特卡洛‎价值函数的时序差分‎Sarsa‎在线策略‎多步Sarsa‎使用n步的奖励,然后使用之后状态的价值估计‎动作价值函数更新‎Q-Learning‎离线策略‎蒙特卡洛是无偏的,但有较大的方差;时序差分‎是有偏的,但方差小‎policy-based‎一般方法‎目标函数‎策略梯度定理‎随机梯度——策略梯度的无偏估计‎策略网络提升‎带基线的策略梯度方法‎带基线的策略梯度定理——b是不依赖于A的任意‎函数‎随机梯度线‎REINFORCE‎折扣回报‎动作价值是折扣回报的期望‎用折扣回报的观测值蒙特卡洛近似动作价值‎策略网络提升‎带基线的REINFORCE‎策略网络‎折扣回报‎基线——价值网络做出的预测‎带基线的策略梯度‎梯度上升‎价值网络‎损失函数‎损失函数的梯度‎梯度下降‎Actor-Critic‎策略网络‎用价值网络近似动作价值‎策略网络提升‎价值网络‎TD目标‎损失函数‎损失函数梯度‎梯度下降‎Advantage Actor-Critic (A2C)‎策略网络‎贝尔曼公式‎优势函数(Advantage function)‎近似策略梯度‎策略网络提升‎价值网络‎贝尔曼公式‎TD目标‎损失函数‎损失函数的梯度‎梯度下降‎TRPO‎策略目标‎Multi-agent‎完全合作关系‎multi-agent cooperative A2C(MAC-A2C)‎策略网络‎动作A的概率密度函数‎合作关系 MARL 的策略梯度定理‎随机梯度——策略梯度的无偏估计‎策略网络提升‎价值网络‎观测‎TD目标‎损失函数‎损失函数的梯度‎梯度下降‎价值网络只起到基线的作用‎价值网络直接参与策略提升‎智能体不能独立做决策,‎需要所有智能体的观测‎结合二者的优势 \ No newline at end of file diff --git a/Reinforcement Learning.xmind b/Reinforcement Learning.xmind index a3647c5..42e6d55 100644 Binary files a/Reinforcement Learning.xmind and b/Reinforcement Learning.xmind differ