diff --git a/Reinforcement Learning.pdf b/Reinforcement Learning.pdf index 06db00f..ae369f4 100644 Binary files a/Reinforcement Learning.pdf and b/Reinforcement Learning.pdf differ diff --git a/Reinforcement Learning.svg b/Reinforcement Learning.svg index 79ceeaa..1de6117 100644 --- a/Reinforcement Learning.svg +++ b/Reinforcement Learning.svg @@ -1,4 +1,4 @@ -]>‎Reinforcement ‎Learning‎value-based‎policy-based‎一般方法‎目标函数‎策略梯度定理‎随机梯度——策略梯度的无偏估计‎策略网络提升‎带基线的策略梯度方法‎带基线的策略梯度定理——b是不依赖于A的任意‎函数‎随机梯度线‎REINFORCE‎折扣回报‎动作价值是折扣回报的期望‎用折扣回报的观测值蒙特卡洛近似动作价值‎策略网络提升‎带基线的REINFORCE‎策略网络‎折扣回报‎基线——价值网络做出的预测‎带基线的策略梯度‎梯度上升‎价值网络‎损失函数‎损失函数的梯度‎梯度下降‎Actor-Critic‎策略网络‎用价值网络近似动作价值‎策略网络提升‎价值网络‎TD目标‎损失函数‎损失函数梯度‎梯度下降‎Advantage Actor-Critic (A2C)‎策略网络‎贝尔曼公式‎优势函数(Advantage function)‎近似策略梯度‎策略网络提升‎价值网络‎贝尔曼公式‎TD目标‎损失函数‎损失函数的梯度‎梯度下降‎Multi-agent‎完全合作关系‎multi-agent cooperative A2C(MAC-A2C)‎策略网络‎动作A的概率密度函数‎合作关系 MARL 的策略梯度定理‎随机梯度——策略梯度的无偏估计‎策略网络提升‎价值网络‎观测‎TD目标‎损失函数‎损失函数的梯度‎梯度下降‎价值网络只起到基线的作用‎价值网络直接参与策略提升‎智能体不能独立做决策,‎需要所有智能体的观测 \ No newline at end of file +]]>‎Reinforcement ‎Learning‎value-based‎policy-based‎一般方法‎目标函数‎策略梯度定理‎随机梯度——策略梯度的无偏估计‎策略网络提升‎带基线的策略梯度方法‎带基线的策略梯度定理——b是不依赖于A的任意‎函数‎随机梯度线‎REINFORCE‎折扣回报‎动作价值是折扣回报的期望‎用折扣回报的观测值蒙特卡洛近似动作价值‎策略网络提升‎带基线的REINFORCE‎策略网络‎折扣回报‎基线——价值网络做出的预测‎带基线的策略梯度‎梯度上升‎价值网络‎损失函数‎损失函数的梯度‎梯度下降‎Actor-Critic‎策略网络‎用价值网络近似动作价值‎策略网络提升‎价值网络‎TD目标‎损失函数‎损失函数梯度‎梯度下降‎Advantage Actor-Critic (A2C)‎策略网络‎贝尔曼公式‎优势函数(Advantage function)‎近似策略梯度‎策略网络提升‎价值网络‎贝尔曼公式‎TD目标‎损失函数‎损失函数的梯度‎梯度下降‎TRPO‎策略目标‎Multi-agent‎完全合作关系‎multi-agent cooperative A2C(MAC-A2C)‎策略网络‎动作A的概率密度函数‎合作关系 MARL 的策略梯度定理‎随机梯度——策略梯度的无偏估计‎策略网络提升‎价值网络‎观测‎TD目标‎损失函数‎损失函数的梯度‎梯度下降‎MDP‎马尔科夫过程‎马尔科夫奖励过程‎回报‎价值函数‎马尔科夫决策过程‎策略‎状态价值函数‎动作价值函数‎贝尔曼期望方程‎贝尔曼最优方程‎价值网络只起到基线的作用‎价值网络直接参与策略提升‎智能体不能独立做决策,‎需要所有智能体的观测 \ No newline at end of file diff --git a/Reinforcement Learning.xmind b/Reinforcement Learning.xmind index fc2d4ec..999f9e7 100644 Binary files a/Reinforcement Learning.xmind and b/Reinforcement Learning.xmind differ