diff --git a/Reinforcement Learning.pdf b/Reinforcement Learning.pdf
index 06db00f..ae369f4 100644
Binary files a/Reinforcement Learning.pdf and b/Reinforcement Learning.pdf differ
diff --git a/Reinforcement Learning.svg b/Reinforcement Learning.svg
index 79ceeaa..1de6117 100644
--- a/Reinforcement Learning.svg
+++ b/Reinforcement Learning.svg
@@ -1,4 +1,4 @@
-]>
\ No newline at end of file
+]]>Reinforcement Learningvalue-based policy-based一般方法目标函数策略梯度定理随机梯度——策略梯度的无偏估计策略网络提升带基线的策略梯度方法带基线的策略梯度定理——b是不依赖于A的任意函数随机梯度是的无偏估计的取值对是有影响的接近关于的均值,方差会比较小是很好的基线REINFORCE折扣回报动作价值是折扣回报的期望用折扣回报的观测值蒙特卡洛近似动作价值策略网络提升带基线的REINFORCE策略网络折扣回报基线——价值网络做出的预测带基线的策略梯度梯度上升价值网络损失函数损失函数的梯度梯度下降Actor-Critic策略网络用价值网络近似动作价值策略网络提升价值网络TD目标损失函数损失函数梯度梯度下降Advantage Actor-Critic (A2C)策略网络贝尔曼公式优势函数(Advantage function)近似策略梯度蒙特卡洛近似用价值网络替换状态价值函数策略网络提升价值网络贝尔曼公式TD目标损失函数损失函数的梯度梯度下降TRPO策略目标Multi-agent完全合作关系multi-agent cooperative A2C(MAC-A2C)策略网络动作A的概率密度函数合作关系 MARL 的策略梯度定理随机梯度——策略梯度的无偏估计用近似,用近似策略网络提升价值网络观测TD目标损失函数损失函数的梯度梯度下降MDP马尔科夫过程马尔科夫奖励过程回报价值函数贝尔曼方程马尔科夫决策过程策略状态价值函数动作价值函数贝尔曼期望方程 贝尔曼最优方程价值网络只起到基线的作用价值网络直接参与策略提升智能体不能独立做决策,需要所有智能体的观测
\ No newline at end of file
diff --git a/Reinforcement Learning.xmind b/Reinforcement Learning.xmind
index fc2d4ec..999f9e7 100644
Binary files a/Reinforcement Learning.xmind and b/Reinforcement Learning.xmind differ