diff --git a/Reinforcement Learning.svg b/Reinforcement Learning.svg
index ef2ca66..eb93f26 100644
--- a/Reinforcement Learning.svg
+++ b/Reinforcement Learning.svg
@@ -1,4 +1,4 @@
-]>
\ No newline at end of file
+]]>Reinforcement LearningMDP马尔科夫过程马尔科夫奖励过程回报价值函数贝尔曼方程马尔科夫决策过程策略状态价值函数动作价值函数贝尔曼期望方程蒙特卡洛方法MDP状态价值用策略在上采样很多条序列,计算从这个状态出发的回报再求其期望一条序列只计算一次回报,也就是这条序列第一次出现该状态是计算后面的累积奖励,而后面再出现该状态时,该状态就被忽略了使用策略采样若干条序列对每一条序列中的每一时间步的状态进行以下操作:更新状态的计数器更新状态的总回报每一个状态的价值被估计为回报的期望根据大数定律,当时,有,所以还有一种增量更新方法:两种不同的方法贝尔曼最优方程value-basedDP策略迭代策略评估当时,序列会收敛到实际中,当时,结束策略评估策略提升策略评估策略提升策略评估策略提升策略评估策略提升价值迭代TD价值函数的蒙特卡洛价值函数的时序差分其中,称为时序差分Sarsa初始化序列得到初始状态用贪婪策略根据选择当前状态下的动作时间步得到环境反馈用贪婪策略根据选择当前状态下的动作在线策略行为策略(采样数据表的策略)与目标策略(用这些数据更新的策略)相同,如和皆有当前策略采样得到多步Sarsa使用n步的奖励,然后使用之后状态的价值估计动作价值函数更新Q-Learning初始化序列得到初始状态用贪婪策略根据选择当前状态下的动作时间步得到环境反馈离线策略行为策略(采样数据表的策略)与目标策略(用这些数据更新的策略)不同,如由行为策略采样得到,由当前策略采样得到,蒙特卡洛是无偏的,但有较大的方差;时序差分是有偏的,但方差小蒙特卡洛必须等整个序列采集完之后才能计算回报时序差分只需要当前步结束即可计算policy-based一般方法目标函数策略梯度定理随机梯度——策略梯度的无偏估计策略网络提升带基线的策略梯度方法带基线的策略梯度定理——b是不依赖于A的任意函数随机梯度是的无偏估计的取值对是有影响的接近关于的均值,方差会比较小是很好的基线REINFORCE折扣回报动作价值是折扣回报的期望用折扣回报的观测值蒙特卡洛近似动作价值策略网络提升带基线的REINFORCE策略网络折扣回报基线——价值网络做出的预测带基线的策略梯度梯度上升价值网络损失函数损失函数的梯度梯度下降Actor-Critic策略网络用价值网络近似动作价值策略网络提升价值网络TD目标损失函数损失函数梯度梯度下降Advantage Actor-Critic (A2C)策略网络贝尔曼公式优势函数(Advantage function)近似策略梯度蒙特卡洛近似用价值网络替换状态价值函数策略网络提升价值网络贝尔曼公式TD目标损失函数损失函数的梯度梯度下降TRPO策略目标Multi-agent完全合作关系multi-agent cooperative A2C(MAC-A2C)策略网络动作A的概率密度函数合作关系 MARL 的策略梯度定理随机梯度——策略梯度的无偏估计用近似,用近似策略网络提升价值网络观测TD目标损失函数损失函数的梯度梯度下降价值网络只起到基线的作用价值网络直接参与策略提升智能体不能独立做决策,需要所有智能体的观测结合二者的优势
\ No newline at end of file
diff --git a/Reinforcement Learning.xmind b/Reinforcement Learning.xmind
index a3647c5..42e6d55 100644
Binary files a/Reinforcement Learning.xmind and b/Reinforcement Learning.xmind differ