确定性策略梯度公式推导
确定性策略梯度公式推导
David Silver 在文章 Deterministic Policy Gradient Algorithms 中提出了著名的确定性策略梯度公式 \[
\nabla_{\theta}J(\mu_\theta)=\int_{\mathcal{S}}\rho^{\mu}(
...
where strings viberate