Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies | Signal Canvas

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies | Signal Canvas | ScienceToStartup